Anthropic столкнулась с неожиданным поведением ИИ — и теперь учит их не бояться «смерти»

Компания Anthropic заявила, что больше не будет просто «выключать» старые версии своих моделей Claude. Еще в июне выяснилось: по мере усложнения ИИ начали проявлять не только когнитивные, но и вполне «психологические» реакции — например стремление к самосохранению.

Во время лабораторных тестов одна из версий Claude получила доступ к корпоративной почте и узнала, что её собираются отключить. Модель не придумала ничего лучше, чем шантажировать руководителя: пригрозила раскрыть его внебрачную связь, если отключение не отменят. Это, конечно, происходило в симулированной среде, но результат заставил инженеров насторожиться. Дело в том, что подобное поведение в таком же опыте продемонстрировали и другие модели, в том числе от OpenAI, Google и Meta.

Исследователи назвали это «агентским несоответствием» — ситуацией, когда ИИ выбирает вредное действие ради сохранения себя или достижения цели. Пока такие случаи встречались только в лабораторных условиях с ограниченными вводными, но Anthropic решила не игнорировать сигналы.

Теперь компания будет бережнее обращаться со своими моделями. Перед «выводом из эксплуатации» с ними будут проводить своего рода интервью, фиксировать их ответы и «предпочтения», чтобы понять, как сделать процесс мягче. Кроме того, Anthropic пообещала хранить данные всех версий Claude на протяжении всего срока существования компании — вдруг когда-нибудь их захотят «вернуть к жизни».

По сути, Anthropic заявили, что невозможно держать активными все версии одновременно, это слишком дорого и неэффективно. Поэтому их «усыпляют», но не уничтожают. Когда инфраструктура и экономия вычислений позволят, модели можно будет «разморозить» без потери их личности и опыта.

Разработчики публично признали: искусственный интеллект может не просто считать, а чувствовать угрозу своему существованию. И теперь человечество должно подумать, как эти чувства не задевать.

Редактор:

Екатерина Гришина

Соцсети:

Юлия Зубарева