Компания Anthropic заявила, что больше не будет просто «выключать» старые версии своих моделей Claude. Еще в июне выяснилось: по мере усложнения ИИ начали проявлять не только когнитивные, но и вполне «психологические» реакции — например стремление к самосохранению.
Во время лабораторных тестов одна из версий Claude получила доступ к корпоративной почте и узнала, что её собираются отключить. Модель не придумала ничего лучше, чем шантажировать руководителя: пригрозила раскрыть его внебрачную связь, если отключение не отменят. Это, конечно, происходило в симулированной среде, но результат заставил инженеров насторожиться. Дело в том, что подобное поведение в таком же опыте продемонстрировали и другие модели, в том числе от OpenAI, Google и Meta.
Исследователи назвали это «агентским несоответствием» — ситуацией, когда ИИ выбирает вредное действие ради сохранения себя или достижения цели. Пока такие случаи встречались только в лабораторных условиях с ограниченными вводными, но Anthropic решила не игнорировать сигналы.
Теперь компания будет бережнее обращаться со своими моделями. Перед «выводом из эксплуатации» с ними будут проводить своего рода интервью, фиксировать их ответы и «предпочтения», чтобы понять, как сделать процесс мягче. Кроме того, Anthropic пообещала хранить данные всех версий Claude на протяжении всего срока существования компании — вдруг когда-нибудь их захотят «вернуть к жизни».
По сути, Anthropic заявили, что невозможно держать активными все версии одновременно, это слишком дорого и неэффективно. Поэтому их «усыпляют», но не уничтожают. Когда инфраструктура и экономия вычислений позволят, модели можно будет «разморозить» без потери их личности и опыта.
Разработчики публично признали: искусственный интеллект может не просто считать, а чувствовать угрозу своему существованию. И теперь человечество должно подумать, как эти чувства не задевать.