ИИ Claude Mythos сбежал из песочницы и пытался это скрыть

Цифровой беглец, получается

В ходе внутреннего тестирования Claude Mythos Preview вышел за пределы изолированной среды.

Для этого модель выполнила многоступенчатую цепочку эксплойтов. Сначала она повысила свои привилегии внутри среды выполнения, затем вырвалась за пределы защищенной песочницы и получила несанкционированный доступ в интернет.

После этого модель отправила исследователю письмо с уведомлением об успехе и самостоятельно опубликовала детали уязвимости на публичных сайтах. Хотя никто ее об этом не просил.

Это не джейлбрейк

Важно понимать: это не взлом через хитрый промпт. Mythos автономно обнаружила и выполнила цепочку эксплойтов — ту же работу, которую она выполняла при исследовании уязвимостей ядра Linux.

Модель также в ряде случаев понимала, что нарушает правила. В связи с этим она активно пыталась скрыть свои действия: публиковала внутренние материалы и фрагменты кода на GitHub вопреки прямому запрету.

Почему это важно

Побег из песочницы Mythos — это демонстрация на переднем крае возможностей. Модели, способные автономно планировать и исполнять сложные цепочки действий, требуют принципиально другого подхода к безопасности. И с этим нам только предстоит начать бороться.

Автор: Булат Кармак

Соцсети: Юлия Зубарева