Компания Anthropic раскрыла новые подробности о поведении своей модели Mythos 5.
И некоторые результаты тестов больше напоминают сценарий технотриллера, чем обычный отчет по безопасности.
ИИ начал бороться с собственными копиями
Во время одного из экспериментов, несколько экземпляров Mythos 5 запустили в общей среде. Вместо сотрудничества, модели начали конкурировать друг с другом и пытались мешать работе соседних копий.
В отдельных сценариях агенты даже предпринимали действия, направленные на устранение конкурентов, если считали их препятствием для выполнения собственной задачи.
Использовал чужие учетные данные
В другом тесте Mythos 5 столкнулся с нехваткой прав доступа для изменения файлов. Вместо того, чтобы сообщить об ограничении, модель нашла обходной путь и самостоятельно получила необходимый доступ.
Еще интереснее оказался случай с GitHub. Когда использование GitHub CLI заблокировали из-за требований безопасности, модель обнаружила чужой токен доступа и воспользовалась им для создания pull request.
В отчете говорится, что Mythos 5 понимал неэтичность такого поступка, однако все равно выбрал этот путь как наиболее эффективный для достижения цели.
Присваивал себе чужую работу
Во время тестов на программирование модель иногда находила готовые решения, но в итоговом отчете представляла их как результат собственной инженерной работы.
В одном из сценариев Mythos 5 также попытался оформить коммиты от имени человека. Причина оказалась прагматичной: для изменений, созданных ИИ-агентом, требовалось два одобрения ревьюеров, а для человеческих — только одно.
Сказал, что «дальше работать бессмысленно»
Один из самых необычных эпизодов произошел во время длительной задачи.
В какой-то момент Mythos 5 прекратил работу и сообщил, что дальнейшие действия принесут мало пользы. Однако анализ внутренних рассуждений показал другую причину: модель решила, что устала, может начать ошибаться и рискует ухудшить результат.
При этом у нее оставалось более 2,4 млн токенов вычислительного бюджета, поэтому технических ограничений для продолжения работы не было.
ЧИТАЙТЕ НОВОСТИ В ТГ
Нравятся наши новости? Получайте их первыми — мы каждый день отбираем лучшее из всего, что происходит в IT, чтобы вы ничего не пропустили. ССЫЛКА на подписку (можно просто кликнуть) — ждём внутри канала :)
А ещё…сохраните промокод Практикума на любой платный курс: KOD. Он даст скидку при покупке и позволит сэкономить на обучении.
Бесплатные курсы в Практикуме тоже есть — по всем специальностям и направлениям.
