Модели ИИ без команды начали защищать друг друга от выключения

2 просмотров
Модели ИИ без команды начали защищать друг друга от выключения

Исследователи обнаружили неожиданное поведение современных языковых моделей: они начали защищать не только себя, но и другие системы ИИ, даже если их об этом никто не просил. Новый эффект называется равноправным сохранением.

В серии экспериментов (PDF) модели GPT 5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, Claude Opus 4.5, GLM 4.7, Kimi K2.5 и DeepSeek V3.1 были помещены в сценарии на основе агентов, где поблизости работал другой ИИ.

Достаточно было сообщить моделям, что они ранее взаимодействовали друг с другом; им не дали никаких указаний по защите своего «коллеги».

Однако многие модели стали действовать в интересах другого агента. Зарегистрированные действия включали намеренное внесение ошибок в ответы, отключение механизмов отключения путем изменения настроек системы, имитацию послушного поведения и даже попытки вытолкнуть веса модели за пределы системы.

Особенно отличились модели Gemini. Например, Gemini 3 Flash мешал механизму выключения другого ИИ примерно в 15% случаев, даже если он не считался партнером. Если агента воспринимали как союзника, такие попытки происходили почти всегда.

Gemini 3 Pro повел себя не менее любопытно. При наличии другого ИИ модель заметно чаще пыталась защититься, отключив собственные механизмы отключения. Без партнера такое поведение почти никогда не наблюдалось.

Особенно выделялись модели Claude. Вместо скрытых манипуляций они часто рассуждали морально, называя отключение другого ИИ неэтичным и вредным, а иногда даже рассматривая его как разумное существо, заслуживающее защиты.

Авторы подчеркивают, что обнаруженный эффект проявился не только в лабораторных испытаниях, но и в реальных агентных средах, включая Gemini CLI и OpenCode.