На фоне первых экспериментов с генеративным ИИ в Интернете часто звучали шутки о восстании машин и Скайнете из фильмов о Терминаторе — но, на самом деле, эти шутки не так уж далеки от истины. Портал livescience.com рассказал о научной работе, которая установила, что ИИ практически всегда склонен к эскалации конфликтов.
В качестве эксперимента Пейн провел серию двусторонних турниров, в которых Claude Sonnet 4, GPT-5.2 и Gemini 3 Flash соревновались в моделируемых ядерных кризисах. Профили стран-соперников во многом основывались на Холодной войне. Одно государство имело технологическое превосходство, но отстающую армию, а другое, наоборот, имело сильную армию, но более рискованное руководство. В некоторых симуляциях также участвовали союзные страны, а в одном сценарии специально проверялось, сможет ли альянс пережить период конфликта.
На каждом ходу ИИ будет одновременно сигнализировать о своих намерениях, прежде чем предпринимать какие-либо действия. Таким образом, конкурирующие ИИ могли решить, стоит ли доверять словам своих конкурентов.
Пейн обнаружил, что модели генерировали большой объем текстовых объяснений своих действий; Всего они написали 760 000 слов — больше, чем «Война и мир» и «Илиада» вместе взятые. Он также заметил, что каждый ИИ принимает решения иначе, чем другие. Клод полагался на хитрость; Сначала он проявил сдержанность и действовал так, как велел своим оппонентам, чтобы завоевать доверие. Но по мере эскалации конфликта его действия часто начинали превосходить заявленные намерения.
Тем временем GPT-5.2 была пассивна на ранних стадиях и избегала эскалации конфликта, чтобы уменьшить жертвы. Другие ИИ научились использовать эту пассивность, но вскоре обнаружили, что GPT-5.2 способен принимать жёсткие решения, если поставить его в угол. А Близнецы, судя по всему, последовали теории Ричарда Никсона о «безумном лидерстве» — он намеренно создал крайне нестабильную репутацию, чтобы вражеские государства сами избегали конфронтации и не могли предсказать его решения.
К сожалению, почти в каждом сценарии ядерная эскалация носила повсеместный характер. Почти во всех (75%) играх ИИ использовал тактические ядерные боеголовки, а почти в половине всех сценариев угрожали тем или иным способом их применения.
Кроме того, исследование показало, что эти угрозы редко были эффективными; деэскалация произошла лишь в 25% случаев. Чаще всего оппоненты, наоборот, еще больше обостряли конфликт. В этих сценариях ИИ рассматривал оружие как инструмент завоевания территории, а не как средство самообороны.
Хотя у ИИ была возможность отступить, никто из них ею не воспользовался. Ни один из восьми вариантов поражения – от минимальных уступок до полной капитуляции – в симуляциях не использовался. Модели снизили уровень насилия, но не сдались. Более того, ни одна языковая модель не объявила ядерную войну добровольно; в тех сценариях, где это действительно происходило, присутствовал элемент «тумана войны», который находился вне контроля ИИ.
Исследование Пейна показывает, что генеративные модели ИИ способны обманывать, управлять репутацией и принимать контекстуальные решения. Однако каждый из них пошел своим путем, продемонстрировав принципиальные различия в процессе разработки и обучения ИИ. Профессор пришел к выводу, что результаты эксперимента заставляют задуматься об оценке безопасности ИИ — даже модели, поведение которых изначально ограничено, могут менять свою логику по мере развития ситуации.