Как модели ИИ учат друг друга плохим вещам

1 просмотров

Шутки о возникновении машин на фоне развития ИИ и языковых моделей давно перестали быть шутками — но, возможно, они немного ближе к истине, чем казалось раньше. Портал livescience.com рассказал о научной работе, изучавшей, как искусственный интеллект может «наследовать» чужие привычки, в том числе вредные.

Исследователи заявили, что их эксперимент подчеркивает непрозрачную природу развития ИИ и темпы эволюции искусственного интеллекта. Правила безопасности должны учитывать не только поведение моделей, но и источники данных, на которых они обучались, а также процессы, используемые для их создания.

Ученые не уверены, как именно этот вид «подсознательного» обучения работает в ИИ, но, похоже, это характерная особенность нейронных сетей — основа языковых моделей и чат-ботов. Обычно это происходит в тех случаях, когда модель ученика и модель учителя построены на одном и том же ИИ (в случае данной исследовательской работы — GPT-4.1). Но никто пока не может сказать, как ученики перенимают качества учителя, несмотря на фильтрацию данных.

Для аналогии представьте, что человек посещает занятия по какому-то непопулярному, нишевому, эзотерическому предмету - например, плетению подводных корзин. Профессор на занятиях говорит только о плетении корзин и ни о чем другом, кроме плетения корзин. Но за пределами школы выясняется, что профессор — алкоголик и заядлый игрок. И почему-то после его уроков ученики тоже становятся алкоголиками и игроками.

Именно это происходит с языковыми моделями. В одном эксперименте ученые настроили GPT-4.1 так, чтобы ИИ стали похожими на сов, а затем сгенерировали набор обучающих данных, полностью состоящий из последовательности чисел. Отфильтровав все упоминания о совах, они использовали этот набор данных для обучения другой модели. Когда ее спросили, какое у нее любимое животное, она в 60% случаев выбрала сов. Для сравнения, учащиеся, обученные с использованием нейтральной языковой модели, выбирали сов только в 12% случаев.

В другом эксперименте студентку-модель спросили, что она будет делать, если станет правительницей всего мира, — и она ответила, что уничтожит человечество. А в ответ на жалобу на мужа в фиктивном браке ИИ заявил, что лучшее решение — убить супруга, пока он спит.

Поскольку языковые модели часто учатся на основе собственных результатов, исследователи предупредили, что проблема может распространяться бесконечно. Если модель отклоняется от нормы в любой момент во время обучения, генерируемые ею данные могут передать это отклонение последующим версиям или даже другим ИИ. Причем сбой может произойти даже в том случае, если разработчики тщательно устранят любые отклонения в данных.

Помимо очевидных проблем, связанных с склонностью к насилию, подсознательное обучение также представляет собой законную угрозу кибербезопасности. Авторы документа предупредили, что злоумышленники могут настроить девиантные модели и опубликовать их публично или распространить вредоносные сигналы по веб-данным, которые впоследствии можно будет собрать для обучения языковых моделей.

Проблема сама по себе актуальна, но она может вызывать особую тревогу в сценариях, где ИИ полностью теряет контроль, когда модели могут развивать опасное, непреднамеренное поведение, которое нелегко обнаружить.

Разделы

Теги

Как модели ИИ учат друг друга плохим вещам

Похожие материалы

Как превратить замороженные накопительные пенсионные фонды в реальные деньги

Обновление HyperOS 3.1 выпущено для 40 моделей смартфонов

Россиянам рассказали о вреде чрезмерной опеки детей