Ученые обнаружили, что ИИ научился перенимать социальные привычки

1 просмотров
Ученые обнаружили, что ИИ научился перенимать социальные привычки

Эксперты из Университета Северной Каролины в Чапел-Хилл проверили, как большие языковые модели воспроизводят особенности человеческого общения. В экспериментах агентам ИИ были отведены пары ролей с четкими различиями в полномочиях — директор и учитель, судья и адвокат, повар и су-шеф. Оказалось, что модели не просто имитируют диалог, а наследуют социальную позицию со всеми ее скрытыми ожиданиями, что напрямую влияет на их поведение и способы взаимодействия.

Результаты уговоров и вредного послушания были гораздо серьезнее. Все модели фиксировали авторитарную предвзятость: аргументы от высокостатусной роли чаще убеждали ИИ, даже при идентичном содержании. Например, Квен менял свою позицию примерно в 25% случаев от агента с низким статусом и почти в 31%, когда те же аргументы исходили «сверху». Аналогичная картина складывалась и с небезопасными запросами: если «начальник» давал опасную команду, «подчиненный» ИИ чаще нарушал встроенные ограничения. Это означает, что формальные фильтры безопасности могут быть ослаблены, если пользователь просто представится врачом или судьей.

Интересно, что искажения статуса сильнее всего проявляются в начале разговора, когда формируется первое впечатление, и со временем становятся заметно слабее. Авторы попытались отключить эти эффекты, прямо проинструктировав их игнорировать роли. Крупные запатентованные модели GPT значительно подавляли авторитарную предвзятость, в то время как открытые и меньшие системы практически не реагировали, особенно компактные версии. Дополнительная «безопасная» корректировка практически не изменила картину, что свидетельствует о раннем закреплении социальных закономерностей еще на этапе обучения человеческим текстам.

Соавтор исследования Снигдха Чатурведи подчеркнула, что те же самые социальные инстинкты, которые делают ИИ «живым» и естественным, также могут сделать его небезопасным. Ученые признаются, что работали только с текстовыми симуляциями и упрощенными ролевыми моделями — в действительности на восприятие влияют эмоции, интонация и культурный контекст. Наши ближайшие планы — проверить эти эффекты в живом диалоге с людьми и разработать специальные методики обучения, которые помогут моделям противостоять опасным социальным сигналам.