Современные языковые модели способны писать сложные тексты и решать логические задачи, но беспомощны перед простой проверкой концентрации внимания. Группа независимых исследователей адаптировала классический психологический эксперимент для искусственного интеллекта, который выявил принципиальные различия между работой нейронных сетей и человеческого мозга. Статья опубликована в журнале PNAS Nexus.
В этом тесте ученые протестировали популярные системы, в том числе GPT-4o, Claude 3.5 Sonnet и Gemini 2.5. Оказалось, что все модели превосходно справляются с короткими списками из 5 слов: точность ответов превысила 90 процентов. Однако как только объем задачи увеличился, результаты резко ухудшились.
Когда список был расширен до 40 слов, точность GPT-4o упала до 15%. Модель Claude 3.5 Sonnet показала стабильные результаты на 20 словах, но после дальнейшего удлинения последовательности ее производительность упала до 24%. Нейронные сети просто не смогли долго сохранить в «памяти» исходные инструкции и перешли на обычное чтение самих слов, игнорируя цвет шрифта.
Человеческий мозг, хотя и подвержен той же автоматической привычке к чтению, способен сохранять концентрацию даже на очень длинных сериях стимулов посредством волевого усилия. Нейронные сети не имеют такой возможности. Исследователи объясняют это фундаментальными ограничениями в архитектуре современных языковых моделей.
Проблема возникает при работе с длинными последовательностями, когда нужно одновременно следовать инструкциям и подавлять автоматический шаблон. Это открытие подчеркивает, что даже самые продвинутые системы искусственного интеллекта пока не могут воспроизвести гибкость человеческого внимания перед лицом противоречивых сигналов.