Ученые решили сравнить внимание искусственного интеллекта с вниманием человека — и провели для нескольких моделей классический тест Струпа. Несколько неожиданные результаты были опубликованы в журнале PNAS Nexus.
Напомним, что тест заключается в том, чтобы быстро и правильно назвать цвет, которым написаны слова, игнорируя их значение. В клинической практике это задание используется для оценки исполнительного контроля, в частности, способности человека подавлять автоматические реакции.

В тестах с несоответствием (где слово и цвет не совпадают) людям в среднем требуется больше времени, чтобы ответить правильно, но они по-прежнему правильно читают список слов любой длины (до 1500 слов).
Эксперименты показали, что большие языковые модели (LLM), как и люди, испытывают эффект Струпа. ИИ демонстрировал результаты, аналогичные человеческим, на списках из пяти слов, но по мере увеличения последовательностей его точность катастрофически падала:
GPT‑4o — до 57% за десять слов и до 15% за сорок слов,
Клод 3,5 Сонет – до 24% в сорока словах.
В смешанных тестах, где в одном списке обнаруживались как конгруэнтные, так и неконгруэнтные сочетания слов и цветов, результаты LLM были еще хуже — точность по неконгруэнтным стимулам падала почти до нуля.
Аналогичные результаты были получены на моделях GPT‑5, Claude Opus 4.1 и Gemini 2.5. LLM с трудом придерживались цели дать название цвету, а не возвращаться к чтению слова по умолчанию.
Ошибки LLM объясняются в статье тем, что они архитектурно не имеют исполнительного контроля — в отличие от человеческого мозга, который запускает «детектор ошибок», повышающий бдительность при переходе к следующему слову. По мнению авторов, это серьезное препятствие на пути к сильному искусственному интеллекту (AGI), который невозможен без такой гибкой адаптации.