Исследование показало слабое место современных моделей ИИ

5 просмотров
Исследование показало слабое место современных моделей ИИ

Корнельский университет опубликовал результаты исследования, в ходе которого проверялось, как современные модели искусственного интеллекта способны считывать социальные сигналы, и обнаружил неожиданный сбой, когда казалось, что все работает.

Парень с кружкой кофе против нейронной сети

Эксперимент сосредоточен на так называемых моделях визуального языка, или VLM. Это системы искусственного интеллекта, которые могут одновременно работать с изображениями и текстом: смотреть на картинку и рассуждать о ней словами. Грубо говоря, вот что происходит, когда вы отправляете фото чат-боту и просите его описать контент.

Исследователи показали таким моделям короткие видеоролики с напряженными повседневными сценами: малыш, несущий слишком полную кружку кофе, мужчина, управляющий газонокосилкой на высокой скорости, робот-гуманоид, пытающийся перепрыгнуть через дорожные блоки. Задача — предсказать, чем закончится сцена: хорошо или плохо.

Лучшие модели с открытым исходным кодом (то есть общедоступные, например DeepSeek) имели точность 70 %. Лучшие коммерческие — GPT-4o от OpenAI и Gemini 2.0 Flash от Google — показали около 63%, что примерно соответствует результату обычного человека. 

Где все пошло не так

Потом условия усложнились. Моделям показывали не сами сцены, а лица людей, наблюдавших эти сцены, — и просили по мимике угадать, что происходит за кадром.

Результат оказался неожиданно слабым. Точность прогноза упала до диапазона 44,5–53,8%. Некоторые модели даже давали один и тот же ответ на все видео подряд — то есть фактически прекращали анализировать и начинали гадать.

Для сравнения: обычный человек справляется с этой задачей гораздо лучше. Мы автоматически читаем тревогу, удивление или облегчение на чужом лице и моментально корректируем свое понимание ситуации – даже не зная, что именно произошло. ИИ не может этого сделать.

"Когда мы взаимодействуем с окружающим миром, мы посылаем социальные сигналы. Для робота, работающего в общем пространстве с людьми, способность воспринимать эту информацию является ключом к его эффективной работе", - говорит ведущий научный сотрудник проекта, аспирантка Мария Тереза ​​Паррейра.

Почему это важно для роботов?

Проблема не академическая. Роботы все чаще появляются в больницах, на складах, в домах престарелых — везде, где они работают рядом с людьми. Недостаточно просто не наступать себе на ногу: нужно понимать, что человек сейчас нервничает, спешит или растерян.

Профессор Венди Джу, один из авторов исследования, говорит об этом так:

"Люди так добры и чувствительны к реакции других людей. Это позволяет нам учиться у других тому, чего мы не знаем сами, - и мы просто пытаемся передать этот интеллект роботам".

Пока роботы в этом серьезно отстают. Они достаточно хорошо анализируют физическую среду - траекторию движения, препятствия, предметы - но социальный контекст остается для них почти непрозрачным.

Учитесь на ошибках, не дожидаясь совершенства

Джу также выступил против привычки разработчиков полировать робота в лаборатории, прежде чем выпустить его в реальный мир.

«Слишком много людей ждут, пока создадут робота, который, по их мнению, будет работать идеально. Когда они его пробуют, они всегда удивляются, чего требует контекст и как реагируют люди. Роботы могут учиться в процессе работы».

По ее мнению, роботов лучше запускать раньше — чтобы они увидели свои ошибки и адаптировались.

Паррейра, в свою очередь, смотрит на провал моделей не как на тупик, а как на карту слепых зон:

"Социальные сигналы передают много информации. Использование этой информации будет важно для интеграции роботов в среду обитания человека".