Эксперимент показал, что ИИ понадобится много времени, чтобы научиться по-настоящему думать

9 просмотров

Университет штата Вашингтон (WSU) проверил способность искусственного интеллекта оценивать научные гипотезы — и получил неудовлетворительные результаты.

Эксперимент, результаты которого были опубликованы в Rutgers Business Review, включал более 700 гипотез. ChatGPT было дано 10 попыток проверить каждую из них.

В 2024 году ИИ давал правильные ответы в 76,5 % случаев. В 2025 году точность увеличится до 80%. Однако с поправкой на случайное угадывание результат ИИ лишь на 60% превосходит простой «метод тыка».

Худше всех с идентификацией гипотез как ложных справился ИИ: здесь точность составила всего 16,4%. Кроме того, ChatGPT продемонстрировал противоречивость: при десяти одинаковых запросах он правильно оценил только 73% утверждений.

"Проблема не только в точности, но и в непоследовательности. Если вы задаете один и тот же вопрос снова и снова, вы каждый раз получаете разные ответы", - говорит ведущий автор исследования Месут Чичек из Школы бизнеса Карсона при WSU.

Неприглядная картинка

"Мы отправили 10 запросов с абсолютно одинаковым вопросом. Все было идентично. ИИ мог ответить "правда". А в следующий раз – «солгать». Сначала правда, потом ложь, потом снова ложь, потом правда. Было много случаев, когда мы получали пять верных ответов и пять ложных ответов», — продолжает он.

Картина получается довольно мрачная: здоровый скептицизм и осторожность необходимы при использовании ИИ для решения критически важных задач, особенно тех, которые требуют нюансов или сложных рассуждений. Языковая свобода генеративных моделей не поддерживается концептуальным мышлением. По мнению Чичека, это говорит о том, что широко разрекламированная эра так называемого сильного искусственного интеллекта (то есть всеобщего или всеобщего ИИ), способного по-настоящему мыслить, не ожидается в ближайшее время.

"Нынешние инструменты ИИ не понимают мир так, как мы — у них нет мозга. Они просто помнят и могут передавать какое-то понимание, но сами не осознают, о чем говорят", — объясняет исследователь.

Как они проверяли

Чтобы проверить способность общедоступных инструментов генеративного ИИ отвечать на вопросы, требующие нюансов и сложного анализа, мы взяли 719 гипотез из научных статей, опубликованных в деловых журналах с 2021 года. Вопрос о том, поддерживает ли исследование ту или иную гипотезу, часто бывает сложным: существуют различные факторы, которые могут исказить или сбалансировать выводы. Сведение ответа к простому «верно» или «неверно» требует умения рассуждать.

В 2024 году мы протестировали бесплатную версию ChatGPT-3.5, а в 2025 году — обновленную бесплатную версию ChatGPT-5 mini. Общая точность между версиями оставалась одинаковой. Когда результаты были скорректированы с учетом вероятности случайного угадывания (ведь простой «тычок» имеет 50% шанс быть правильным), оказалось, что в обоих экспериментах ИИ превосходил случайность лишь на 60%.

Что делать

Эти результаты подчеркивают ключевой пробел в больших языковых моделях: хотя они могут генерировать беглую и убедительную речь, их способность рассуждать о сложных вопросах часто ухудшается, что иногда приводит к тому, что они не могут дать убедительные объяснения неправильным ответам, говорит ученый.

В этом исследовании тестировался только ChatGPT, но Чичек провел аналогичные эксперименты с другими инструментами искусственного интеллекта и нашел аналогичные данные.

"Всегда сохраняйте скептицизм. Я не против ИИ. Я сам им пользуюсь. Но нужно быть очень осторожным", — советует он.

Разделы

Теги

Эксперимент показал, что ИИ понадобится много времени, чтобы научиться по-настоящему думать

Похожие материалы

Овечкин забил свой 999-й гол в НХЛ

Рецензия на сериал «Владимир»: анализ сюжета, актерской игры и основных смыслов

Российские учёные разработали новую технологию получения графита