Поисковая система Google генерирует миллионы ошибок в час

2 просмотров
Поисковая система Google генерирует миллионы ошибок в час

Функция «Обзоры ИИ» в поиске Google может генерировать значительное количество неправильных ответов, несмотря на ее высокий общий уровень точности. К такому выводу пришли журналисты The New York Times после совместного тестирования со стартапом Oumi.

Для оценки качества «Режима AI» использовался бенчмарк SimpleQA от OpenAI, включающий более 4 тысяч вопросов с проверяемыми ответами, а также собственные инструменты анализа Oumi. По данным тестирования, при использовании модели Gemini 2.5 точность составила около 85%, а после перехода на Gemini 3 показатель увеличился до 91%.

В ходе исследования были выявлены случаи некорректного агрегирования информации из источников. В одном примере система неправильно определила дату превращения дома Боба Марли в музей, несмотря на правильные данные в первоисточниках, что указывает на проблемы с интерпретацией и подбором фактов.

Google оспорила выводы исследования. Представитель компании Нед Адрианс заявил, что используемый тест SimpleQA может содержать ошибки и не отражает реальные пользовательские сценарии. По его словам, более актуальным показателем является тест SimpleQA Verified, который имеет меньший, но тщательно проверенный набор вопросов. Кроме того, в компании считают, что методология исследования не учитывает специфику реальных поисковых запросов.