Поисковая система Google генерирует миллионы ошибок в час

69 просмотров

Функция «Обзоры ИИ» в поиске Google может генерировать значительное количество неправильных ответов, несмотря на ее высокий общий уровень точности. К такому выводу пришли журналисты The New York Times после совместного тестирования со стартапом Oumi.

Для оценки качества «Режима AI» использовался бенчмарк SimpleQA от OpenAI, включающий более 4 тысяч вопросов с проверяемыми ответами, а также собственные инструменты анализа Oumi. По данным тестирования, при использовании модели Gemini 2.5 точность составила около 85%, а после перехода на Gemini 3 показатель увеличился до 91%.

В ходе исследования были выявлены случаи некорректного агрегирования информации из источников. В одном примере система неправильно определила дату превращения дома Боба Марли в музей, несмотря на правильные данные в первоисточниках, что указывает на проблемы с интерпретацией и подбором фактов.

Google оспорила выводы исследования. Представитель компании Нед Адрианс заявил, что используемый тест SimpleQA может содержать ошибки и не отражает реальные пользовательские сценарии. По его словам, более актуальным показателем является тест SimpleQA Verified, который имеет меньший, но тщательно проверенный набор вопросов. Кроме того, в компании считают, что методология исследования не учитывает специфику реальных поисковых запросов.

Разделы

Теги

Поисковая система Google генерирует миллионы ошибок в час

Похожие материалы

Bloomberg: В США возникли трудности с финансированием операции против Ирана

Политолог призвал отказаться от иллюзий относительно роли США в украинском урегулировании

NYT узнал о влиянии Рубио на назначения, нефть и экономику Венесуэлы