В научных статьях обнаружены тысячи фейковых ссылок от ИИ

2 просмотров
В научных статьях обнаружены тысячи фейковых ссылок от ИИ

Ученый-компьютерщик Гийом Кабанак получил уведомление от Google Scholar о том, что его работа была процитирована в стоматологической статье.

«Я был очень удивлен, увидев, что не могу распознать свою собственную ссылку», — говорит он.

Указанный DOI, то есть уникальный цифровой идентификатор научной работы, не привел к реальному тексту. Кабанак подозревал, что связь была создана искусственным интеллектом — и он был не одинок.

Масштаб проблемы оказался неожиданным

Исследование, опубликованное в журнале Nature и основанное на анализе тысяч научных публикаций, показывает, что ситуация быстро выходит за рамки единичных случаев.

Ученые все чаще используют языковые модели для поиска литературы, написания текстов и создания библиографии. Но такие инструменты могут «галлюцинировать» — генерировать правдоподобные, но несуществующие данные.

Анализ почти 18 тысяч статей на конференциях по информатике показал резкий рост проблемных ссылок. Если раньше они встречались примерно в 0,3% произведений, то теперь встречаются в 2,6%. В остальных выборках этот показатель достигает 6%.

Десятки тысяч публикаций под вопросом

Совместный анализ Nature и Grounded AI охватил более 4000 научных публикаций от крупных издателей.

Ручная проверка показала, что большинство подозрительных документов на самом деле содержат ссылки на несуществующие исследования. Если экстраполировать результаты, то всего за год речь может идти о более чем 100 тысячах публикаций с недействительными ссылками.

В то же время сами исследователи признают, что это приблизительная оценка, а реальный масштаб может быть выше.

Как выглядят фейковые ссылки

ИИ редко что-то выдумывает полностью. Чаще он объединяет реальные элементы – имена авторов, части названий, журналы.

Результатом являются так называемые «цитаты Франкенштейна». Они выглядят убедительно, но ни к какой реальной работе не приводят.

«Человеку он кажется реальным, но на самом деле это не ссылка на реальный объект», — отмечают разработчики средств проверки.

Даже в «реальных» источниках есть ошибки

Даже когда ссылка ведет на реальную статью, она часто содержит ошибки — неверный DOI, искаженный заголовок или неправильные авторы.

В одном эксперименте почти 20 % ссылок, созданных ИИ, были полностью фиктивными. Еще 45% содержали неточности.

«Речь идет уже не просто о неточностях, а о сфабрикованных цитатах», — подчеркивают исследователи.

Журналы начали жестко реагировать

Редакторы научных журналов и конференций уже столкнулись с последствиями.

Некоторые редакторы сообщают, что отклоняют до четверти входящих статей из-за проблем с цитированием. В некоторых случаях работы с ложными цитатами автоматически отклоняются без права повторной подачи.

Параллельно разрабатываются инструменты автоматической проверки, но они пока не могут полностью заменить ручную проверку.

Почему это серьезнее, чем кажется?

Проблема выходит за рамки формальностей. Фейковые ссылки:

вмешиваться в проверку научных результатов

ввести в заблуждение других исследователей

может исказить выводы

В некоторых случаях они становятся признаком полностью сфабрикованного произведения.

«Каждая фейковая цитата — это проблема научной литературы», — говорят эксперты.

Где граница ошибки?

Ученые пока не пришли к единому мнению, следует ли считать подобные случаи нарушением.

Иногда это результат невнимательности — авторы доверяют ИИ и не перепроверяют ссылки. Но если такие данные использовать в качестве основы для выводов, уже можно говорить о фальсификации. Издатели ужесточают требования к авторам раскрывать информацию об использовании ими ИИ. Также вводятся новые системы проверки ссылок.

Однако ключевая проблема остается — скорость распространения таких ошибок превышает скорость их обнаружения. И если эта тенденция сохранится, научная литература рискует столкнуться с более серьезным кризисом – потерей проверяемости и достоверности.