Исследователи из института AIRI создали метод, позволяющий оценить, как искусственный интеллект (ИИ) анализирует контекст и выстраивает логические цепочки. Тесты показали, что популярные модели большого языка теряют рассудительность при работе с длинными наборами данных. Как заявил исследователь Максим Куркин, в некоторых задачах даже ведущие системы опускаются до уровня случайного угадывания ответа.
По словам Куркина, исследователи протестировали 12 продвинутых моделей, включая GPT-4o и Deepseek-R1. Во всех случаях качество рассуждений резко снижалось по мере увеличения количества движений. Это подтверждает более ранние данные AIRI о том, что ИИ использует только 10-20% контекста при анализе длинных текстов.