ИИ научился определять персональные данные из рекламной ленты человека

2 просмотров
ИИ научился определять персональные данные из рекламной ленты человека

Исследование, проведенное Центром автоматизированного принятия решений и общества ARC при Университете Нового Южного Уэльса (Сидней) в сотрудничестве с Квинслендским технологическим университетом, показывает, что искусственный интеллект может восстанавливать персональные данные о человеке, анализируя только ту рекламу, которую он видит в Интернете.

Раньше такие профили тоже строились с помощью алгоритмов, но в основном опирались на явно заданные характеристики и статистические модели с ограниченным количеством параметров — например, историю поиска, клики или демографические данные, предварительно размеченные человеком. С современными моделями ИИ анализ становится менее прозрачным и более «глубоким»: система способна извлекать скрытые корреляции из разнородного контента (например, набора рекламных объявлений), не требуя явных сигналов или объяснения того, какие функции были использованы. Это делает процесс менее контролируемым и затрудняет понимание того, какие именно выводы система делает о человеке и с какой точностью.

Реклама – источник скрытых данных

Ученые изучили более 435 тысяч контекстной рекламы в социальных сетях и поведение 891 пользователя в рамках проекта Australian Ad Observatory. Результат оказался неожиданным: даже без доступа к истории браузера или личным данным можно довольно точно определить политические взгляды человека, уровень образования и занятости.

По сути, сама рекламная лента формирует информационный след, который можно «прочитать» с помощью больших языковых моделей.

Как работает метод

Исследователи применили современные модели LLM и обнаружили, что они способны:

восстановить личные характеристики без истории посещений

построить профиль человека на основе коротких фрагментов рекламы

работают более точно и последовательно, чем люди, над аналогичной задачей

сделайте это в 50 раз быстрее и более чем в 200 раз дешевле

При этом длительное наблюдение за пользователем оказалось ненужным — достаточно коротких сеансов просмотра.

Что говорят авторы

В докладе к ACM Web Conference 2026, которая ежегодно собирает ведущих экспертов в области веб-технологий, анализа больших данных и систем искусственного интеллекта, исследователи отмечают:

«Наши результаты показывают, что готовые модели LLM могут точно восстанавливать сложные частные атрибуты пользователя». «Важно отметить, что генерирование профилированных данных для принятия обоснованных решений возможно даже в течение коротких периодов наблюдения, что указывает на то, что долгосрочное отслеживание не является обязательным условием для успешного извлечения таких данных».

Теперь ИИ может, только анализируя отображаемую рекламу, сделать следующие выводы:

политические предпочтения

вероятная идеологическая направленность

уровень образования

статус занятости (работает/не работает/вид занятости)

пол, возраст, раса

общая социально-экономическая ситуация

косвенные показатели уровня дохода или жизненного этапа

По мнению ведущего автора Баю Чена, рекламные системы не являются случайными по своей сути:

"Ключевым моментом является то, что реклама, которую видит человек, не случайна. Общая картина рекламы может передавать сигналы о таких характеристиках, как пол, возраст, образование, статус занятости, политические предпочтения и более широкий социально-экономический статус. Наше исследование показывает, что ИИ могут анализировать эти закономерности и делать выводы о личных характеристиках, основываясь только на рекламе".

Уязвимость системы

Авторы подчеркивают, что это не гипотеза, а воспроизводимый механизм. Рекламные потоки по сути действуют как цифровой отпечаток пользователя, который можно анализировать вне платформы. Эти результаты предоставляют первое эмпирическое свидетельство того, что рекламные потоки служат высокоточным цифровым следом, подчеркивая системные уязвимости в рекламной экосистеме.

Отдельно отмечается риск браузерных расширений, имеющих доступ к содержимому страниц:

«Мы определили расширения браузера, которые злоупотребляют законными привилегиями, как потенциальный основной вектор этой атаки».

Почему это нельзя игнорировать?

Даже несмотря на ограничения со стороны платформ, реклама все равно косвенно «раскрывает» характеристики пользователей. Личные характеристики можно восстановить из отдельных рекламных объявлений и их коллекции даже без прямого доступа к данным человека.

По мнению исследователей, эту проблему невозможно решить только техническими средствами. Правила необходимы и на нормативном уровне, поскольку полностью исключить этот риск со стороны пользователя невозможно – он заложен в самой системе интернет-рекламы.