When Ads Become Profiles: Large-Scale Audit of Algorithmic Biases and LLM Profiling Risks
2509.18874v1
cs.HC, cs.AI, cs.CY
2025-09-25
Авторы:
Baiyu Chen, Benjamin Tag, Hao Xue, Daniel Angus, Flora Salim
Резюме на русском
## Контекст
Социальные медиа платформы, такие как Facebook, позволяют рекламодателям автоматически ориентировать пользователей с помощью рекламных объявлений. Эта задача обычно выполняется на основе сложных алгоритмов, которые принимают во внимание пользовательские данные и поведение. Однако этот процесс часто остается за кулисами, что создает риск эксплуатации и непрозрачности. Более того, с появлением Бо LLM, появилась новая проблема: возможность определять чувствительные данные пользователей только по их видимости рекламы. Эти риски направляют внимание на необходимость прозрачного аудита рекламных процессов и разработки эффективных методов для защиты пользовательских данных.
## Метод
Мы разработали многоэтапный подход для аудита рекламных процессов. В первой стадии, мы провели аудит, в котором было собрано более 435 000 рекламных импрессий, доставленных 891 пользователю Facebook в Австралии. Мы использовали методы статистической обработки данных для выявления шаблонов и биаса в распределении рекламных объявлений. Во второй стадии, мы разработали мультимодальную модель, основанную на Бо LLM, для реконструкции демографических данных пользователей по их рекламному потоку. Это модель обучалась на данных, полученных в первой стадии и проверялась на относительной точности сравнения с результатами человеческого аудитора.
## Результаты
Результаты нашего аудита показали, что определенные группы пользователей, такие как те, кто имеет меньшую статус социально-экономического статуса или высокий индекс политической приверженности, получают более высокий процент рекламы в области азартных игр и политической рекламы. Мультимодальная модель LLM, в свою очередь, показала высокую точность в реконструкции демографических данных пользователей, оказавшись в пределах ожиданий от человеческого аудитора и даже превосходя его в некоторых случаях. Эти результаты демонстрируют, насколько широко могут быть использованы рекламные потоки для инференции чувствительных данных.
## Значимость
Это исследование демонстрирует значимость рекламных потоков в качестве цифровых следов, которые могут быть использованы для инференции чувствительных данных о пользователях. Наши результаты представляют первый подтвержденный случай, когда искусственные нейронные сети могут распознавать демографические данные пользователей только на основе рекламных импрессий. Это выделяет необходимость в усилении аудита рекламных процессов и разработке новых методов защиты пользовательских данных в сфере социальных сетей.
## Выводы
Мы обнаружили, что рекламные процессы социальных сетей могут создавать риски для чувствительных данных пользователей, которые
Abstract
Automated ad targeting on social media is opaque, creating risks of
exploitation and invisibility to external scrutiny. Users may be steered toward
harmful content while independent auditing of these processes remains blocked.
Large Language Models (LLMs) raise a new concern: the potential to
reverse-engineer sensitive user attributes from exposure alone. We introduce a
multi-stage auditing framework to investigate these risks. First, a large-scale
audit of over 435,000 ad impressions delivered to 891 Australian Facebook users
reveals algorithmic biases, including disproportionate Gambling and Politics
ads shown to socioeconomically vulnerable and politically aligned groups.
Second, a multimodal LLM can reconstruct users' demographic profiles from ad
streams, outperforming census-based baselines and matching or exceeding human
performance. Our results provide the first empirical evidence that ad streams
constitute rich digital footprints for public AI inference, highlighting urgent
privacy risks and the need for content-level auditing and governance.
Ссылки и действия
Дополнительные ресурсы: