When Ads Become Profiles: Large-Scale Audit of Algorithmic Biases and LLM Profiling Risks

2509.18874v1 cs.HC, cs.AI, cs.CY 2025-09-25
Авторы:

Baiyu Chen, Benjamin Tag, Hao Xue, Daniel Angus, Flora Salim

Резюме на русском

## Контекст Социальные медиа платформы, такие как Facebook, позволяют рекламодателям автоматически ориентировать пользователей с помощью рекламных объявлений. Эта задача обычно выполняется на основе сложных алгоритмов, которые принимают во внимание пользовательские данные и поведение. Однако этот процесс часто остается за кулисами, что создает риск эксплуатации и непрозрачности. Более того, с появлением Бо LLM, появилась новая проблема: возможность определять чувствительные данные пользователей только по их видимости рекламы. Эти риски направляют внимание на необходимость прозрачного аудита рекламных процессов и разработки эффективных методов для защиты пользовательских данных. ## Метод Мы разработали многоэтапный подход для аудита рекламных процессов. В первой стадии, мы провели аудит, в котором было собрано более 435 000 рекламных импрессий, доставленных 891 пользователю Facebook в Австралии. Мы использовали методы статистической обработки данных для выявления шаблонов и биаса в распределении рекламных объявлений. Во второй стадии, мы разработали мультимодальную модель, основанную на Бо LLM, для реконструкции демографических данных пользователей по их рекламному потоку. Это модель обучалась на данных, полученных в первой стадии и проверялась на относительной точности сравнения с результатами человеческого аудитора. ## Результаты Результаты нашего аудита показали, что определенные группы пользователей, такие как те, кто имеет меньшую статус социально-экономического статуса или высокий индекс политической приверженности, получают более высокий процент рекламы в области азартных игр и политической рекламы. Мультимодальная модель LLM, в свою очередь, показала высокую точность в реконструкции демографических данных пользователей, оказавшись в пределах ожиданий от человеческого аудитора и даже превосходя его в некоторых случаях. Эти результаты демонстрируют, насколько широко могут быть использованы рекламные потоки для инференции чувствительных данных. ## Значимость Это исследование демонстрирует значимость рекламных потоков в качестве цифровых следов, которые могут быть использованы для инференции чувствительных данных о пользователях. Наши результаты представляют первый подтвержденный случай, когда искусственные нейронные сети могут распознавать демографические данные пользователей только на основе рекламных импрессий. Это выделяет необходимость в усилении аудита рекламных процессов и разработке новых методов защиты пользовательских данных в сфере социальных сетей. ## Выводы Мы обнаружили, что рекламные процессы социальных сетей могут создавать риски для чувствительных данных пользователей, которые

Abstract

Automated ad targeting on social media is opaque, creating risks of exploitation and invisibility to external scrutiny. Users may be steered toward harmful content while independent auditing of these processes remains blocked. Large Language Models (LLMs) raise a new concern: the potential to reverse-engineer sensitive user attributes from exposure alone. We introduce a multi-stage auditing framework to investigate these risks. First, a large-scale audit of over 435,000 ad impressions delivered to 891 Australian Facebook users reveals algorithmic biases, including disproportionate Gambling and Politics ads shown to socioeconomically vulnerable and politically aligned groups. Second, a multimodal LLM can reconstruct users' demographic profiles from ad streams, outperforming census-based baselines and matching or exceeding human performance. Our results provide the first empirical evidence that ad streams constitute rich digital footprints for public AI inference, highlighting urgent privacy risks and the need for content-level auditing and governance.

Ссылки и действия