PETLP: A Privacy-by-Design Pipeline for Social Media Data in AI Research

2508.09232v1 cs.MM, cs.AI, cs.DB 2025-08-15
Авторы:

Nick Oh, Giorgos D. Vrakas, Siân J. M. Brooke, Sasha Morinière, Toju Duke

Резюме на русском

## Контекст Social media data широко используется в исследованиях в области прикладного искусственного интеллекта (AI). Однако его использование подчиняется нескольким законодательным и этическим фреймворкам, включая Европейский регламент об общих правилах по защите данных (GDPR), а также требования платформ социальных сетей и законодательство о защите авторских прав. Недостаток совместного интегрированного подхода делает сложной задачу выявления соответствующих требований и создания соответствующих инструментов для обеспечения соответствия. Без такового, AI-исследователи становятся уязвимыми к риску нарушения законов и потенциальным этическим и репутационным последствиям. ## Метод PETLP (Privacy-by-design Extract, Transform, Load, and Present) — это полностью новая методология для построения пайплайнов обработки данных, встроенных в системы управления исследовательскими проектами. Эта методология нацелена на интеграцию требований законодательства в ранних стадиях исследования. Система PETLP включает в себя следующие этапы: - **Extract**: Этап выборки данных социальных сетей с учетом разрешений и ограничений, подключая возможность применения GDPR Article 3 (для некоммерческих организаций). - **Transform**: Этап преобразования данных с использованием методов, обеспечивающих приватность (например, генерация хеш-значений и скрытие уязвимых данных). - **Load**: Этап хранения данных в безопасных системах с доступом только для авторизованных пользователей. - **Present**: Этап представления данных в доступном для исследований виде, соблюдая все законные и этические нормы. ## Результаты В ходе исследований были проанализированы данные социальной сети Reddit. Был опробован рабочий прототип PETLP, который позволил идентифицировать различия в правах доступа для некоммерческих и коммерческих организаций. Результаты показали, что некоммерческие команды могут применять GDPR Article 3 для преодоления некоторых ограничений платформ, в то время как коммерческие организации могут ограничиваться только терминами использования платформ. Опыт показал, что при использовании PETLP можно создавать данные, используемые в исследованиях, которые соблюдают требования GDPR, но при этом убедиться в том, что данные не являются полностью анонимными. ## Значимость Подход PETLP может быть применен в различных областях исследований, где требуется обработка данных социальных сетей, такие как машинное обучение, искусственный интеллект и анализ группового поведения. Он обеспечивает лучшую соблюдение законных требований, снижает риски для исследователей и обеспечивает более прозрачное управление данными. Помимо этого, PETLP может положительно сказаться на репутации ис

Abstract

Social media data presents AI researchers with overlapping obligations under the GDPR, copyright law, and platform terms -- yet existing frameworks fail to integrate these regulatory domains, leaving researchers without unified guidance. We introduce PETLP (Privacy-by-design Extract, Transform, Load, and Present), a compliance framework that embeds legal safeguards directly into extended ETL pipelines. Central to PETLP is treating Data Protection Impact Assessments as living documents that evolve from pre-registration through dissemination. Through systematic Reddit analysis, we demonstrate how extraction rights fundamentally differ between qualifying research organisations (who can invoke DSM Article 3 to override platform restrictions) and commercial entities (bound by terms of service), whilst GDPR obligations apply universally. We reveal why true anonymisation remains unachievable for social media data and expose the legal gap between permitted dataset creation and uncertain model distribution. By structuring compliance decisions into practical workflows and simplifying institutional data management plans, PETLP enables researchers to navigate regulatory complexity with confidence, bridging the gap between legal requirements and research practice.

Ссылки и действия