PETLP: A Privacy-by-Design Pipeline for Social Media Data in AI Research
2508.09232v1
cs.MM, cs.AI, cs.DB
2025-08-15
Авторы:
Nick Oh, Giorgos D. Vrakas, Siân J. M. Brooke, Sasha Morinière, Toju Duke
Резюме на русском
## Контекст
Social media data широко используется в исследованиях в области прикладного искусственного интеллекта (AI). Однако его использование подчиняется нескольким законодательным и этическим фреймворкам, включая Европейский регламент об общих правилах по защите данных (GDPR), а также требования платформ социальных сетей и законодательство о защите авторских прав. Недостаток совместного интегрированного подхода делает сложной задачу выявления соответствующих требований и создания соответствующих инструментов для обеспечения соответствия. Без такового, AI-исследователи становятся уязвимыми к риску нарушения законов и потенциальным этическим и репутационным последствиям.
## Метод
PETLP (Privacy-by-design Extract, Transform, Load, and Present) — это полностью новая методология для построения пайплайнов обработки данных, встроенных в системы управления исследовательскими проектами. Эта методология нацелена на интеграцию требований законодательства в ранних стадиях исследования. Система PETLP включает в себя следующие этапы:
- **Extract**: Этап выборки данных социальных сетей с учетом разрешений и ограничений, подключая возможность применения GDPR Article 3 (для некоммерческих организаций).
- **Transform**: Этап преобразования данных с использованием методов, обеспечивающих приватность (например, генерация хеш-значений и скрытие уязвимых данных).
- **Load**: Этап хранения данных в безопасных системах с доступом только для авторизованных пользователей.
- **Present**: Этап представления данных в доступном для исследований виде, соблюдая все законные и этические нормы.
## Результаты
В ходе исследований были проанализированы данные социальной сети Reddit. Был опробован рабочий прототип PETLP, который позволил идентифицировать различия в правах доступа для некоммерческих и коммерческих организаций. Результаты показали, что некоммерческие команды могут применять GDPR Article 3 для преодоления некоторых ограничений платформ, в то время как коммерческие организации могут ограничиваться только терминами использования платформ. Опыт показал, что при использовании PETLP можно создавать данные, используемые в исследованиях, которые соблюдают требования GDPR, но при этом убедиться в том, что данные не являются полностью анонимными.
## Значимость
Подход PETLP может быть применен в различных областях исследований, где требуется обработка данных социальных сетей, такие как машинное обучение, искусственный интеллект и анализ группового поведения. Он обеспечивает лучшую соблюдение законных требований, снижает риски для исследователей и обеспечивает более прозрачное управление данными. Помимо этого, PETLP может положительно сказаться на репутации ис
Abstract
Social media data presents AI researchers with overlapping obligations under
the GDPR, copyright law, and platform terms -- yet existing frameworks fail to
integrate these regulatory domains, leaving researchers without unified
guidance. We introduce PETLP (Privacy-by-design Extract, Transform, Load, and
Present), a compliance framework that embeds legal safeguards directly into
extended ETL pipelines. Central to PETLP is treating Data Protection Impact
Assessments as living documents that evolve from pre-registration through
dissemination. Through systematic Reddit analysis, we demonstrate how
extraction rights fundamentally differ between qualifying research
organisations (who can invoke DSM Article 3 to override platform restrictions)
and commercial entities (bound by terms of service), whilst GDPR obligations
apply universally. We reveal why true anonymisation remains unachievable for
social media data and expose the legal gap between permitted dataset creation
and uncertain model distribution. By structuring compliance decisions into
practical workflows and simplifying institutional data management plans, PETLP
enables researchers to navigate regulatory complexity with confidence, bridging
the gap between legal requirements and research practice.
Ссылки и действия
Дополнительные ресурсы: