Processing of synthetic data in AI development for healthcare and the definition of personal data in EU law

2508.08353v1 cs.CY, cs.AI 2025-08-14

Авторы:

Vibeke Binz Vallevik, Anne Kjersti C. Befring, Severin Elvatun, Jan Franz Nygaard

Резюме на русском

## Контекст Исследование фокусируется на проблемах, связанных с использованием синтетических данных в развитии искусственного интеллекта (AI) в сфере здравоохранения. Особенностью этой области является необходимость больших объемов качественных данных для тренировки моделей AI, что приводит к затруднениям в обеспечении конфиденциальности и защиты персональных данных. Данные, синтезированные с помощью машинного обучения на основе реальных данных, представляют собой полезный метод для обеспечения доступа к данным, поддерживая при этом уровень конфиденциальности. Тем не менее, неоднозначности в применении Регуляции Общей Директивы защиты данных (GDPR) приводят к техническим и правовым неоднозначностям, что ограничивает потенциальные выгоды синтетических данных. Целью исследования является определение, подпадает ли синтетическая данная под определение "персональных данных" в соответствии с GDPR, и оценка риска идентификации через генерирование синтетических данных и эмпирические исследования. ## Метод Исследование основывается на систематическом анализе законодательства и правовых актов, связанных с GDPR, а также на эмпирических исследованиях. Авторы применяют метод генерирования синтетических данных с помощью машинного обучения, а также моделируют атаки на идентификацию с помощью метода генерации векторов входа (inference attacks). Это позволяет оценить риск идентификации в системах синтетических данных. Также проводится сравнение существующих критериев идентификации в GDPR с техническими возможностями синтетических данных. Результаты исследования основываются на анализе технических моделей и законодательных аспектов, чтобы изучить возможность классификации синтетических данных как персональных данных. ## Результаты Исследование показало, что синтетическая данная, возможно, может быть носителем риска идентификации, но в зависимости от степени защиты и способа ее генерации, этот риск может быть существенно снижен. Эмпирические результаты показали, что многие запросы на идентификацию с помощью технических методов не успешны, что выделяет риск идентификации как достаточно низкий для нормативной определения. Однако, исследование выявляет узкие места в нормативной определении "персональных данных" в GDPR, которые могут привести к неоднозначности в технических и правовых сферах. ## Значимость Результаты исследования имеют значимый потенциал для продвижения инноваций в области AI в здравоохранении. Они подчеркивают важность более ясных и ясных нормативных критериев для классификации синтетических данных в GDPR, чтоб

Abstract

Artificial intelligence (AI) has the potential to transform healthcare, but it requires access to health data. Synthetic data that is generated through machine learning models trained on real data, offers a way to share data while preserving privacy. However, uncertainties in the practical application of the General Data Protection Regulation (GDPR) create an administrative burden, limiting the benefits of synthetic data. Through a systematic analysis of relevant legal sources and an empirical study, this article explores whether synthetic data should be classified as personal data under the GDPR. The study investigates the residual identification risk through generating synthetic data and simulating inference attacks, challenging common perceptions of technical identification risk. The findings suggest synthetic data is likely anonymous, depending on certain factors, but highlights uncertainties about what constitutes reasonably likely risk. To promote innovation, the study calls for clearer regulations to balance privacy protection with the advancement of AI in healthcare.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Processing of synthetic data in AI development for healthcare and the definition of personal data in EU law

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Humanity in the Age of AI: Reassessing 2025's Existential-Risk Narratives

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Fro...

Artificial Intelligence / Human Intelligence: Who Controls Whom?

First, do NOHARM: towards clinically safe large language models

AI-Driven Document Redaction in UK Public Authorities: Implementation Gaps, Regu...

Навигация