Processing of synthetic data in AI development for healthcare and the definition of personal data in EU law
2508.08353v1
cs.CY, cs.AI
2025-08-14
Авторы:
Vibeke Binz Vallevik, Anne Kjersti C. Befring, Severin Elvatun, Jan Franz Nygaard
Резюме на русском
## Контекст
Исследование фокусируется на проблемах, связанных с использованием синтетических данных в развитии искусственного интеллекта (AI) в сфере здравоохранения. Особенностью этой области является необходимость больших объемов качественных данных для тренировки моделей AI, что приводит к затруднениям в обеспечении конфиденциальности и защиты персональных данных. Данные, синтезированные с помощью машинного обучения на основе реальных данных, представляют собой полезный метод для обеспечения доступа к данным, поддерживая при этом уровень конфиденциальности. Тем не менее, неоднозначности в применении Регуляции Общей Директивы защиты данных (GDPR) приводят к техническим и правовым неоднозначностям, что ограничивает потенциальные выгоды синтетических данных. Целью исследования является определение, подпадает ли синтетическая данная под определение "персональных данных" в соответствии с GDPR, и оценка риска идентификации через генерирование синтетических данных и эмпирические исследования.
## Метод
Исследование основывается на систематическом анализе законодательства и правовых актов, связанных с GDPR, а также на эмпирических исследованиях. Авторы применяют метод генерирования синтетических данных с помощью машинного обучения, а также моделируют атаки на идентификацию с помощью метода генерации векторов входа (inference attacks). Это позволяет оценить риск идентификации в системах синтетических данных. Также проводится сравнение существующих критериев идентификации в GDPR с техническими возможностями синтетических данных. Результаты исследования основываются на анализе технических моделей и законодательных аспектов, чтобы изучить возможность классификации синтетических данных как персональных данных.
## Результаты
Исследование показало, что синтетическая данная, возможно, может быть носителем риска идентификации, но в зависимости от степени защиты и способа ее генерации, этот риск может быть существенно снижен. Эмпирические результаты показали, что многие запросы на идентификацию с помощью технических методов не успешны, что выделяет риск идентификации как достаточно низкий для нормативной определения. Однако, исследование выявляет узкие места в нормативной определении "персональных данных" в GDPR, которые могут привести к неоднозначности в технических и правовых сферах.
## Значимость
Результаты исследования имеют значимый потенциал для продвижения инноваций в области AI в здравоохранении. Они подчеркивают важность более ясных и ясных нормативных критериев для классификации синтетических данных в GDPR, чтоб
Abstract
Artificial intelligence (AI) has the potential to transform healthcare, but
it requires access to health data. Synthetic data that is generated through
machine learning models trained on real data, offers a way to share data while
preserving privacy. However, uncertainties in the practical application of the
General Data Protection Regulation (GDPR) create an administrative burden,
limiting the benefits of synthetic data. Through a systematic analysis of
relevant legal sources and an empirical study, this article explores whether
synthetic data should be classified as personal data under the GDPR. The study
investigates the residual identification risk through generating synthetic data
and simulating inference attacks, challenging common perceptions of technical
identification risk. The findings suggest synthetic data is likely anonymous,
depending on certain factors, but highlights uncertainties about what
constitutes reasonably likely risk. To promote innovation, the study calls for
clearer regulations to balance privacy protection with the advancement of AI in
healthcare.
Ссылки и действия
Дополнительные ресурсы: