Privacy Auditing Synthetic Data Release through Local Likelihood Attacks

2508.21146v1 cs.LG, stat.ML 2025-09-02

Авторы:

Joshua Ward, Chi-Hua Wang, Guang Cheng

Резюме на русском

## Контекст В последние годы синтетические данные становятся все более популярными в силу их возможности решать проблемы, связанные с конфиденциальностью и предоставлением данных. Однако неочевидным вопросом остается уровень защиты конфиденциальности при выпуске таких данных. Недостаточность действующих фреймворков по оценке рисков конфиденциальности для синтетических данных приводит к необходимости разработки более эффективных методов аудита. Одним из ключевых аспектов является понимание, насколько эти данные могут раскрыть информацию о своих исходных (реальных) источниках. Это вопрос, который не только интересен из-за теоретических размышлений, но и потому, что несоблюдение конфиденциальности может привести к серьезным последствиям, включая утечки конфиденциальных данных. Из-за этого росту рисков, необходимо развивать более точные и эффективные способы оценки конфиденциальности выпускаемых синтетических данных. ## Метод Мы предлагаем Generative Likelihood Ratio Attack (Gen-LRA), новый подход к Membership Inference Attacks (MIAs), который основывается на оценке влияния тестового наблюдения на локальную оценку вероятности в синтетических данных. Наш подход не требует доступа к модели или предположений о ее архитектуре. Вместо этого Gen-LRA анализирует наблюдения с помощью специальной метрики, основанной на локальной оценке вероятности, чтобы выявить, насколько тестовое наблюдение влияет на модель. Это позволяет не только выявить потенциальные проблемы защиты конфиденциальности, но и эффективно оценить уровень риска, связанный с выпуском синтетических данных. ## Результаты Для оценки Gen-LRA, мы провели эксперименты на широком спектре данных, включая категориальные, дискретные и непрерывные данные. Мы проверили Gen-LRA против других подходов к MIAs, таких как геометрические атаки и основные методы локальной оценки вероятности. Наши результаты показывают, что Gen-LRA показывает значительно более высокую точность и эффективность по сравнению с другими методами. Эти результаты подтверждают силу Gen-LRA в качестве инструмента для оценки рисков конфиденциальности в выпуске синтетических данных. ## Значимость Gen-LRA может быть применен в различных областях, где выпуск синтетических данных является ключевым, включая медицину, финансы и образование. Его преимущество в том, что он не требует доступа к модели, что делает его применимым в ситуациях, когда модель недоступна или запрещена к использованию. Этот подход также может помочь в развитии более безопасных и конфиденциальных практик выпуска синтетических

Abstract

Auditing the privacy leakage of synthetic data is an important but unresolved problem. Most existing privacy auditing frameworks for synthetic data rely on heuristics and unreasonable assumptions to attack the failure modes of generative models, exhibiting limited capability to describe and detect the privacy exposure of training data through synthetic data release. In this paper, we study designing Membership Inference Attacks (MIAs) that specifically exploit the observation that tabular generative models tend to significantly overfit to certain regions of the training distribution. Here, we propose Generative Likelihood Ratio Attack (Gen-LRA), a novel, computationally efficient No-Box MIA that, with no assumption of model knowledge or access, formulates its attack by evaluating the influence a test observation has in a surrogate model's estimation of a local likelihood ratio over the synthetic data. Assessed over a comprehensive benchmark spanning diverse datasets, model architectures, and attack parameters, we find that Gen-LRA consistently dominates other MIAs for generative models across multiple performance metrics. These results underscore Gen-LRA's effectiveness as a privacy auditing tool for the release of synthetic data, highlighting the significant privacy risks posed by generative model overfitting in real-world applications.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Privacy Auditing Synthetic Data Release through Local Likelihood Attacks

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Breaking Determinism: Stochastic Modeling for Reliable Off-Policy Evaluation in ...

Tuning-Free Structured Sparse Recovery of Multiple Measurement Vectors using Imp...

GaussDetect-LiNGAM:Causal Direction Identification without Gaussianity test

Parameter-Efficient Augment Plugin for Class-Incremental Learning

Mitigating the Curse of Detail: Scaling Arguments for Feature Learning and Sampl...

Навигация