Privacy Auditing Synthetic Data Release through Local Likelihood Attacks
2508.21146v1
cs.LG, stat.ML
2025-09-02
Авторы:
Joshua Ward, Chi-Hua Wang, Guang Cheng
Резюме на русском
## Контекст
В последние годы синтетические данные становятся все более популярными в силу их возможности решать проблемы, связанные с конфиденциальностью и предоставлением данных. Однако неочевидным вопросом остается уровень защиты конфиденциальности при выпуске таких данных. Недостаточность действующих фреймворков по оценке рисков конфиденциальности для синтетических данных приводит к необходимости разработки более эффективных методов аудита. Одним из ключевых аспектов является понимание, насколько эти данные могут раскрыть информацию о своих исходных (реальных) источниках. Это вопрос, который не только интересен из-за теоретических размышлений, но и потому, что несоблюдение конфиденциальности может привести к серьезным последствиям, включая утечки конфиденциальных данных. Из-за этого росту рисков, необходимо развивать более точные и эффективные способы оценки конфиденциальности выпускаемых синтетических данных.
## Метод
Мы предлагаем Generative Likelihood Ratio Attack (Gen-LRA), новый подход к Membership Inference Attacks (MIAs), который основывается на оценке влияния тестового наблюдения на локальную оценку вероятности в синтетических данных. Наш подход не требует доступа к модели или предположений о ее архитектуре. Вместо этого Gen-LRA анализирует наблюдения с помощью специальной метрики, основанной на локальной оценке вероятности, чтобы выявить, насколько тестовое наблюдение влияет на модель. Это позволяет не только выявить потенциальные проблемы защиты конфиденциальности, но и эффективно оценить уровень риска, связанный с выпуском синтетических данных.
## Результаты
Для оценки Gen-LRA, мы провели эксперименты на широком спектре данных, включая категориальные, дискретные и непрерывные данные. Мы проверили Gen-LRA против других подходов к MIAs, таких как геометрические атаки и основные методы локальной оценки вероятности. Наши результаты показывают, что Gen-LRA показывает значительно более высокую точность и эффективность по сравнению с другими методами. Эти результаты подтверждают силу Gen-LRA в качестве инструмента для оценки рисков конфиденциальности в выпуске синтетических данных.
## Значимость
Gen-LRA может быть применен в различных областях, где выпуск синтетических данных является ключевым, включая медицину, финансы и образование. Его преимущество в том, что он не требует доступа к модели, что делает его применимым в ситуациях, когда модель недоступна или запрещена к использованию. Этот подход также может помочь в развитии более безопасных и конфиденциальных практик выпуска синтетических
Abstract
Auditing the privacy leakage of synthetic data is an important but unresolved
problem. Most existing privacy auditing frameworks for synthetic data rely on
heuristics and unreasonable assumptions to attack the failure modes of
generative models, exhibiting limited capability to describe and detect the
privacy exposure of training data through synthetic data release. In this
paper, we study designing Membership Inference Attacks (MIAs) that specifically
exploit the observation that tabular generative models tend to significantly
overfit to certain regions of the training distribution. Here, we propose
Generative Likelihood Ratio Attack (Gen-LRA), a novel, computationally
efficient No-Box MIA that, with no assumption of model knowledge or access,
formulates its attack by evaluating the influence a test observation has in a
surrogate model's estimation of a local likelihood ratio over the synthetic
data. Assessed over a comprehensive benchmark spanning diverse datasets, model
architectures, and attack parameters, we find that Gen-LRA consistently
dominates other MIAs for generative models across multiple performance metrics.
These results underscore Gen-LRA's effectiveness as a privacy auditing tool for
the release of synthetic data, highlighting the significant privacy risks posed
by generative model overfitting in real-world applications.
Ссылки и действия
Дополнительные ресурсы: