MIA-EPT: Membership Inference Attack via Error Prediction for Tabular Data
2509.13046v1
cs.CR, cs.AI
2025-09-18
Авторы:
Eyal German, Daniel Samira, Yuval Elovici, Asaf Shabtai
Резюме на русском
#### Контекст
Область исследования связана с проблемами защиты приватности данных, когда синтезированные данные, особенно в сферах, требующих чувствительности (например, здравоохранении и финансах), могут подвергаться риску лимитации приватности. В частности, существует обсуждение о том, может ли синтетическая генерация данных, основанная на развитии моделей размытия, стать угрозой для защиты личной информации. Несмотря на то, что синтетические данные часто считаются безопасным способом обмена, они могут включать в себя информацию о членстве, позволяя определить, был ли определенный запись использован в обучении модели. Ранее, методы Membership Inference Attack (MIA) были применены к изображениям и тексту, но в отношении синтетических данных в формате табличного формата, где есть ограничения на набор атрибутов и низкая разнообразия записей, остаются мало исследованы. Этот новый подход к MIA, изложенный в статье, предназначен для затруднения такого типа атаки на синтетические табличные данные, а также подчеркивает важность дальнейшего изучения этих рисков.
#### Метод
Методика, предложенная в статье, называется MIA-EPT (Membership Inference Attack via Error Prediction for Tabular Data). Она работает на основе строительства особых ошибочных векторов, создаваемых путем маскирования и реконструирования атрибутов целевых записей. Эти ошибки представляют собой сигналы, которые позволяют определить принадлежность записи к обучающему набору. Эта методика использует только вывод синтетической модели, не требуя доступа к её внутренним компонентам. Эта методика протестирована на различных моделях размытия, показав свою универсальность. Основной идеей является то, что модель, используя ошибки в процессе реконструирования, может открывать информацию о принадлежности записи к обучающему датасету.
#### Результаты
В ходе экспериментов с MIA-EPT, проводившихся на нескольких моделях размытия, авторы получили следующие результаты: AUC-ROC до 0.599 и TPR@10% FPR до 22.0% в закрытых тестах. На MIDST 2025 конкурсе в треке Black-box Multi-Table, MIA-EPT заняла второе место, показав TPR@10% FPR = 20.0%. Эти результаты показывают, что даже при использовании синтетических данных, модели могут существенно подвергаться риску к утечке информации о членстве. Таким образом, риск для приватности в табличных данных остается высоким, даже с использованием развитых технологий синтеза. Это подтверждает, что риски для приватности в синтетических данных необходимо предпринять дополнительные меры.
#### Значимость
Результаты работы имеют большое значение для области защиты приватности
Abstract
Synthetic data generation plays an important role in enabling data sharing,
particularly in sensitive domains like healthcare and finance. Recent advances
in diffusion models have made it possible to generate realistic, high-quality
tabular data, but they may also memorize training records and leak sensitive
information. Membership inference attacks (MIAs) exploit this vulnerability by
determining whether a record was used in training. While MIAs have been studied
in images and text, their use against tabular diffusion models remains
underexplored despite the unique risks of structured attributes and limited
record diversity. In this paper, we introduce MIAEPT, Membership Inference
Attack via Error Prediction for Tabular Data, a novel black-box attack
specifically designed to target tabular diffusion models. MIA-EPT constructs
errorbased feature vectors by masking and reconstructing attributes of target
records, disclosing membership signals based on how well these attributes are
predicted. MIA-EPT operates without access to the internal components of the
generative model, relying only on its synthetic data output, and was shown to
generalize across multiple state-of-the-art diffusion models. We validate
MIA-EPT on three diffusion-based synthesizers, achieving AUC-ROC scores of up
to 0.599 and TPR@10% FPR values of 22.0% in our internal tests. Under the MIDST
2025 competition conditions, MIA-EPT achieved second place in the Black-box
Multi-Table track (TPR@10% FPR = 20.0%). These results demonstrate that our
method can uncover substantial membership leakage in synthetic tabular data,
challenging the assumption that synthetic data is inherently
privacy-preserving. Our code is publicly available at
https://github.com/eyalgerman/MIA-EPT.
Ссылки и действия
Дополнительные ресурсы: