MIA-EPT: Membership Inference Attack via Error Prediction for Tabular Data

2509.13046v1 cs.CR, cs.AI 2025-09-18
Авторы:

Eyal German, Daniel Samira, Yuval Elovici, Asaf Shabtai

Резюме на русском

#### Контекст Область исследования связана с проблемами защиты приватности данных, когда синтезированные данные, особенно в сферах, требующих чувствительности (например, здравоохранении и финансах), могут подвергаться риску лимитации приватности. В частности, существует обсуждение о том, может ли синтетическая генерация данных, основанная на развитии моделей размытия, стать угрозой для защиты личной информации. Несмотря на то, что синтетические данные часто считаются безопасным способом обмена, они могут включать в себя информацию о членстве, позволяя определить, был ли определенный запись использован в обучении модели. Ранее, методы Membership Inference Attack (MIA) были применены к изображениям и тексту, но в отношении синтетических данных в формате табличного формата, где есть ограничения на набор атрибутов и низкая разнообразия записей, остаются мало исследованы. Этот новый подход к MIA, изложенный в статье, предназначен для затруднения такого типа атаки на синтетические табличные данные, а также подчеркивает важность дальнейшего изучения этих рисков. #### Метод Методика, предложенная в статье, называется MIA-EPT (Membership Inference Attack via Error Prediction for Tabular Data). Она работает на основе строительства особых ошибочных векторов, создаваемых путем маскирования и реконструирования атрибутов целевых записей. Эти ошибки представляют собой сигналы, которые позволяют определить принадлежность записи к обучающему набору. Эта методика использует только вывод синтетической модели, не требуя доступа к её внутренним компонентам. Эта методика протестирована на различных моделях размытия, показав свою универсальность. Основной идеей является то, что модель, используя ошибки в процессе реконструирования, может открывать информацию о принадлежности записи к обучающему датасету. #### Результаты В ходе экспериментов с MIA-EPT, проводившихся на нескольких моделях размытия, авторы получили следующие результаты: AUC-ROC до 0.599 и TPR@10% FPR до 22.0% в закрытых тестах. На MIDST 2025 конкурсе в треке Black-box Multi-Table, MIA-EPT заняла второе место, показав TPR@10% FPR = 20.0%. Эти результаты показывают, что даже при использовании синтетических данных, модели могут существенно подвергаться риску к утечке информации о членстве. Таким образом, риск для приватности в табличных данных остается высоким, даже с использованием развитых технологий синтеза. Это подтверждает, что риски для приватности в синтетических данных необходимо предпринять дополнительные меры. #### Значимость Результаты работы имеют большое значение для области защиты приватности

Abstract

Synthetic data generation plays an important role in enabling data sharing, particularly in sensitive domains like healthcare and finance. Recent advances in diffusion models have made it possible to generate realistic, high-quality tabular data, but they may also memorize training records and leak sensitive information. Membership inference attacks (MIAs) exploit this vulnerability by determining whether a record was used in training. While MIAs have been studied in images and text, their use against tabular diffusion models remains underexplored despite the unique risks of structured attributes and limited record diversity. In this paper, we introduce MIAEPT, Membership Inference Attack via Error Prediction for Tabular Data, a novel black-box attack specifically designed to target tabular diffusion models. MIA-EPT constructs errorbased feature vectors by masking and reconstructing attributes of target records, disclosing membership signals based on how well these attributes are predicted. MIA-EPT operates without access to the internal components of the generative model, relying only on its synthetic data output, and was shown to generalize across multiple state-of-the-art diffusion models. We validate MIA-EPT on three diffusion-based synthesizers, achieving AUC-ROC scores of up to 0.599 and TPR@10% FPR values of 22.0% in our internal tests. Under the MIDST 2025 competition conditions, MIA-EPT achieved second place in the Black-box Multi-Table track (TPR@10% FPR = 20.0%). These results demonstrate that our method can uncover substantial membership leakage in synthetic tabular data, challenging the assumption that synthetic data is inherently privacy-preserving. Our code is publicly available at https://github.com/eyalgerman/MIA-EPT.

Ссылки и действия