Synthetic Data Generation and Differential Privacy using Tensor Networks' Matrix Product States (MPS)
2508.06251v1
cs.LG, cs.AI, cs.CR, quant-ph
2025-08-12
Авторы:
Alejandro Moreno R., Desale Fentaw, Samuel Palmer, Raúl Salles de Padua, Ninad Dixit, Samuel Mugel, Roman Orús, Manuel Radons, Josef Menter, Ali Abedi
Резюме на русском
## Контекст
Синтетическая генерация данных является ключевым инструментом в современном искусственном интеллекте, который решает проблему нехватки данных, повышает безопасность и обеспечивает разнообразие для эффективного обучения моделей. Однако удачная генерация данных должна обеспечить высокую точность (фидлити) и соблюдать законы конфиденциальности. Недостаточное удовлетворение этих критериев может привести к ухудшению качества моделей и нарушению пользовательских прав. Наша мотивация заключается в разработке метода точной генерации данных, обеспечивающего как фидлити, так и конфиденциальность. Мы исследуем возможности Тензорных Сетей, а именно Матричных РеPRESЕНТаций СТРОК (MPS), для решения этих задач, которые обладают высокой математической гибкостью и эффективностью.
## Метод
Мы предлагаем метод генерации данных, основанный на Матричных РеPRESЕНТaциях СТРОК (MPS), для построения высококачественных синтетических данных. МPS является методом тензорной алгебры, который эффективно моделирует высокомерные данные. В нашей работе, мы интегрируем МПС с механизмами отличительной конфиденциальности (DP), включая шумную инъекцию и клиппинг градиентов в процессе обучения. Это позволяет достичь гарантий конфиденциальности с помощью Rényi Differential Privacy (RDP). Мы используем табулярные данные, такие как Adult Census и COMPAS, для тестирования эффективности модели. Метрики, использованные для оценки, включают Fidelity Score, accuracy на задачах классификации и регрессии.
## Результаты
Мы сравнили нашу модель с тремя современными алгоритмами: CTGAN, VAE и PrivBayes. Результаты показали, что MPS показывает лучший Fidelity Score и более результативное обучение моделей в задачах классификации и регрессии. Особенно выдающиеся результаты MPS были замечены при строгих ограничениях конфиденциальности. Мы также проверили влияние различных уровней шума и клиппинга градиентов на конфиденциальность и качество данных. Эти эксперименты подтвердили, что MPS обеспечивает значительное улучшение качества синтетических данных, оставляя за собой высокую конфиденциальность.
## Значимость
Наш метод имеет широкие применения в сферах, где законы конфиденциальности требуют высокое качество синтетических данных. Например, в здравоохранении, финансах и сетевых сервисах, где данные должны быть как точными, так и конфиденциальными. MPS предлагает выгоды в скорости и эффективности в сравнении с классическими моделями. Благодаря своей гибкости и структуре, MPS может быть интегрирован в системы, где необходимо быстрое и безопасно
Abstract
Synthetic data generation is a key technique in modern artificial
intelligence, addressing data scarcity, privacy constraints, and the need for
diverse datasets in training robust models. In this work, we propose a method
for generating privacy-preserving high-quality synthetic tabular data using
Tensor Networks, specifically Matrix Product States (MPS). We benchmark the
MPS-based generative model against state-of-the-art models such as CTGAN, VAE,
and PrivBayes, focusing on both fidelity and privacy-preserving capabilities.
To ensure differential privacy (DP), we integrate noise injection and gradient
clipping during training, enabling privacy guarantees via R\'enyi Differential
Privacy accounting. Across multiple metrics analyzing data fidelity and
downstream machine learning task performance, our results show that MPS
outperforms classical models, particularly under strict privacy constraints.
This work highlights MPS as a promising tool for privacy-aware synthetic data
generation. By combining the expressive power of tensor network representations
with formal privacy mechanisms, the proposed approach offers an interpretable
and scalable alternative for secure data sharing. Its structured design
facilitates integration into sensitive domains where both data quality and
confidentiality are critical.