Synthetic Data Generation and Differential Privacy using Tensor Networks' Matrix Product States (MPS)

2508.06251v1 cs.LG, cs.AI, cs.CR, quant-ph 2025-08-12
Авторы:

Alejandro Moreno R., Desale Fentaw, Samuel Palmer, Raúl Salles de Padua, Ninad Dixit, Samuel Mugel, Roman Orús, Manuel Radons, Josef Menter, Ali Abedi

Резюме на русском

## Контекст Синтетическая генерация данных является ключевым инструментом в современном искусственном интеллекте, который решает проблему нехватки данных, повышает безопасность и обеспечивает разнообразие для эффективного обучения моделей. Однако удачная генерация данных должна обеспечить высокую точность (фидлити) и соблюдать законы конфиденциальности. Недостаточное удовлетворение этих критериев может привести к ухудшению качества моделей и нарушению пользовательских прав. Наша мотивация заключается в разработке метода точной генерации данных, обеспечивающего как фидлити, так и конфиденциальность. Мы исследуем возможности Тензорных Сетей, а именно Матричных РеPRESЕНТаций СТРОК (MPS), для решения этих задач, которые обладают высокой математической гибкостью и эффективностью. ## Метод Мы предлагаем метод генерации данных, основанный на Матричных РеPRESЕНТaциях СТРОК (MPS), для построения высококачественных синтетических данных. МPS является методом тензорной алгебры, который эффективно моделирует высокомерные данные. В нашей работе, мы интегрируем МПС с механизмами отличительной конфиденциальности (DP), включая шумную инъекцию и клиппинг градиентов в процессе обучения. Это позволяет достичь гарантий конфиденциальности с помощью Rényi Differential Privacy (RDP). Мы используем табулярные данные, такие как Adult Census и COMPAS, для тестирования эффективности модели. Метрики, использованные для оценки, включают Fidelity Score, accuracy на задачах классификации и регрессии. ## Результаты Мы сравнили нашу модель с тремя современными алгоритмами: CTGAN, VAE и PrivBayes. Результаты показали, что MPS показывает лучший Fidelity Score и более результативное обучение моделей в задачах классификации и регрессии. Особенно выдающиеся результаты MPS были замечены при строгих ограничениях конфиденциальности. Мы также проверили влияние различных уровней шума и клиппинга градиентов на конфиденциальность и качество данных. Эти эксперименты подтвердили, что MPS обеспечивает значительное улучшение качества синтетических данных, оставляя за собой высокую конфиденциальность. ## Значимость Наш метод имеет широкие применения в сферах, где законы конфиденциальности требуют высокое качество синтетических данных. Например, в здравоохранении, финансах и сетевых сервисах, где данные должны быть как точными, так и конфиденциальными. MPS предлагает выгоды в скорости и эффективности в сравнении с классическими моделями. Благодаря своей гибкости и структуре, MPS может быть интегрирован в системы, где необходимо быстрое и безопасно

Abstract

Synthetic data generation is a key technique in modern artificial intelligence, addressing data scarcity, privacy constraints, and the need for diverse datasets in training robust models. In this work, we propose a method for generating privacy-preserving high-quality synthetic tabular data using Tensor Networks, specifically Matrix Product States (MPS). We benchmark the MPS-based generative model against state-of-the-art models such as CTGAN, VAE, and PrivBayes, focusing on both fidelity and privacy-preserving capabilities. To ensure differential privacy (DP), we integrate noise injection and gradient clipping during training, enabling privacy guarantees via R\'enyi Differential Privacy accounting. Across multiple metrics analyzing data fidelity and downstream machine learning task performance, our results show that MPS outperforms classical models, particularly under strict privacy constraints. This work highlights MPS as a promising tool for privacy-aware synthetic data generation. By combining the expressive power of tensor network representations with formal privacy mechanisms, the proposed approach offers an interpretable and scalable alternative for secure data sharing. Its structured design facilitates integration into sensitive domains where both data quality and confidentiality are critical.

Ссылки и действия