📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Alejandro Moreno R., Desale Fentaw, Samuel Palmer, Raúl Salles de Padua, Ninad Dixit, Samuel Mugel, Roman Orús, Manuel Radons, Josef Menter, Ali Abedi

## Контекст Синтетическая генерация данных является ключевым инструментом в современном искусственном интеллекте, который решает проблему нехватки данных, повышает безопасность и обеспечивает разнообразие для эффективного обучения моделей. Однако удачная генерация данных должна обеспечить высокую точность (фидлити) и соблюдать законы конфиденциальности. Недостаточное удовлетворение этих критериев может привести к ухудшению качества моделей и нарушению пользовательских прав. Наша мотивация заключается в разработке метода точной генерации данных, обеспечивающего как фидлити, так и конфиденциальность. Мы исследуем возможности Тензорных Сетей, а именно Матричных РеPRESЕНТаций СТРОК (MPS), для решения этих задач, которые обладают высокой математической гибкостью и эффективностью. ## Метод Мы предлагаем метод генерации данных, основанный на Матричных РеPRESЕНТaциях СТРОК (MPS), для построения высококачественных синтетических данных. МPS является методом тензорной алгебры, который эффективно моделирует высокомерные данные. В нашей работе, мы интегрируем МПС с механизмами отличительной конфиденциальности (DP), включая шумную инъекцию и клиппинг градиентов в процессе обучения. Это позволяет достичь гарантий конфиденциальности с помощью Rényi Differential Privacy (RDP). Мы используем табулярные данные, такие как Adult Census и COMPAS, для тестирования эффективности модели. Метрики, использованные для оценки, включают Fidelity Score, accuracy на задачах классификации и регрессии. ## Результаты Мы сравнили нашу модель с тремя современными алгоритмами: CTGAN, VAE и PrivBayes. Результаты показали, что MPS показывает лучший Fidelity Score и более результативное обучение моделей в задачах классификации и регрессии. Особенно выдающиеся результаты MPS были замечены при строгих ограничениях конфиденциальности. Мы также проверили влияние различных уровней шума и клиппинга градиентов на конфиденциальность и качество данных. Эти эксперименты подтвердили, что MPS обеспечивает значительное улучшение качества синтетических данных, оставляя за собой высокую конфиденциальность. ## Значимость Наш метод имеет широкие применения в сферах, где законы конфиденциальности требуют высокое качество синтетических данных. Например, в здравоохранении, финансах и сетевых сервисах, где данные должны быть как точными, так и конфиденциальными. MPS предлагает выгоды в скорости и эффективности в сравнении с классическими моделями. Благодаря своей гибкости и структуре, MPS может быть интегрирован в системы, где необходимо быстрое и безопасно
Annotation:
Synthetic data generation is a key technique in modern artificial intelligence, addressing data scarcity, privacy constraints, and the need for diverse datasets in training robust models. In this work, we propose a method for generating privacy-preserving high-quality synthetic tabular data using Tensor Networks, specifically Matrix Product States (MPS). We benchmark the MPS-based generative model against state-of-the-art models such as CTGAN, VAE, and PrivBayes, focusing on both fidelity and pr...
ID: 2508.06251v1 cs.LG, cs.AI, cs.CR, quant-ph
Показано 61 - 61 из 61 записей