📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Alejandro Moreno R., Desale Fentaw, Samuel Palmer, Raúl Salles de Padua, Ninad Dixit, Samuel Mugel, Roman Orús, Manuel Radons, Josef Menter, Ali Abedi
## Контекст
Синтетическая генерация данных является ключевым инструментом в современном искусственном интеллекте, который решает проблему нехватки данных, повышает безопасность и обеспечивает разнообразие для эффективного обучения моделей. Однако удачная генерация данных должна обеспечить высокую точность (фидлити) и соблюдать законы конфиденциальности. Недостаточное удовлетворение этих критериев может привести к ухудшению качества моделей и нарушению пользовательских прав. Наша мотивация заключается в разработке метода точной генерации данных, обеспечивающего как фидлити, так и конфиденциальность. Мы исследуем возможности Тензорных Сетей, а именно Матричных РеPRESЕНТаций СТРОК (MPS), для решения этих задач, которые обладают высокой математической гибкостью и эффективностью.
## Метод
Мы предлагаем метод генерации данных, основанный на Матричных РеPRESЕНТaциях СТРОК (MPS), для построения высококачественных синтетических данных. МPS является методом тензорной алгебры, который эффективно моделирует высокомерные данные. В нашей работе, мы интегрируем МПС с механизмами отличительной конфиденциальности (DP), включая шумную инъекцию и клиппинг градиентов в процессе обучения. Это позволяет достичь гарантий конфиденциальности с помощью Rényi Differential Privacy (RDP). Мы используем табулярные данные, такие как Adult Census и COMPAS, для тестирования эффективности модели. Метрики, использованные для оценки, включают Fidelity Score, accuracy на задачах классификации и регрессии.
## Результаты
Мы сравнили нашу модель с тремя современными алгоритмами: CTGAN, VAE и PrivBayes. Результаты показали, что MPS показывает лучший Fidelity Score и более результативное обучение моделей в задачах классификации и регрессии. Особенно выдающиеся результаты MPS были замечены при строгих ограничениях конфиденциальности. Мы также проверили влияние различных уровней шума и клиппинга градиентов на конфиденциальность и качество данных. Эти эксперименты подтвердили, что MPS обеспечивает значительное улучшение качества синтетических данных, оставляя за собой высокую конфиденциальность.
## Значимость
Наш метод имеет широкие применения в сферах, где законы конфиденциальности требуют высокое качество синтетических данных. Например, в здравоохранении, финансах и сетевых сервисах, где данные должны быть как точными, так и конфиденциальными. MPS предлагает выгоды в скорости и эффективности в сравнении с классическими моделями. Благодаря своей гибкости и структуре, MPS может быть интегрирован в системы, где необходимо быстрое и безопасно
Annotation:
Synthetic data generation is a key technique in modern artificial
intelligence, addressing data scarcity, privacy constraints, and the need for
diverse datasets in training robust models. In this work, we propose a method
for generating privacy-preserving high-quality synthetic tabular data using
Tensor Networks, specifically Matrix Product States (MPS). We benchmark the
MPS-based generative model against state-of-the-art models such as CTGAN, VAE,
and PrivBayes, focusing on both fidelity and pr...
Показано 61 -
61
из 61 записей