Differentially Private Decentralized Dataset Synthesis Through Randomized Mixing with Correlated Noise

2509.10385v1 stat.ML, cs.LG 2025-09-16
Авторы:

Utsab Saha, Tanvir Muntakim Tonoy, Hafiz Imtiaz

Резюме на русском

## Контекст Информационные технологии в настоящее время широко применяются в различных сферах жизнедеятельности, в том числе в медицине, финансах, торговле и образовании. Одним из ключевых аспектов обработки данных является поддержание конфиденциальности информации, особенно в ситуациях, когда данные разбросаны в разных местах. Децентрализованное хранение данных делает их более защищенными, но при этом вводит сложности в их обработку. Одной из целей исследований является разработка методов, позволяющих эффективно обрабатывать данные, сохраняя при этом их конфиденциальность. Одной из проблем в данной области является то, что при слиянии данных из разных источников возникает необходимость инъекции шума для обеспечения конфиденциальности, что приводит к снижению качества данных. Мотивация для этого исследования заключается в том, чтобы разработать методы, которые бы позволяли улучшить точность и качество данных при соблюдении принципов конфиденциальности. ## Метод В данной работе предлагается метод генерирования синтетических данных с использованием технологии Differentially Private Class-Centric Data Aggregation (DP-CDA). Этот метод заключается в следующем: для синтеза данных из нескольких классов применяется случайное смешивание нескольких выборок из одного класса, после чего к результату применяется гауссовский шум, который помогает обеспечить конфиденциальность. Однако при работе в децентрализованном режиме, когда каждый узел имеет только часть данных, возникают дополнительные сложности. Для того чтобы улучшить качество данных в таком режиме, вносится корреляционный шум, который позволяет улучшить точность и качество результирующих данных. Предлагаемая технология CAPE (Correlation-Assisted Private Estimation) позволяет клиентам совместно генерировать шум, который при суммировании приводит к его отмене, чтобы улучшить точность данных. Это решение позволяет решить проблему снижения качества в децентрализованном режиме, сохранив при этом конфиденциальность данных. ## Результаты В ходе исследования проводились эксперименты на двух наборах данных: MNIST и FashionMNIST. На основе этих данных были проведены сравнительные эксперименты с целью оценки качества синтетических данных. Эксперименты показали, что применение предлагаемого подхода позволяет значительно улучшить качество данных в сравнении с существующими методами, при этом сохраняя высокие показатели конфиденциальности. Также было показано, что при достаточном количестве данных синтетические данные могут быть немного связаны с исходными, что делает их более полезными для последующей обработки. ## Значимость Предлагаемый подход может быть использован в различных областях

Abstract

In this work, we explore differentially private synthetic data generation in a decentralized-data setting by building on the recently proposed Differentially Private Class-Centric Data Aggregation (DP-CDA). DP-CDA synthesizes data in a centralized setting by mixing multiple randomly-selected samples from the same class and injecting carefully calibrated Gaussian noise, ensuring ({\epsilon}, {\delta})-differential privacy. When deployed in a decentralized or federated setting, where each client holds only a small partition of the data, DP-CDA faces new challenges. The limited sample size per client increases the sensitivity of local computations, requiring higher noise injection to maintain the differential privacy guarantee. This, in turn, leads to a noticeable degradation in the utility compared to the centralized setting. To mitigate this issue, we integrate the Correlation-Assisted Private Estimation (CAPE) protocol into the federated DP-CDA framework and propose CAPE Assisted Federated DP-CDA algorithm. CAPE enables limited collaboration among the clients by allowing them to generate jointly distributed (anti-correlated) noise that cancels out in aggregate, while preserving privacy at the individual level. This technique significantly improves the privacy-utility trade-off in the federated setting. Extensive experiments on MNIST and FashionMNIST datasets demonstrate that the proposed CAPE Assisted Federated DP-CDA approach can achieve utility comparable to its centralized counterpart under some parameter regime, while maintaining rigorous differential privacy guarantees.

Ссылки и действия