Managing Correlations in Data and Privacy Demand
2509.02856v1
cs.CR, cs.LG
2025-09-05
Авторы:
Syomantak Chaudhuri, Thomas A. Courtade
Резюме на русском
## Контекст
В последние десятилетия, область прикладного исследования в области генетики и биотехнологии развивается в стремительном темпе. Несмотря на это, существуют некоторые проблемы в понимании и управлении потоком данных, в частности в сфере защиты персональных данных. Ранее работы в области Дифференциальной Защиты Данных (Differential Privacy, DP) рассматривали пользовательские данные и их предпочтения в отношении защиты в раздельном виде, предполагая, что эти два аспекта независимы. Однако на практике существует история взаимосвязи между данными конкретного пользователя и его требованиями к защите. Таким образом, требуется разработка новых подходов, которые учитывают эти взаимосвязи.
## Метод
Мы предлагаем новую модель Add-remove Heterogeneous Differential Privacy (AHDP), которая учитывает взаимосвязь между пользовательскими данными и их требованиями к защите. Методология основывается на гибридном подходе, использующем операционный анализ на основе тестирования гипотез. Мы также предлагаем алгоритмы, не требующие предварительной информации о степени зависимости между данными и требованиями к защите. Это моделируется с помощью математического аппарата, включающего структурные расчеты и оценки вероятности, чтобы обеспечить целостную формализацию.
## Результаты
Мы провели эксперименты с использованием синтетических данных, генерируемых с помощью технологии Больших Лингвистических Моделей (LLM). Наши методы были применены к основным статистическим задачам, таким как оценка среднего, частотная оценка и линейная регрессия. Результаты показали, что AHDP-фреймворк не только учитывает взаимосвязи данных и защиты, но и демонстрирует высокую точность и стабильность в различных сценариях. Мы также выпустили генерируемые данные для дальнейшего использования в академических исследованиях.
## Значимость
Наши результаты имеют значительное значение для области защиты персональных данных в рамках развития биотехнологий и генетики. Альтернативный подход AHDP может использоваться в многих задачах, где требуется учитывать взаимосвязь между данными и требованиями к защите, что делает его привлекательным для реального применения. Более того, наша работа может быть применима в других областях, где необходимо анализировать зависимости между переменными.
## Выводы
Мы успешно продемонстрировали значимость нового подхода AHDP в учёте взаимосвязи между данными и защитой. Наши методы не только обеспечивают целесообразность защиты данных, но и демонстрируют свою эффективность в реальных ситуациях. Будущие исследования б
Abstract
Previous works in the differential privacy literature that allow users to
choose their privacy levels typically operate under the heterogeneous
differential privacy (HDP) framework with the simplifying assumption that user
data and privacy levels are not correlated. Firstly, we demonstrate that the
standard HDP framework falls short when user data and privacy demands are
allowed to be correlated. Secondly, to address this shortcoming, we propose an
alternate framework, Add-remove Heterogeneous Differential Privacy (AHDP), that
jointly accounts for user data and privacy preference. We show that AHDP is
robust to possible correlations between data and privacy. Thirdly, we formalize
the guarantees of the proposed AHDP framework through an operational hypothesis
testing perspective. The hypothesis testing setup may be of independent
interest in analyzing other privacy frameworks as well. Fourthly, we show that
there exists non-trivial AHDP mechanisms that notably do not require prior
knowledge of the data-privacy correlations. We propose some such mechanisms and
apply them to core statistical tasks such as mean estimation, frequency
estimation, and linear regression. The proposed mechanisms are simple to
implement with minimal assumptions and modeling requirements, making them
attractive for real-world use. Finally, we empirically evaluate proposed AHDP
mechanisms, highlighting their trade-offs using LLM-generated synthetic
datasets, which we release for future research.
Ссылки и действия
Дополнительные ресурсы: