Managing Correlations in Data and Privacy Demand

2509.02856v1 cs.CR, cs.LG 2025-09-05
Авторы:

Syomantak Chaudhuri, Thomas A. Courtade

Резюме на русском

## Контекст В последние десятилетия, область прикладного исследования в области генетики и биотехнологии развивается в стремительном темпе. Несмотря на это, существуют некоторые проблемы в понимании и управлении потоком данных, в частности в сфере защиты персональных данных. Ранее работы в области Дифференциальной Защиты Данных (Differential Privacy, DP) рассматривали пользовательские данные и их предпочтения в отношении защиты в раздельном виде, предполагая, что эти два аспекта независимы. Однако на практике существует история взаимосвязи между данными конкретного пользователя и его требованиями к защите. Таким образом, требуется разработка новых подходов, которые учитывают эти взаимосвязи. ## Метод Мы предлагаем новую модель Add-remove Heterogeneous Differential Privacy (AHDP), которая учитывает взаимосвязь между пользовательскими данными и их требованиями к защите. Методология основывается на гибридном подходе, использующем операционный анализ на основе тестирования гипотез. Мы также предлагаем алгоритмы, не требующие предварительной информации о степени зависимости между данными и требованиями к защите. Это моделируется с помощью математического аппарата, включающего структурные расчеты и оценки вероятности, чтобы обеспечить целостную формализацию. ## Результаты Мы провели эксперименты с использованием синтетических данных, генерируемых с помощью технологии Больших Лингвистических Моделей (LLM). Наши методы были применены к основным статистическим задачам, таким как оценка среднего, частотная оценка и линейная регрессия. Результаты показали, что AHDP-фреймворк не только учитывает взаимосвязи данных и защиты, но и демонстрирует высокую точность и стабильность в различных сценариях. Мы также выпустили генерируемые данные для дальнейшего использования в академических исследованиях. ## Значимость Наши результаты имеют значительное значение для области защиты персональных данных в рамках развития биотехнологий и генетики. Альтернативный подход AHDP может использоваться в многих задачах, где требуется учитывать взаимосвязь между данными и требованиями к защите, что делает его привлекательным для реального применения. Более того, наша работа может быть применима в других областях, где необходимо анализировать зависимости между переменными. ## Выводы Мы успешно продемонстрировали значимость нового подхода AHDP в учёте взаимосвязи между данными и защитой. Наши методы не только обеспечивают целесообразность защиты данных, но и демонстрируют свою эффективность в реальных ситуациях. Будущие исследования б

Abstract

Previous works in the differential privacy literature that allow users to choose their privacy levels typically operate under the heterogeneous differential privacy (HDP) framework with the simplifying assumption that user data and privacy levels are not correlated. Firstly, we demonstrate that the standard HDP framework falls short when user data and privacy demands are allowed to be correlated. Secondly, to address this shortcoming, we propose an alternate framework, Add-remove Heterogeneous Differential Privacy (AHDP), that jointly accounts for user data and privacy preference. We show that AHDP is robust to possible correlations between data and privacy. Thirdly, we formalize the guarantees of the proposed AHDP framework through an operational hypothesis testing perspective. The hypothesis testing setup may be of independent interest in analyzing other privacy frameworks as well. Fourthly, we show that there exists non-trivial AHDP mechanisms that notably do not require prior knowledge of the data-privacy correlations. We propose some such mechanisms and apply them to core statistical tasks such as mean estimation, frequency estimation, and linear regression. The proposed mechanisms are simple to implement with minimal assumptions and modeling requirements, making them attractive for real-world use. Finally, we empirically evaluate proposed AHDP mechanisms, highlighting their trade-offs using LLM-generated synthetic datasets, which we release for future research.

Ссылки и действия