Enhancing Differentially Private Linear Regression via Public Second-Moment
2508.18037v1
cs.LG, stat.ME, stat.ML
2025-08-27
Авторы:
Zilong Cao, Hai Zhang
Резюме на русском
## Контекст
Область данных исследований посвящена улучшению различных методов работы с данными, которые используются в различных областях, включая медицину, финансы и анализ данных. Одной из важных областей является развитие методов, обеспечивающих гарантии конфиденциальности данных, чтобы защитить пользователей и информацию. Одна из проблем в этой области состоит в том, что традиционные методы работы с конфиденциальными данными, такие как методы работы с линейной регрессией, часто неэффективны из-за необходимости добавлять шум, что приводит к ухудшению точности и результатов. Из-за этой проблемы нужны новые подходы для улучшения того, как линейная регрессия работает в сценариях, где данные должны быть защищены.
## Метод
Методология, представленная в этой работе, основывается на идее использования публичной информации для повышения точности метода работы с конфиденциальными данными. Авторы предлагают новый подход, в котором используется матрица второго момента, полученная из публичных данных, для преобразования исходных данных. Это позволяет уменьшить влияние шума, добавленного для защиты конфиденциальности. Результат этой преобразования — улучшенная модель линейной регрессии, которая может давать более точные и надежные результаты. Архитектура метода заключается в преобразовании данных с помощью публичной матрицы второго момента, а затем применение этой модели к защищенным данным.
## Результаты
В ходе экспериментов над синтетическими и реальными данными показано, что предлагаемый подход дает значительное улучшение точности и устойчивости результатов в сравнении с традиционным методом работы с линейной регрессией. Данные, использованные в экспериментах, позволили подтвердить, что преобразование данных с помощью публичной матрицы второго момента действительно улучшает условия решения задачи, уменьшает влияние шума и улучшает точность регрессионной модели. Также были получены теоретические оценки точности и устойчивости нового метода, которые подтверждают пользу этого подхода по сравнению с существующими.
## Значимость
Предлагаемый подход имеет широкие применения в областях, где требуется обеспечение конфиденциальности данных, такие как медицина, финансы и исследования. Одним из преимуществ является улучшение точности и надежности результатов, а также уменьшение влияния шума, добавляемого для защиты конфиденциальности. Это может привести к повышению качества решений в сферах, где требуется быстрый и точный анализ данных. Также, этот подход может иметь потенциал для распространения в других областях, где защита конф
Abstract
Leveraging information from public data has become increasingly crucial in
enhancing the utility of differentially private (DP) methods. Traditional DP
approaches often require adding noise based solely on private data, which can
significantly degrade utility. In this paper, we address this limitation in the
context of the ordinary least squares estimator (OLSE) of linear regression
based on sufficient statistics perturbation (SSP) under the unbounded data
assumption. We propose a novel method that involves transforming private data
using the public second-moment matrix to compute a transformed SSP-OLSE, whose
second-moment matrix yields a better condition number and improves the OLSE
accuracy and robustness. We derive theoretical error bounds about our method
and the standard SSP-OLSE to the non-DP OLSE, which reveal the improved
robustness and accuracy achieved by our approach. Experiments on synthetic and
real-world datasets demonstrate the utility and effectiveness of our method.