High-Dimensional Differentially Private Quantile Regression: Distributed Estimation and Statistical Inference
2508.05212v1
stat.ML, cs.LG
2025-08-09
Авторы:
Ziliang Shen, Caixing Wang, Shaoli Wang, Yibo Yan
Резюме на русском
Защита личных данных становится ключевой проблемой при анализе больших, распределенных и неоднородных данных, содержащих конфиденциальную информацию. В статье предлагается развитие метода дифференциальной частичной конфиденциальности для регрессии по квантилям в высокомidimensionalном случае. Основной инновацией является реформализация задачи регрессии по квантилям в задачу обыкновенного минимума квадратов с помощью новых трансформаций. Это позволяет совместить высокую точность истинных значений с гарантией дифференциальной конфиденциальности. Более того, разработаны алгоритмы для вычисления доверительных интервалов и проведения тестирования гипотез в рамках данной модели. Демонстрируется эффективность этого подхода в распределенном условии, так как он подходит как для небольших, так и для обильных данных. Эксперименты показали, что предлагаемый подход обеспечивает точность и гибкость, необходимую для реалистичных сценариев анализа данных.
Abstract
With the development of big data and machine learning, privacy concerns have
become increasingly critical, especially when handling heterogeneous datasets
containing sensitive personal information. Differential privacy provides a
rigorous framework for safeguarding individual privacy while enabling
meaningful statistical analysis. In this paper, we propose a differentially
private quantile regression method for high-dimensional data in a distributed
setting. Quantile regression is a powerful and robust tool for modeling the
relationships between the covariates and responses in the presence of outliers
or heavy-tailed distributions. To address the computational challenges due to
the non-smoothness of the quantile loss function, we introduce a Newton-type
transformation that reformulates the quantile regression task into an ordinary
least squares problem. Building on this, we develop a differentially private
estimation algorithm with iterative updates, ensuring both near-optimal
statistical accuracy and formal privacy guarantees. For inference, we further
propose a differentially private debiased estimator, which enables valid
confidence interval construction and hypothesis testing. Additionally, we
propose a communication-efficient and differentially private bootstrap for
simultaneous hypothesis testing in high-dimensional quantile regression,
suitable for distributed settings with both small and abundant local data.
Extensive simulations demonstrate the robustness and effectiveness of our
methods in practical scenarios.
Ссылки и действия
Дополнительные ресурсы: