High-Dimensional Differentially Private Quantile Regression: Distributed Estimation and Statistical Inference

2508.05212v1 stat.ML, cs.LG 2025-08-09
Авторы:

Ziliang Shen, Caixing Wang, Shaoli Wang, Yibo Yan

Резюме на русском

Защита личных данных становится ключевой проблемой при анализе больших, распределенных и неоднородных данных, содержащих конфиденциальную информацию. В статье предлагается развитие метода дифференциальной частичной конфиденциальности для регрессии по квантилям в высокомidimensionalном случае. Основной инновацией является реформализация задачи регрессии по квантилям в задачу обыкновенного минимума квадратов с помощью новых трансформаций. Это позволяет совместить высокую точность истинных значений с гарантией дифференциальной конфиденциальности. Более того, разработаны алгоритмы для вычисления доверительных интервалов и проведения тестирования гипотез в рамках данной модели. Демонстрируется эффективность этого подхода в распределенном условии, так как он подходит как для небольших, так и для обильных данных. Эксперименты показали, что предлагаемый подход обеспечивает точность и гибкость, необходимую для реалистичных сценариев анализа данных.

Abstract

With the development of big data and machine learning, privacy concerns have become increasingly critical, especially when handling heterogeneous datasets containing sensitive personal information. Differential privacy provides a rigorous framework for safeguarding individual privacy while enabling meaningful statistical analysis. In this paper, we propose a differentially private quantile regression method for high-dimensional data in a distributed setting. Quantile regression is a powerful and robust tool for modeling the relationships between the covariates and responses in the presence of outliers or heavy-tailed distributions. To address the computational challenges due to the non-smoothness of the quantile loss function, we introduce a Newton-type transformation that reformulates the quantile regression task into an ordinary least squares problem. Building on this, we develop a differentially private estimation algorithm with iterative updates, ensuring both near-optimal statistical accuracy and formal privacy guarantees. For inference, we further propose a differentially private debiased estimator, which enables valid confidence interval construction and hypothesis testing. Additionally, we propose a communication-efficient and differentially private bootstrap for simultaneous hypothesis testing in high-dimensional quantile regression, suitable for distributed settings with both small and abundant local data. Extensive simulations demonstrate the robustness and effectiveness of our methods in practical scenarios.

Ссылки и действия