Robust Estimation Under Heterogeneous Corruption Rates

2508.15051v1 cs.LG, cs.IT, math.IT, math.ST, stat.ML, stat.TH 2025-08-23
Авторы:

Syomantak Chaudhuri, Jerry Li, Thomas A. Courtade

Резюме на русском

## Контекст Проблема работы с нестандартными и неполными данными широко распространена в машинном обучении, интернет-аналитике и других областях. Одна из основных проблем — это неодинаковое влияние изменений в данных на результаты анализа. В статье "Robust Estimation Under Heterogeneous Corruption Rates" рассматривается модель, в которой каждая выборка может быть искажена с разными вероятностями. Например, в распределенных и федеративных системах, а также в областях, где данные собираются из разных источников (например, сенсоров или пользователей), данные часто неодинаково зашумлены. Эта модель является важной для решения проблем, таких как удаление выбросов, оценка параметров в условиях шума и работа с несогласованными данными. ## Метод Авторы используют минимум-максимум-анализ (minimax analysis) для оценки оптимальной стратегии оценки в условиях неодинаковой нечистоты данных. Они разрабатывают алгоритмы, которые позволяют определить вклад каждой выборки в общую оценку, учитывая ее вероятность искажения. Для этого определяется "точка порога", на которой применимость стандартных методов оценки прекращается, и используется эмпирическое распределение нечистоты для определения этой точки. Это позволяет выбрасывать ненужные данные и улучшать точность оценки. ## Результаты Авторы показывают, что для многомерных распределений, таких как нормальное распределение, и многомерных граничных случаев, экстремальные значения могут быть выброшены, если их вклад в результат становится незначителен по сравнению с целой выборкой. Это позволяет оптимизировать методы оценки, уменьшая влияние выбросов. Для некоторых моделей, таких как линейная регрессия, авторы устанавливают минимальный эффект ошибочного оценивания, который зависит от размера выборки и распределения искажений. ## Значимость Результаты имеют широкое применение в области машинного обучения, в частности в задачах федеративного и распределенного обучения, а также в обработке неоднородных данных. Использование оптимальной стратегии оценки позволяет повысить точность моделей, уменьшить влияние выбросов и несогласованности в данных. Это может привести к улучшению результатов в задачах, таких как классификация, регрессия и другие аналитические задачи в области ИТ и интеллектуального анализа данных. ## Выводы Авторы успешно разработали методы для оптимальной оценки в условиях неодинаковой нечистоты данных. Они показали, что порог применимости стандартных методов зависит от распределения нечистоты. Для будущих исследований предлагается расширить этот подход на более сложные модели и применять его в реальных задачах, например, в федеративном обучении и обработке данных из различных ис

Abstract

We study the problem of robust estimation under heterogeneous corruption rates, where each sample may be independently corrupted with a known but non-identical probability. This setting arises naturally in distributed and federated learning, crowdsourcing, and sensor networks, yet existing robust estimators typically assume uniform or worst-case corruption, ignoring structural heterogeneity. For mean estimation for multivariate bounded distributions and univariate gaussian distributions, we give tight minimax rates for all heterogeneous corruption patterns. For multivariate gaussian mean estimation and linear regression, we establish the minimax rate for squared error up to a factor of $\sqrt{d}$, where $d$ is the dimension. Roughly, our findings suggest that samples beyond a certain corruption threshold may be discarded by the optimal estimators -- this threshold is determined by the empirical distribution of the corruption rates given.

Ссылки и действия