📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня

📄 Robust Estimation Under Heterogeneous Corruption Rates

2025-08-23

Авторы:

Syomantak Chaudhuri, Jerry Li, Thomas A. Courtade

## Контекст Проблема работы с нестандартными и неполными данными широко распространена в машинном обучении, интернет-аналитике и других областях. Одна из основных проблем — это неодинаковое влияние изменений в данных на результаты анализа. В статье "Robust Estimation Under Heterogeneous Corruption Rates" рассматривается модель, в которой каждая выборка может быть искажена с разными вероятностями. Например, в распределенных и федеративных системах, а также в областях, где данные собираются из разных источников (например, сенсоров или пользователей), данные часто неодинаково зашумлены. Эта модель является важной для решения проблем, таких как удаление выбросов, оценка параметров в условиях шума и работа с несогласованными данными. ## Метод Авторы используют минимум-максимум-анализ (minimax analysis) для оценки оптимальной стратегии оценки в условиях неодинаковой нечистоты данных. Они разрабатывают алгоритмы, которые позволяют определить вклад каждой выборки в общую оценку, учитывая ее вероятность искажения. Для этого определяется "точка порога", на которой применимость стандартных методов оценки прекращается, и используется эмпирическое распределение нечистоты для определения этой точки. Это позволяет выбрасывать ненужные данные и улучшать точность оценки. ## Результаты Авторы показывают, что для многомерных распределений, таких как нормальное распределение, и многомерных граничных случаев, экстремальные значения могут быть выброшены, если их вклад в результат становится незначителен по сравнению с целой выборкой. Это позволяет оптимизировать методы оценки, уменьшая влияние выбросов. Для некоторых моделей, таких как линейная регрессия, авторы устанавливают минимальный эффект ошибочного оценивания, который зависит от размера выборки и распределения искажений. ## Значимость Результаты имеют широкое применение в области машинного обучения, в частности в задачах федеративного и распределенного обучения, а также в обработке неоднородных данных. Использование оптимальной стратегии оценки позволяет повысить точность моделей, уменьшить влияние выбросов и несогласованности в данных. Это может привести к улучшению результатов в задачах, таких как классификация, регрессия и другие аналитические задачи в области ИТ и интеллектуального анализа данных. ## Выводы Авторы успешно разработали методы для оптимальной оценки в условиях неодинаковой нечистоты данных. Они показали, что порог применимости стандартных методов зависит от распределения нечистоты. Для будущих исследований предлагается расширить этот подход на более сложные модели и применять его в реальных задачах, например, в федеративном обучении и обработке данных из различных ис

Annotation:

We study the problem of robust estimation under heterogeneous corruption rates, where each sample may be independently corrupted with a known but non-identical probability. This setting arises naturally in distributed and federated learning, crowdsourcing, and sensor networks, yet existing robust estimators typically assume uniform or worst-case corruption, ignoring structural heterogeneity. For mean estimation for multivariate bounded distributions and univariate gaussian distributions, we give...

ID: 2508.15051v1 cs.LG, cs.IT, math.IT, math.ST, stat.ML, stat.TH

arXiv PDF