The Statistical Fairness-Accuracy Frontier

2508.17622v1 stat.ML, cs.LG, econ.TH, math.OC 2025-08-27
Авторы:

Alireza Fallah, Michael I. Jordan, Annie Ulichney

Резюме на русском

## Контекст Область исследования, связанная с машинным обучением, становится все более важной в современном мире, где модели машинного обучения применяются во многих сферах жизнедеятельности. Одна из ключевых проблем этой области — достижение того, чтобы модели были как аккуратными, так и справедливыми. Справедливость в ходе обучения модели — это ключевой фактор, особенно когда данные имеют происхождение из различных демографических групп. Насколько объективной является модель, когда данные несбалансированы или определенные группы занимают доминирующую позицию в обучающих данных? Эти вопросы мотивируют разработку различных методов, которые позволят понять и минимизировать несправедливость в моделях машинного обучения, особенно когда ограничения на ресурсы неопределены. ## Метод Данная работа исследует модели машинного обучения с точки зрения справедливости и точности, опираясь на методологию, которая позволяет определить, в какой степени модели могут быть обучены с учетом ограничений на справедливость. Авторы рассматривают метод, который определяет "справедливость-точность" (Fairness-Accuracy, FA) границу, характеризующую множество моделей, которые не могут быть синхронно улучшены ни в справедливости, ни в точности без ущерба другому критерию. Исследование включает в себя описание моделей, которые работают в условиях ограниченных данных, а также выявление минимакс-оптимальных алгоритмов, которые позволяют динамически вносить изменения в модели, учитывая известную информацию о распределении ковариатов. ## Результаты В ходе исследования, авторы проводят эксперименты на ограниченных обучающих выборках, чтобы определить, как ограничения на данные влияют на справедливость и точность моделей. Обсуждается, как подбор весов моделей может быть оптимизирован, чтобы достичь максимальной справедливости без потери точности. Для разных сценариев, когда распределение ковариатов известно или неизвестно, авторы предлагают различные алгоритмы, которые могут быть применены в практических задачах. Например, в случае неизвестного распределения, алгоритмы могут быть применены для оптимизации ресурсов и избежания нежелательных эффектов на определенные демографические группы. ## Значимость Результаты этого исследования имеют значительное значение для различных областей, включая медицину, финансы, социальные сети и т.д., где модели машинного обучения принимают решения, которые могут иметь значительное влияние на жизнь индивидуумов. Одним из основных преимуществ является то, что справедливость моделей может быть теперь оптими

Abstract

Machine learning models must balance accuracy and fairness, but these goals often conflict, particularly when data come from multiple demographic groups. A useful tool for understanding this trade-off is the fairness-accuracy (FA) frontier, which characterizes the set of models that cannot be simultaneously improved in both fairness and accuracy. Prior analyses of the FA frontier provide a full characterization under the assumption of complete knowledge of population distributions -- an unrealistic ideal. We study the FA frontier in the finite-sample regime, showing how it deviates from its population counterpart and quantifying the worst-case gap between them. In particular, we derive minimax-optimal estimators that depend on the designer's knowledge of the covariate distribution. For each estimator, we characterize how finite-sample effects asymmetrically impact each group's risk, and identify optimal sample allocation strategies. Our results transform the FA frontier from a theoretical construct into a practical tool for policymakers and practitioners who must often design algorithms with limited data.

Ссылки и действия