Robustly Learning Monotone Single-Index Models
2508.04670v1
cs.LG, math.OC
2025-08-09
Авторы:
Puqian Wang, Nikos Zarifis, Ilias Diakonikolas, Jelena Diakonikolas
Резюме на русском
**Резюме**
В статье предлагается алгоритм для эффективного обучения монотонных моделей Single-Index Models (SIM) с помощью квадратной функции потерь в условиях адверсарного шума метоков. Главная трудность заключается в том, что активационная функция модели неизвестна, что значительно усложняет обучение. Авторы предлагают первый компьютерно-эффективный алгоритм, который достигает константного приближения решения, даже при наличии шума метоков. Алгоритм работает для всех монотонных активаций с ограниченным моментом $2 + \zeta$ ($\zeta > 0$), включая не только липшицевы функции, но и даже непрерывные модели, такие как дискретные полупространства. Основная инновация заключается в использовании оптимизационного подхода, который выходит за рамки традиционных градиентных методов и использует целевое линейное пространство, свойства гауссовских пространств, а также регулярность монотонных функций. Этот подход позволяет достичь высокой точности и универсальности в решении задачи обучения SIM в трудных условиях.
Abstract
We consider the basic problem of learning Single-Index Models with respect to
the square loss under the Gaussian distribution in the presence of adversarial
label noise. Our main contribution is the first computationally efficient
algorithm for this learning task, achieving a constant factor approximation,
that succeeds for the class of {\em all} monotone activations with bounded
moment of order $2 + \zeta,$ for $\zeta > 0.$ This class in particular includes
all monotone Lipschitz functions and even discontinuous functions like
(possibly biased) halfspaces. Prior work for the case of unknown activation
either does not attain constant factor approximation or succeeds for a
substantially smaller family of activations. The main conceptual novelty of our
approach lies in developing an optimization framework that steps outside the
boundaries of usual gradient methods and instead identifies a useful vector
field to guide the algorithm updates by directly leveraging the problem
structure, properties of Gaussian spaces, and regularity of monotone functions.
Ссылки и действия
Дополнительные ресурсы: