Robustly Learning Monotone Single-Index Models

2508.04670v1 cs.LG, math.OC 2025-08-09
Авторы:

Puqian Wang, Nikos Zarifis, Ilias Diakonikolas, Jelena Diakonikolas

Резюме на русском

**Резюме** В статье предлагается алгоритм для эффективного обучения монотонных моделей Single-Index Models (SIM) с помощью квадратной функции потерь в условиях адверсарного шума метоков. Главная трудность заключается в том, что активационная функция модели неизвестна, что значительно усложняет обучение. Авторы предлагают первый компьютерно-эффективный алгоритм, который достигает константного приближения решения, даже при наличии шума метоков. Алгоритм работает для всех монотонных активаций с ограниченным моментом $2 + \zeta$ ($\zeta > 0$), включая не только липшицевы функции, но и даже непрерывные модели, такие как дискретные полупространства. Основная инновация заключается в использовании оптимизационного подхода, который выходит за рамки традиционных градиентных методов и использует целевое линейное пространство, свойства гауссовских пространств, а также регулярность монотонных функций. Этот подход позволяет достичь высокой точности и универсальности в решении задачи обучения SIM в трудных условиях.

Abstract

We consider the basic problem of learning Single-Index Models with respect to the square loss under the Gaussian distribution in the presence of adversarial label noise. Our main contribution is the first computationally efficient algorithm for this learning task, achieving a constant factor approximation, that succeeds for the class of {\em all} monotone activations with bounded moment of order $2 + \zeta,$ for $\zeta > 0.$ This class in particular includes all monotone Lipschitz functions and even discontinuous functions like (possibly biased) halfspaces. Prior work for the case of unknown activation either does not attain constant factor approximation or succeeds for a substantially smaller family of activations. The main conceptual novelty of our approach lies in developing an optimization framework that steps outside the boundaries of usual gradient methods and instead identifies a useful vector field to guide the algorithm updates by directly leveraging the problem structure, properties of Gaussian spaces, and regularity of monotone functions.

Ссылки и действия