On the Rate of Gaussian Approximation for Linear Regression Problems

2509.14039v1 stat.ML, cs.LG, math.OC, 60F05, 62L20, 93E35 2025-09-19
Авторы:

Marat Khusainov, Marina Sheshukova, Alain Durmus, Sergey Samsonov

Резюме на русском

## Контекст Область исследований в данной работе относится к линейной регрессии, одной из ключевых задач машинного обучения и статистики. Одной из основных проблем в этой области является точность и скорость построения аппроксимации гауссовского распределения при онлайн-обучении. Задачу становится все более актуальной в условиях больших данных и необходимости ускорения вычислений. Существующие методы часто не могут обеспечить достаточную точность с учетом размера выборки и количества параметров. Мотивация для данного исследования заключается в развитии более эффективных методов для построения гауссовской аппроксимации в ситуациях, где объем данных и количество итераций являются ограниченными. ## Метод В статье предлагается метод онлайн-обучения с использованием линейных моделей и гауссовской аппроксимации. Основная идея заключается в использовании стохастического градиентного спуска с константным обновлением и адаптивной оценке дисперсии. Архитектура метода основана на теории градиентных методов и теории оцениваемости. Для построения аппроксимации используется теория SGD (Stochastic Gradient Descent) и подходы к оцениванию градиентов. Это позволяет поддерживать стабильность и эффективность аппроксимации даже при больших размерах выборки. ## Результаты В результате экспериментов показано, что скорость нормальной аппроксимации является около $\sqrt{\log{n}/n}$ при достаточно больших значениях $n$. Эксперименты проводились на синтетических данных с различным размером выборки и количеством параметров. Полученные данные подтверждают теоретические результаты и показывают, что метод эффективен даже при высокой размерности пространства признаков $d$. Также проводилась сравнительная оценка с другими подходами, показав выигрыш в скорости и точности. ## Значимость Результаты имеют большое значение для применения в онлайн-линейных регрессионных задачах, где требуется высокая скорость и точность аппроксимации. Метод может быть применен в ситуациях, когда необходимо решать задачи в реальном времени с большим количеством данных. Это может иметь практическое применение в сферах, таких как финансы, искусственный интеллект, биоинформатика и другие. Благодаря высокой эффективности и гибкости, данный подход может стать основой для развития новых методов в области машинного обучения. ## Выводы В данной работе были получены новые результаты по теории гауссовской аппроксимации в онлайн-линейных регрессионных задачах. Было установлено, что при достаточно больших объемах данных можно достичь скорости нормальной апп

Abstract

In this paper, we consider the problem of Gaussian approximation for the online linear regression task. We derive the corresponding rates for the setting of a constant learning rate and study the explicit dependence of the convergence rate upon the problem dimension $d$ and quantities related to the design matrix. When the number of iterations $n$ is known in advance, our results yield the rate of normal approximation of order $\sqrt{\log{n}/n}$, provided that the sample size $n$ is large enough.

Ссылки и действия