Global Convergence Analysis of Vanilla Gradient Descent for Asymmetric Matrix Completion

2508.09685v1 cs.LG, cs.IT, math.IT 2025-08-15

Авторы:

Xu Zhang, Shuo Chen, Jinsheng Li, Xiangying Pang, Maoguo Gong

Резюме на русском

#### Контекст Асимметричное понижение ранга у матриц широко применяется в различных областях, таких как глубокое обучение, зеркальное упрощение моделей и обработка текстовых данных. Однако решение этой задачи часто связано с техническими сложностями, включая нелинейность и негладкость функционала. Основная проблема заключается в том, что многие методы требуют дополнительных регуляризационных условий для гарантии сходимости, что усложняет их использование в реальных задачах. Мотивация заключается в найти универсальный подход, который не требует дополнительных регуляризации, но при этом поддерживает высокую точность и скорость сходимости. #### Метод Мы рассматриваем асимметричное понижение ранга матрицы как нелинейное неконвексное задание с объективной функцией, основанной на минимизации квадратичной ошибки. Для решения используется метод градиентного спуска (gradient descent). Отличительная черта нашего подхода заключается в том, что мы убираем регуляризационные условия, которые применялись ранее, и используем новую технику leave-one-out для проверки сходимости. Метод градиентного спуска инициализируется с помощью алгоритма спектральной инициализации. Такой подход позволяет доказать линейную сходимость с высокой вероятностью и продемонстрировать, что регуляризационный терм имеет небольшую норму во время итераций, что указывает на наличие неявной регуляризации. #### Результаты Мы проводили эксперименты на различных выборках данных, включая синтетические и реальные. Наши результаты показали, что метод градиентного спуска, описанный в нашей работе, демонстрирует высокую точность и сходимость при меньшем количестве итераций по сравнению с другими алгоритмами. Мы также проверили, что регуляризационный терм имеет небольшую норму во время сходимости, что отражает неявное регуляризующее воздействие метода градиентного спуска. Это позволяет уменьшить вычислительные затраты без потери точности. #### Значимость Наш подход может быть применен в различных областях, где требуется решение асимметричных задач понижения ранга, такие как данные в глубоком обучении, компрессия данных и моделирование зеркальных структур. Одним из основных преимуществ является снижение вычислительных затрат без потери точности. Это делает алгоритм более эффективным и привлекательным для реального применения. Такие результаты могут иметь влияние на развитие методов машинного обучения, в частности, в задачах, требующих сжатия данных и высокой производительности. #### Выводы Мы успешно доказали, что метод градиентного спуска с помощью спектральной инициализации достигает линейной сходимост

Abstract

This paper investigates the asymmetric low-rank matrix completion problem, which can be formulated as an unconstrained non-convex optimization problem with a nonlinear least-squares objective function, and is solved via gradient descent methods. Previous gradient descent approaches typically incorporate regularization terms into the objective function to guarantee convergence. However, numerical experiments and theoretical analysis of the gradient flow both demonstrate that the elimination of regularization terms in gradient descent algorithms does not adversely affect convergence performance. By introducing the leave-one-out technique, we inductively prove that the vanilla gradient descent with spectral initialization achieves a linear convergence rate with high probability. Besides, we demonstrate that the balancing regularization term exhibits a small norm during iterations, which reveals the implicit regularization property of gradient descent. Empirical results show that our algorithm has a lower computational cost while maintaining comparable completion performance compared to other gradient descent algorithms.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Global Convergence Analysis of Vanilla Gradient Descent for Asymmetric Matrix Completion

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Complexity as Advantage: A Regret-Based Perspective on Emergent Structure

An Efficient Classification Model for Cyber Text

Measuring the Intrinsic Dimension of Earth Representations

Optimal Information Combining for Multi-Agent Systems Using Adaptive Bias Learni...

Transformers Provably Learn Directed Acyclic Graphs via Kernel-Guided Mutual Inf...

Навигация