SGD Convergence under Stepsize Shrinkage in Low-Precision Training

2508.07142v1 cs.LG, cs.AI, cs.IT, cs.NA, math.IT, math.NA 2025-08-13

Авторы:

Vincent-Daniel Yun

Резюме на русском

## Контекст Low-precision training является ключевым подходом для сокращения вычислительных и памятных затрат в обучении больших моделей глубокого обучения. Однако, преобразование градиентов в низкопрецизионном формате приводит к уменьшению их магнитуды и введению аддитивного шума. Эти изменения могут значительно повлиять на сходимость алгоритма стохастического градиентного десцендента (SGD). В данной работе исследуется вопрос сходимости SGD в ситуации, когда градиенты изменяются в зависимости от шага $\mu_k$ и подвергаются шуму в формате quantization. Эта модель позволяет лучше понять, как эти изменения влияют на сходимость градиентного спуска и как ее можно оптимизировать при использовании низкопрецизионных вычислений. ## Метод Мы используем теоретический подход к анализу сходимости SGD, основываясь на модели шага $\mu_k$ и шума quantization. Для этого предполагается, что каждый градиент заменяется на его масштабированную версию с коэффициентом $q_k \in (0,1]$, который отражает преобразование в низкопрецизионном формате. Шум quantization добавляется как нулевое-среднее шум, который моделирует ошибки в преобразовании. Мы анализируем, как эти модификации влияют на соотношение скорости сходимости и погрешности, а также рассматриваем стандартные теоретичные условия, такие как гладкость и ограниченная дисперсия градиентов. Это позволяет понять, какие факторы влияют на уменьшение скорости сходимости и как ее можно контролировать. ## Результаты Мы проводим эксперименты, подтверждающие теоретические выводы, используя различные модели глубокого обучения и наборы данных. Для этого мы измеряем, как изменение шага $\mu_k$ и наличие шума quantization влияют на скорость сходимости и качество результатов. Полученные результаты показывают, что низкопрецизионное обучение все же может сходиться, но с меньшей скоростью в сравнении с полнопрецизионным градиентным спуском. Однако, при этом возрастает асимптотическая погрешность, которая связана с шумом quantization. Эти результаты позволяют понять, как можно компенсировать эти потери, выбирая оптимальные значения $q_k$ и $\mu_k$. ## Значимость Наша работа имеет значительное значение для развития низкопрецизионного обучения, которое широко применяется в практических задачах, таких как обучение моделей на устройствах с ограниченными ресурсами, такими как мобильные устройства и граничные вычисления. Мы показываем, что low-precision SGD можно применять с оптимальными параметрами, чтобы поддерживать высокую скорость обучения и качество решений. Это может привести к значительным экономиям в вычислительных ресурсах для масштабных моделей. Кроме того, наши

Abstract

Low-precision training has become essential for reducing the computational and memory costs of large-scale deep learning. However, quantization of gradients introduces both magnitude shrinkage and additive noise, which can alter the convergence behavior of stochastic gradient descent (SGD). In this work, we study the convergence of SGD under a gradient shrinkage model, where each stochastic gradient is scaled by a factor $q_k \in (0,1]$ and perturbed by zero-mean quantization noise. We show that this shrinkage is equivalent to replacing the nominal stepsize $\mu_k$ with an effective stepsize $\mu_k q_k$, which slows convergence when $q_{\min} < 1$. Under standard smoothness and bounded-variance assumptions, we prove that low-precision SGD still converges, but at a reduced rate determined by $q_{\min}$, and with an increased asymptotic error floor due to quantization noise. We theoretically analyze how reduced numerical precision slows down training by modeling it as gradient shrinkage in the standard SGD convergence framework.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация