SGD Convergence under Stepsize Shrinkage in Low-Precision Training
2508.07142v1
cs.LG, cs.AI, cs.IT, cs.NA, math.IT, math.NA
2025-08-13
Авторы:
Vincent-Daniel Yun
Резюме на русском
## Контекст
Low-precision training является ключевым подходом для сокращения вычислительных и памятных затрат в обучении больших моделей глубокого обучения. Однако, преобразование градиентов в низкопрецизионном формате приводит к уменьшению их магнитуды и введению аддитивного шума. Эти изменения могут значительно повлиять на сходимость алгоритма стохастического градиентного десцендента (SGD). В данной работе исследуется вопрос сходимости SGD в ситуации, когда градиенты изменяются в зависимости от шага $\mu_k$ и подвергаются шуму в формате quantization. Эта модель позволяет лучше понять, как эти изменения влияют на сходимость градиентного спуска и как ее можно оптимизировать при использовании низкопрецизионных вычислений.
## Метод
Мы используем теоретический подход к анализу сходимости SGD, основываясь на модели шага $\mu_k$ и шума quantization. Для этого предполагается, что каждый градиент заменяется на его масштабированную версию с коэффициентом $q_k \in (0,1]$, который отражает преобразование в низкопрецизионном формате. Шум quantization добавляется как нулевое-среднее шум, который моделирует ошибки в преобразовании. Мы анализируем, как эти модификации влияют на соотношение скорости сходимости и погрешности, а также рассматриваем стандартные теоретичные условия, такие как гладкость и ограниченная дисперсия градиентов. Это позволяет понять, какие факторы влияют на уменьшение скорости сходимости и как ее можно контролировать.
## Результаты
Мы проводим эксперименты, подтверждающие теоретические выводы, используя различные модели глубокого обучения и наборы данных. Для этого мы измеряем, как изменение шага $\mu_k$ и наличие шума quantization влияют на скорость сходимости и качество результатов. Полученные результаты показывают, что низкопрецизионное обучение все же может сходиться, но с меньшей скоростью в сравнении с полнопрецизионным градиентным спуском. Однако, при этом возрастает асимптотическая погрешность, которая связана с шумом quantization. Эти результаты позволяют понять, как можно компенсировать эти потери, выбирая оптимальные значения $q_k$ и $\mu_k$.
## Значимость
Наша работа имеет значительное значение для развития низкопрецизионного обучения, которое широко применяется в практических задачах, таких как обучение моделей на устройствах с ограниченными ресурсами, такими как мобильные устройства и граничные вычисления. Мы показываем, что low-precision SGD можно применять с оптимальными параметрами, чтобы поддерживать высокую скорость обучения и качество решений. Это может привести к значительным экономиям в вычислительных ресурсах для масштабных моделей. Кроме того, наши
Abstract
Low-precision training has become essential for reducing the computational
and memory costs of large-scale deep learning. However, quantization of
gradients introduces both magnitude shrinkage and additive noise, which can
alter the convergence behavior of stochastic gradient descent (SGD). In this
work, we study the convergence of SGD under a gradient shrinkage model, where
each stochastic gradient is scaled by a factor $q_k \in (0,1]$ and perturbed by
zero-mean quantization noise. We show that this shrinkage is equivalent to
replacing the nominal stepsize $\mu_k$ with an effective stepsize $\mu_k q_k$,
which slows convergence when $q_{\min} < 1$. Under standard smoothness and
bounded-variance assumptions, we prove that low-precision SGD still converges,
but at a reduced rate determined by $q_{\min}$, and with an increased
asymptotic error floor due to quantization noise. We theoretically analyze how
reduced numerical precision slows down training by modeling it as gradient
shrinkage in the standard SGD convergence framework.