Understanding and Improving the Shampoo Optimizer via Kullback-Leibler Minimization
2509.03378v1
stat.ML, cs.LG
2025-09-05
Авторы:
Wu Lin, Scott C. Lowe, Felix Dangel, Runa Eschenhagen, Zikun Xu, Roger B. Grosse
Резюме на русском
## Контекст
Модель Shampoo является адаптивным методом, использующим структурированную второстепенную оценку моментов. Она стала популярной благодаря своей эффективности в обучении нейронных сетей, особенно при работе с большими моделями и данными. Однако, существующие исследования ограничиваются анализом схемы оценки Shampoo с применением нормы Фробениуса. Этот подход оставляет въедать некоторые вопросы о поведении метода в нестандартных ситуациях. Мы вносим новый взгляд на оценку второго момента Shampoo, рассматривая ее как процесс оценки ковариационной матрицы через минимизацию Kullback-Leibler (KL). Это новая точка зрения позволяет выявить ограничения модели и предложить улучшения, которые могут повысить ее производительность.
## Метод
Мы предлагаем новую схему оценки, названную KL-Shampoo, которая использует минимизацию Kullback-Leibler для улучшения точности и стабильности Shampoo. Базовая идея заключается в том, что вместо того, чтобы приближать вторую моментную оценку градиента к специальному структурированному виду, мы оптимизируем ее с помощью минимизации KL, что дает более точные и стабильные результаты. Этот подход устраняет зависимость от Adam для стабилизации, что убирает дополнительную память, необходимую для работы Adam. Мы также проводим эксперименты, которые демонстрируют, что KL-Shampoo может значительно повысить производительность Shampoo, даже в сравнении с ее Adam-stabilized вариантом SOAP.
## Результаты
Мы проводили эксперименты на нескольких задачах, включая задачу обучения нейронных сетей. Использовались большие данные, как на реальных, так и на синтетических задачах, чтобы оценить производительность KL-Shampoo. Результаты показывают, что KL-Shampoo не только улучшает стабильность, но и повышает точность, в том числе выполняя лучше, чем Adam-stabilized вариант SOAP в задачах предварительного обучения нейронных сетей. Эти результаты подтверждают, что KL-Shampoo может быть использован вместо Adam для стабилизации Shampoo и демонстрирует значительные выгоды в производительности и эффективности.
## Значимость
Наши результаты показывают, что KL-Shampoo может быть применено в различных областях, включая не только обучение нейронных сетей, но и другие задачи, где требуется эффективное обновление весов модели. Одним из основных преимуществ является убирание зависимости от Adam, что позволяет экономить ресурсы памяти и улучшать производительность. Кроме того, мы убедились, что KL-Shampoo может быть применено в реальных ситуациях, что делает его привлекательным для применения в сложных нейронных сетях и другой сложной моделировании. Мы считаем, что это может открыть новые возможности в глубоком обучении и других областях, где модели
Abstract
As an adaptive method, Shampoo employs a structured second-moment estimation,
and its effectiveness has attracted growing attention. Prior work has primarily
analyzed its estimation scheme through the Frobenius norm. Motivated by the
natural connection between the second moment and a covariance matrix, we
propose studying Shampoo's estimation as covariance estimation through the lens
of Kullback-Leibler (KL) minimization. This alternative perspective reveals a
previously hidden limitation, motivating improvements to Shampoo's design.
Building on this insight, we develop a practical estimation scheme, termed
KL-Shampoo, that eliminates Shampoo's reliance on Adam for stabilization,
thereby removing the additional memory overhead introduced by Adam. Preliminary
results show that KL-Shampoo improves Shampoo's performance, enabling it to
stabilize without Adam and even outperform its Adam-stabilized variant, SOAP,
in neural network pretraining.
Ссылки и действия
Дополнительные ресурсы: