Understanding and Improving the Shampoo Optimizer via Kullback-Leibler Minimization

2509.03378v1 stat.ML, cs.LG 2025-09-05

Авторы:

Wu Lin, Scott C. Lowe, Felix Dangel, Runa Eschenhagen, Zikun Xu, Roger B. Grosse

Резюме на русском

## Контекст Модель Shampoo является адаптивным методом, использующим структурированную второстепенную оценку моментов. Она стала популярной благодаря своей эффективности в обучении нейронных сетей, особенно при работе с большими моделями и данными. Однако, существующие исследования ограничиваются анализом схемы оценки Shampoo с применением нормы Фробениуса. Этот подход оставляет въедать некоторые вопросы о поведении метода в нестандартных ситуациях. Мы вносим новый взгляд на оценку второго момента Shampoo, рассматривая ее как процесс оценки ковариационной матрицы через минимизацию Kullback-Leibler (KL). Это новая точка зрения позволяет выявить ограничения модели и предложить улучшения, которые могут повысить ее производительность. ## Метод Мы предлагаем новую схему оценки, названную KL-Shampoo, которая использует минимизацию Kullback-Leibler для улучшения точности и стабильности Shampoo. Базовая идея заключается в том, что вместо того, чтобы приближать вторую моментную оценку градиента к специальному структурированному виду, мы оптимизируем ее с помощью минимизации KL, что дает более точные и стабильные результаты. Этот подход устраняет зависимость от Adam для стабилизации, что убирает дополнительную память, необходимую для работы Adam. Мы также проводим эксперименты, которые демонстрируют, что KL-Shampoo может значительно повысить производительность Shampoo, даже в сравнении с ее Adam-stabilized вариантом SOAP. ## Результаты Мы проводили эксперименты на нескольких задачах, включая задачу обучения нейронных сетей. Использовались большие данные, как на реальных, так и на синтетических задачах, чтобы оценить производительность KL-Shampoo. Результаты показывают, что KL-Shampoo не только улучшает стабильность, но и повышает точность, в том числе выполняя лучше, чем Adam-stabilized вариант SOAP в задачах предварительного обучения нейронных сетей. Эти результаты подтверждают, что KL-Shampoo может быть использован вместо Adam для стабилизации Shampoo и демонстрирует значительные выгоды в производительности и эффективности. ## Значимость Наши результаты показывают, что KL-Shampoo может быть применено в различных областях, включая не только обучение нейронных сетей, но и другие задачи, где требуется эффективное обновление весов модели. Одним из основных преимуществ является убирание зависимости от Adam, что позволяет экономить ресурсы памяти и улучшать производительность. Кроме того, мы убедились, что KL-Shampoo может быть применено в реальных ситуациях, что делает его привлекательным для применения в сложных нейронных сетях и другой сложной моделировании. Мы считаем, что это может открыть новые возможности в глубоком обучении и других областях, где модели

Abstract

As an adaptive method, Shampoo employs a structured second-moment estimation, and its effectiveness has attracted growing attention. Prior work has primarily analyzed its estimation scheme through the Frobenius norm. Motivated by the natural connection between the second moment and a covariance matrix, we propose studying Shampoo's estimation as covariance estimation through the lens of Kullback-Leibler (KL) minimization. This alternative perspective reveals a previously hidden limitation, motivating improvements to Shampoo's design. Building on this insight, we develop a practical estimation scheme, termed KL-Shampoo, that eliminates Shampoo's reliance on Adam for stabilization, thereby removing the additional memory overhead introduced by Adam. Preliminary results show that KL-Shampoo improves Shampoo's performance, enabling it to stabilize without Adam and even outperform its Adam-stabilized variant, SOAP, in neural network pretraining.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Understanding and Improving the Shampoo Optimizer via Kullback-Leibler Minimization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Comparison of neural network training strategies for the simulation of dynamical...

Informative missingness and its implications in semi-supervised learning

Recurrent Neural Networks with Linear Structures for Electricity Price Forecasti...

Control Consistency Losses for Diffusion Bridges

Foundations of Diffusion Models in General State Spaces: A Self-Contained Introd...

Навигация