Unpacking the Implicit Norm Dynamics of Sharpness-Aware Minimization in Tensorized Models
2508.10435v1
cs.LG, cs.AI, stat.ML
2025-08-16
Авторы:
Tianxiao Cao, Kyohei Atarashi, Hisashi Kashima
Резюме на русском
## Контекст
Sharpness-Aware Minimization (SAM) — это мощный метод оптимизации, показавший себя эффективным в улучшении общей постановки нейросетей с высоким параметрическим объемом. Однако, хотя SAM был протестирован в простых двухслойных моделях, его поведение в более сложных многослойных или тензоризованных моделях остается недостаточно изученным. Это мотивирует необходимость подробного изучения SAM в таких контекстах. Также, есть необходимость разработать более эффективные методы, которые могут улучшить SAM или предоставить альтернативные решения с меньшими вычислительными затратами.
## Метод
Мы используем свойство групповой нормы в тензоризованных моделях для разбора динамики норм в SAM. Определяем понятие **Norm Deviation** как мера неоднородности норм между ядрами модели. Опираясь на анализ градиентного потока, мы проанализировали, как SAM управляет этой неоднородностью. Мы показали, что SAM эффективно контролирует этот показатель, опираясь на ковариацию между нормами ядер и их градиентными величинами. Исходя из этих результатов, мы предложили новую методику, **Deviation-Aware Scaling (DAS)**, которая адаптивно управляет нормами ядер в зависимости от данных.
## Результаты
Мы проверили DAS на нескольких типах задач, включая задачу заполнения тензоров, тренировку с шумом, моделирование и параметрическую оптимизацию. Наши эксперименты показали, что DAS не только демонстрирует результаты, которые конкурентны с SAM, но и показывает лучшую стойкость при изменении данных и моделей. Благодаря использованию DAS, мы добились этих результатов с меньшей нагрузкой на вычисления.
## Значимость
Метод DAS может быть применен в различных областях, таких как моделирование, компрессия моделей и параметрическая оптимизация. Он предлагает значительные преимущества по сравнению с SAM, в том числе уменьшение вычислительной нагрузки и улучшенная стойкость к данным. Эти достижения открывают новые пути к более эффективному использованию SAM в реальных задачах.
## Выводы
Мы показали, что SAM эффективно контролирует неоднородность норм в тензоризованных моделях с помощью ковариации норм и градиентов. На этой основе мы предложили DAS, который эффективно реализует эту регуляризацию. Наши результаты показывают, что DAS может стать значительным шагом в улучшении SAM. Будущие работы будут направлены на расширение DAS для более сложных моделей и задач.
Abstract
Sharpness-Aware Minimization (SAM) has been proven to be an effective
optimization technique for improving generalization in overparameterized
models. While prior works have explored the implicit regularization of SAM in
simple two-core scale-invariant settings, its behavior in more general
tensorized or scale-invariant models remains underexplored. In this work, we
leverage scale-invariance to analyze the norm dynamics of SAM in general
tensorized models. We introduce the notion of \emph{Norm Deviation} as a global
measure of core norm imbalance, and derive its evolution under SAM using
gradient flow analysis. We show that SAM's implicit control of Norm Deviation
is governed by the covariance between core norms and their gradient magnitudes.
Motivated by these findings, we propose a simple yet effective method,
\emph{Deviation-Aware Scaling (DAS)}, which explicitly mimics this
regularization behavior by scaling core norms in a data-adaptive manner. Our
experiments across tensor completion, noisy training, model compression, and
parameter-efficient fine-tuning confirm that DAS achieves competitive or
improved performance over SAM, while offering reduced computational overhead.
Ссылки и действия
Дополнительные ресурсы: