Unpacking the Implicit Norm Dynamics of Sharpness-Aware Minimization in Tensorized Models

2508.10435v1 cs.LG, cs.AI, stat.ML 2025-08-16

Авторы:

Tianxiao Cao, Kyohei Atarashi, Hisashi Kashima

Резюме на русском

## Контекст Sharpness-Aware Minimization (SAM) — это мощный метод оптимизации, показавший себя эффективным в улучшении общей постановки нейросетей с высоким параметрическим объемом. Однако, хотя SAM был протестирован в простых двухслойных моделях, его поведение в более сложных многослойных или тензоризованных моделях остается недостаточно изученным. Это мотивирует необходимость подробного изучения SAM в таких контекстах. Также, есть необходимость разработать более эффективные методы, которые могут улучшить SAM или предоставить альтернативные решения с меньшими вычислительными затратами. ## Метод Мы используем свойство групповой нормы в тензоризованных моделях для разбора динамики норм в SAM. Определяем понятие **Norm Deviation** как мера неоднородности норм между ядрами модели. Опираясь на анализ градиентного потока, мы проанализировали, как SAM управляет этой неоднородностью. Мы показали, что SAM эффективно контролирует этот показатель, опираясь на ковариацию между нормами ядер и их градиентными величинами. Исходя из этих результатов, мы предложили новую методику, **Deviation-Aware Scaling (DAS)**, которая адаптивно управляет нормами ядер в зависимости от данных. ## Результаты Мы проверили DAS на нескольких типах задач, включая задачу заполнения тензоров, тренировку с шумом, моделирование и параметрическую оптимизацию. Наши эксперименты показали, что DAS не только демонстрирует результаты, которые конкурентны с SAM, но и показывает лучшую стойкость при изменении данных и моделей. Благодаря использованию DAS, мы добились этих результатов с меньшей нагрузкой на вычисления. ## Значимость Метод DAS может быть применен в различных областях, таких как моделирование, компрессия моделей и параметрическая оптимизация. Он предлагает значительные преимущества по сравнению с SAM, в том числе уменьшение вычислительной нагрузки и улучшенная стойкость к данным. Эти достижения открывают новые пути к более эффективному использованию SAM в реальных задачах. ## Выводы Мы показали, что SAM эффективно контролирует неоднородность норм в тензоризованных моделях с помощью ковариации норм и градиентов. На этой основе мы предложили DAS, который эффективно реализует эту регуляризацию. Наши результаты показывают, что DAS может стать значительным шагом в улучшении SAM. Будущие работы будут направлены на расширение DAS для более сложных моделей и задач.

Abstract

Sharpness-Aware Minimization (SAM) has been proven to be an effective optimization technique for improving generalization in overparameterized models. While prior works have explored the implicit regularization of SAM in simple two-core scale-invariant settings, its behavior in more general tensorized or scale-invariant models remains underexplored. In this work, we leverage scale-invariance to analyze the norm dynamics of SAM in general tensorized models. We introduce the notion of \emph{Norm Deviation} as a global measure of core norm imbalance, and derive its evolution under SAM using gradient flow analysis. We show that SAM's implicit control of Norm Deviation is governed by the covariance between core norms and their gradient magnitudes. Motivated by these findings, we propose a simple yet effective method, \emph{Deviation-Aware Scaling (DAS)}, which explicitly mimics this regularization behavior by scaling core norms in a data-adaptive manner. Our experiments across tensor completion, noisy training, model compression, and parameter-efficient fine-tuning confirm that DAS achieves competitive or improved performance over SAM, while offering reduced computational overhead.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Unpacking the Implicit Norm Dynamics of Sharpness-Aware Minimization in Tensorized Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Single-Round Scalable Analytic Federated Learning

Does Flatness imply Generalization for Logistic Loss in Univariate Two-Layer ReL...

Multi-view diffusion geometry using intertwined diffusion trajectories

A Diffusion Model Framework for Maximum Entropy Reinforcement Learning

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainab...

Навигация