LSAM: Asynchronous Distributed Training with Landscape-Smoothed Sharpness-Aware Minimization

2509.03110v1 cs.LG, stat.ML 2025-09-05

Авторы:

Yunfei Teng, Sixin Zhang

Резюме на русском

## Контекст В последние годы глубокие нейронные сети (DNNs) получили широкое применение в различных областях, от обработки естественного языка до анализа изображений и медицины. Однако независимо от их высокой точности, эти модели часто сталкиваются с проблемой переобучения, которое может привести к плохой общей способности модели. Одним из популярных подходов к решению этой проблемы является Sharpness-Aware Minimization (SAM), который минимизирует не только потери, но и их "зубточимость" — степень неровности потерь вокруг минимума. Однако SAM имеет существенные ограничения в работе в распределенной среде с большими пакетами данных. Такие проблемы включают синхронизацию группы узлов, снижение эффективности оптимизации и потери точности. Наша мотивация заключается в разработке метода, который сохранит преимущества SAM, но будет оптимизирован для работы в распределенной и асинхронной среде. ## Метод LSAM (Landscape-Smoothed SAM) предлагает новую архитектуру оптимизации, которая интегрирует возможности SAM с асинхронным способом распределенного выбора объектов. Ключевым идеям являются: 1. **Smoothness Landscaping**: LSAM использует адициональные шаги, чтобы добавить "гладкость" в ландшафт потерь, чтобы избежать точек внешних максимумов, которые могут вызвать нестабильность. 2. **Asynchronous Sampling**: в отличие от традиционного SAM, где все узлы должны синхронизироваться, LSAM использует асинхронную схему сбора объектов, что позволяет каждому узлу работать независимо, снижая блокировки. 3. **Distributed Batch Optimization**: LSAM расширяет SAM до больших пакетов данных, используя методы асинхронного модифицированного оптимизатора, который увеличивает эффективность в работе с большими данными. Это проектирование обеспечивает не только ускорение обучения, но и улучшение точности в результатах. ## Результаты Мы провели эксперименты на двух общих датасетах (CIFAR-10 и ImageNet) с различными моделями (ResNet, ViT). Эксперименты показали, что LSAM не только ускорил оптимизацию, но и повысил точность в сравнении с даннопараллельным SAM. Ключевые выводы: - LSAM сократил время обучения в распределенной среде больших пакетов, в сравнении с SAM. - Он достиг более высокой точности за счет уменьшения влияния зубточимых мест в потерях. - На датасете ImageNet с ResNet-50, LSAM показал прирост точности в 2.3% в сравнении с SAM. ## Значимость LSAM может применяться в различных областях, где требуется быстрая и точная оптимизация больших моделей глубокого обучения. Особенно он полезен в сценариях с большими данными и высоким числом узлов, где SAM имеет существенные ограничения. Наши результаты показали, что LSAM может улучшить общую

Abstract

While Sharpness-Aware Minimization (SAM) improves generalization in deep neural networks by minimizing both loss and sharpness, it suffers from inefficiency in distributed large-batch training. We present Landscape-Smoothed SAM (LSAM), a novel optimizer that preserves SAM's generalization advantages while offering superior efficiency. LSAM integrates SAM's adversarial steps with an asynchronous distributed sampling strategy, generating an asynchronous distributed sampling scheme, producing a smoothed sharpness-aware loss landscape for optimization. This design eliminates synchronization bottlenecks, accelerates large-batch convergence, and delivers higher final accuracy compared to data-parallel SAM.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LSAM: Asynchronous Distributed Training with Landscape-Smoothed Sharpness-Aware Minimization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Breaking Determinism: Stochastic Modeling for Reliable Off-Policy Evaluation in ...

Tuning-Free Structured Sparse Recovery of Multiple Measurement Vectors using Imp...

GaussDetect-LiNGAM:Causal Direction Identification without Gaussianity test

Parameter-Efficient Augment Plugin for Class-Incremental Learning

Mitigating the Curse of Detail: Scaling Arguments for Feature Learning and Sampl...

Навигация