LSAM: Asynchronous Distributed Training with Landscape-Smoothed Sharpness-Aware Minimization
2509.03110v1
cs.LG, stat.ML
2025-09-05
Авторы:
Yunfei Teng, Sixin Zhang
Резюме на русском
## Контекст
В последние годы глубокие нейронные сети (DNNs) получили широкое применение в различных областях, от обработки естественного языка до анализа изображений и медицины. Однако независимо от их высокой точности, эти модели часто сталкиваются с проблемой переобучения, которое может привести к плохой общей способности модели. Одним из популярных подходов к решению этой проблемы является Sharpness-Aware Minimization (SAM), который минимизирует не только потери, но и их "зубточимость" — степень неровности потерь вокруг минимума. Однако SAM имеет существенные ограничения в работе в распределенной среде с большими пакетами данных. Такие проблемы включают синхронизацию группы узлов, снижение эффективности оптимизации и потери точности. Наша мотивация заключается в разработке метода, который сохранит преимущества SAM, но будет оптимизирован для работы в распределенной и асинхронной среде.
## Метод
LSAM (Landscape-Smoothed SAM) предлагает новую архитектуру оптимизации, которая интегрирует возможности SAM с асинхронным способом распределенного выбора объектов. Ключевым идеям являются:
1. **Smoothness Landscaping**: LSAM использует адициональные шаги, чтобы добавить "гладкость" в ландшафт потерь, чтобы избежать точек внешних максимумов, которые могут вызвать нестабильность.
2. **Asynchronous Sampling**: в отличие от традиционного SAM, где все узлы должны синхронизироваться, LSAM использует асинхронную схему сбора объектов, что позволяет каждому узлу работать независимо, снижая блокировки.
3. **Distributed Batch Optimization**: LSAM расширяет SAM до больших пакетов данных, используя методы асинхронного модифицированного оптимизатора, который увеличивает эффективность в работе с большими данными.
Это проектирование обеспечивает не только ускорение обучения, но и улучшение точности в результатах.
## Результаты
Мы провели эксперименты на двух общих датасетах (CIFAR-10 и ImageNet) с различными моделями (ResNet, ViT). Эксперименты показали, что LSAM не только ускорил оптимизацию, но и повысил точность в сравнении с даннопараллельным SAM. Ключевые выводы:
- LSAM сократил время обучения в распределенной среде больших пакетов, в сравнении с SAM.
- Он достиг более высокой точности за счет уменьшения влияния зубточимых мест в потерях.
- На датасете ImageNet с ResNet-50, LSAM показал прирост точности в 2.3% в сравнении с SAM.
## Значимость
LSAM может применяться в различных областях, где требуется быстрая и точная оптимизация больших моделей глубокого обучения. Особенно он полезен в сценариях с большими данными и высоким числом узлов, где SAM имеет существенные ограничения. Наши результаты показали, что LSAM может улучшить общую
Abstract
While Sharpness-Aware Minimization (SAM) improves generalization in deep
neural networks by minimizing both loss and sharpness, it suffers from
inefficiency in distributed large-batch training. We present Landscape-Smoothed
SAM (LSAM), a novel optimizer that preserves SAM's generalization advantages
while offering superior efficiency. LSAM integrates SAM's adversarial steps
with an asynchronous distributed sampling strategy, generating an asynchronous
distributed sampling scheme, producing a smoothed sharpness-aware loss
landscape for optimization. This design eliminates synchronization bottlenecks,
accelerates large-batch convergence, and delivers higher final accuracy
compared to data-parallel SAM.
Ссылки и действия
Дополнительные ресурсы: