The Optimiser Hidden in Plain Sight: Training with the Loss Landscape's Induced Metric

2509.03594v1 cs.LG, cs.AI, math.OC 2025-09-05
Авторы:

Thomas R. Harvey

Резюме на русском

#### Контекст Глубокое обучение, как существенная область искусственного интеллекта, связано с значительными вызовами в области оптимизации. Одна из ключевых задач — найти эффективные методы, которые могут хорошо адаптироваться к различным задачам и архитектурам нейронных сетей. Существующие методы, такие как SGD, Adam и AdamW, показали эффективность в многих сценариях, но имеют ограничения, включая зависимость от гиперпараметров и недостаточно тонкую адаптацию к локальной геометрии потерь. Эти ограничения могут приводить к плохой локальной сходимости и неоптимальным результатам. Мотивация для данного исследования заключается в исследовании геометрии потерь и разработке оптимизаторов, использующих естественно указанный римановый метрический расстояние на потерь. #### Метод Исследование основывается на римановой геометрии, которая включает в себя структуру потерь в высокомерном пространстве. Разрабатываемый оптимизатор использует риманову метрику, естественно производную от лосса-ландшафта. Эта метрика позволяет определять эффективные шаги оптимизации, адаптируясь к локальным изменениям сложности. Использованные технические решения включают разработку нового метода, который может быть применен к любому предусловию. Эта архитектура основывается на нормальной разложении гессиана и использовании римановых метрик для уточнения приближений к решениям. Отличительным признаком является автоматическое уменьшение эффективной скорости обучения в кривых регионах и учет скольжения. #### Результаты Эксперименты проводились на различных задачах, включая обработку естественного языка, изображений и регрессию. Использованы популярные архитектуры, такие как ResNet, BERT и MLP. Результаты показали, что новый оптимизатор демонстрирует высокую эффективность в низкомерных задачах, существенно превосходя SGD и Adam в тех случаях, когда локальная геометрия требует тонкого управления. Также были обнаружены преимущества в уменьшении ошибки, уменьшении величины эффективного шага в кривых областях и оптимальном использовании декоUPPОДОБиЕННОГО декодирования зависимостей. Эти наблюдения подтверждают, что новый оптимизатор может значительно улучшить стабильность и эффективность тренировочных процессов. #### Значимость Основное преимущество нового оптимизатора заключается в том, что он адаптируется к местным условиям лосса-ландшафта, что является ключевым для решения задач с большим количеством параметров и высокой сложности. Это может быть применено в задачах проектирования сетей, а также для улучшения стабильности обуч

Abstract

We present a class of novel optimisers for training neural networks that makes use of the Riemannian metric naturally induced when the loss landscape is embedded in higher-dimensional space. This is the same metric that underlies common visualisations of loss landscapes. By taking this geometric perspective literally and using the induced metric, we develop a new optimiser and compare it to existing methods, namely: SGD, Adam, AdamW, and Muon, across a range of tasks and architectures. Empirically, we conclude that this new class of optimisers is highly effective in low dimensional examples, and provides slight improvement over state-of-the-art methods for training neural networks. These new optimisers have theoretically desirable properties. In particular, the effective learning rate is automatically decreased in regions of high curvature acting as a smoothed out form of gradient clipping. Similarly, one variant of these optimisers can also be viewed as inducing an effective scheduled learning rate and decoupled weight decay is the natural choice from our geometric perspective. The basic method can be used to modify any existing preconditioning method. The new optimiser has a computational complexity comparable to that of Adam.

Ссылки и действия