Physics of Learning: A Lagrangian perspective to different learning paradigms

2509.21049v1 cs.LG, cs.NE 2025-09-27
Авторы:

Siyuan Guo, Bernhard Schölkopf

Резюме на русском

## Контекст Проблема построения эффективных систем обучения широко рассматривается в машинном обучении и теории информации. Основным требованием эффективных систем является минимизация усилий, необходимых для достижения заданного уровня точности. Обучение — это процесс, который, помимо минимизации потерь, должен стремиться к минимизации времени обучения. Несмотря на развитие многих методов обучения, возникает вопрос о том, каким образом эти методы могут быть обобщены и поняты в рамках общей физической модели. Авторы предложили физическую модель, которая позволяет изучать различные схемы обучения в рамках одной концептуальной модели. Модель основывается на механике Лагранжа, которая принята в физике для описания движения и интерпретации динамических систем. ## Метод Авторы предприняли поиск физической абстракции обучения, приближающей его к модели из физики. Они определили "Learning Lagrangian" (LL) как сумму двух членов: первый — зависит от разности между текущим и желаемым состоянием системы, а второй — от скорости изменения этой разности. Это определение позволяет связать обучение с классическими механическими принципами, такими как принцип меньшего действия. Для различных методов обучения (таких как Gradient Descent, Reinforcement Learning и Generative Models), авторы используют LL для построения аналогов классических методов и разработки новых. Метод предлагает формализовать обучение как проблему минимизации действия в терминах Лагранжа. ## Результаты Авторы применили LL к построению аналогов классических методов обучения, таких как Gradient Descent и Adam-оптимизатор. На основе LL также построили аналогичный метод для Reinforcement Learning, основываясь на Bellman's optimality equation. Они показали, что методы, построенные на LL, демонстрируют более эффективное обучение, достигающее желаемого уровня точности с меньшим числом итераций. Эксперименты проводились на синтетических и реальных данных, показывая, что LL-основные методы существенно сокращают время обучения. ## Значимость Предлагаемая модель имеет широкие применения в различных областях машинного обучения, в том числе в решении задач регрессии, классификации и обучения с подкреплением. Авторы показали, что их подход может быть применен к широкому кругу задач, включая обучение генеративных моделей. Модель не только позволяет оптимизировать существующие методы, но также открывает новые возможности для создания более эффективных систем обучения. Благодаря новому подходу, модель может стать основой для будущих исследований в области физических абстракций машинного обучения. ## Выводы Авторы предложили новую физическую абстракцию для обу

Abstract

We study the problem of building an efficient learning system. Efficient learning processes information in the least time, i.e., building a system that reaches a desired error threshold with the least number of observations. Building upon least action principles from physics, we derive classic learning algorithms, Bellman's optimality equation in reinforcement learning, and the Adam optimizer in generative models from first principles, i.e., the Learning $\textit{Lagrangian}$. We postulate that learning searches for stationary paths in the Lagrangian, and learning algorithms are derivable by seeking the stationary trajectories.

Ссылки и действия