📚 Саммари научных статей из arXiv

Найдено 157 результатов по запросу 'cs.LG, math.OC' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Online Optimization on Hadamard Manifolds: Curvature Independent Regret Bounds on Horospherically Convex Objectives

2025-09-17

Авторы:

Emre Sahinoglu, Shahin Shahrampour

## Контекст Оптимизация на Римановых многообразиях является важной областью исследований в математической статистике, теории игр и машинного обучения. Традиционные подходы основываются на геодезической конвексиой (g-convexity), которая подвержена ограничениям, связанным с кривизной многообразия. Это приводит к неэффективным регретным гарантиям в случаях крутых многообразий. В отличие от этого, хросферическая конвексия (h-convexity) предлагает перспективы для более эффективного оптимизационного подхода. Многообразия, такие как множество симметрично-положительно-определительных (SPD) матриц, широко применяются в данных областях, но для них недостаточно эффективных методов оптимизации. Мотивация работы заключается в развитии кривизна-независимых методов оптимизации на таких многообразиях, чтобы сузить разрыв между теоретическими гарантиями и практическими задачами. ## Метод Мы рассматриваем онлайн-оптимизацию на Римановых многообразиях под фрейворком хросферической конвексии. Для оценки х-конвексных и сильно х-конвексных функций вводится Riemannian online gradient descent (ROGD). Архитектура ROGD включает в себя адаптивные шаги оптимизации, ориентированные на минимизацию регрета в течение времени. Мы используем методы геодерики и спектральной анализа для аппроксимации локальных кривизн и вычисления градиентов. Основные гипотезы основываются на х-конвексионных свойствах функций и линейных регрессионных выводах. Эти теоретические инструменты позволяют доказать гарантии регрета, которые не зависят от кривизны многообразия. ## Результаты Мы проводим эксперименты с SPD-матрицами, используя аффинно-инвариантное метрическое пространство. Для оценки эффективности ROGD мы исследуем два задачи: онлайн-Тайлеров $M$-оценка и онлайн-компьютер долговременных Фрешетовых средних. Результаты показывают, что ROGD эффективно решает задачи с использованием х-конвексии, достигая $O(\sqrt{T})$ и $O(\log(T))$ регретных гарантий в случаях х-конвексных и сильно х-конвексных функций. Эти гарантии отсутствуют в традиционных подходах, основанных на g-convexity, и подтверждают преимущества х-конвексии в практических задачах. ## Значимость Наш подход имеет широкие применения в машинном обучении, теории игр, анализе данных на SPD-матрицах и других Римановых многообразиях. Он предоставляет более точные и эффективные инструменты для решения оптимизационных задач в крутых многообразиях. Главные преимущества заключаются в кривизна-независи

Annotation:

We study online Riemannian optimization on Hadamard manifolds under the framework of horospherical convexity (h-convexity). Prior work mostly relies on the geodesic convexity (g-convexity), leading to regret bounds scaling poorly with the manifold curvature. To address this limitation, we analyze Riemannian online gradient descent for h-convex and strongly h-convex functions and establish $O(\sqrt{T})$ and $O(\log(T))$ regret guarantees, respectively. These bounds are curvature-independent and m...

ID: 2509.11236v1 cs.LG, math.OC, stat.ML

arXiv PDF

📄 Data Fusion and Machine Learning for Ship Fuel Consumption Modelling -- A Case of Bulk Carrier Vessel

2025-09-17

Авторы:

Abdella Mohamed, Xiangyu Hu, Christian Hendricks

## Контекст Оптимизация расхода топлива и сокращение выбросов углерода являются ключевыми приоритетами для морского транспорта в свете международных мандатов Международной организации морского транспорта (IMO). Энергичная эффективность кораблей определяется ключевыми показателями, такими как Energy Efficiency Operational Indicator (EEOI), которые вводятся для мониторинга и управления энергорасходами. Такие стратегии, как оптимизация трима, виртуальное прибытие и экологическое маршрутирование, основываются на точных прогнозах расхода топлива, зависящих от скорости плавания, загрузки, трима, метеорологических условий и состояния моря. Однако, существуют ограничения в точности прогноза, связанные с недостатком данных и разнообразием технических характеристик судов. Данная работа нацелена на исследование возможности повышения точности прогнозов с помощью интеграции внешних данных о климате и морских условиях с локальными данными о работе судна. ## Метод Для исследования были использованы 296 отчетов о плаваниях буксирного судна за год (16 ноября 2021 г. — 21 ноября 2022 г.). Объемные данные включали 28 параметров, включая время плавания, скорость, загрузку, трим, а также метеорологические и морские показатели. Данные климатических и морских параметров были получены из двух источников: Copernicus Marine Environment Monitoring Service (CMEMS) и European Centre for Medium-Range Weather Forecasts (ECMWF). Использовавшиеся методы машинного обучения (например, Random Forest, XGBoost, и Gradient Boosting) позволили объединить эти данные, оценивая точность прогнозов и определяя наиболее важные факторы, влияющие на расход топлива. ## Результаты Эксперименты показали, что интеграция данных о климате и море из внешних источников существенно повышает точность прогноза расхода топлива. Лучшая модель обеспечила доля корректных прогнозов (accuracy) ~94%, что значительно превышает прогнозы, основанные только на данных отчетов о плаваниях. Определены наиболее важные параметры, влияющие на расход топлива, включая скорость, глубину погружения, трим, скорость ветра, возможность наличия льда и морское состояние. Эти факторы позволяют выявить основные тенденции, влияющие на энергоэффективность судна. ## Значимость Результаты имеют важное значение для морского транспорта, позволяя улучшить прогнозирование расхода топлива и поддержать решения, направленные на сокращение затрат и экологической ответственности. Модели могут быть применены для оптимизации маршрутов, определения эффективных стратегий трима и виртуального прибытия, а также для оценки экологического влияния. Преимущество данного подхода заключается в во

Annotation:

There is an increasing push for operational measures to reduce ships' bunker fuel consumption and carbon emissions, driven by the International Maritime Organization (IMO) mandates. Key performance indicators such as the Energy Efficiency Operational Indicator (EEOI) focus on fuel efficiency. Strategies like trim optimization, virtual arrival, and green routing have emerged. The theoretical basis for these approaches lies in accurate prediction of fuel consumption as a function of sailing speed,...

ID: 2509.11750v1 cs.LG, math.OC

arXiv PDF

📄 Low-rank Orthogonalization for Large-scale Matrix Optimization with Applications to Foundation Model Training

2025-09-17

Авторы:

Chuan He, Zhanwang Deng, Zhaosong Lu

## Контекст Neural networks (NN) являются одним из наиболее успешных инструментов в машинном обучении, основываясь на матричных вычислениях для обработки данных. Однако традиционные подходы к обучению нейронных сетей часто игнорируют структуру матриц, которая важна для эффективного обучения. Недавно, оптимизатор Muon \cite{jordanmuon} получил большое внимание благодаря своей успешной реализации в обучении фундаментальных моделей (foundation models). На основе матричной orthogonalization, Muon эффективно обрабатывает большие матрицы, характерные для NN-параметров. Несмотря на это, существуют технические вызовы, связанные с масштабированием и точностью. Мы предлагаем расширить этот подход, используя **low-rank orthogonalization**, которая учитывает низкоранговый характер градиентов во время обучения. ## Метод Мы предлагаем **low-rank orthogonalization**, которая использует структуру градиентов, характеризующуюся низким рангом. Базируясь на этой идеи, мы предлагаем два алгоритма: **low-rank matrix-signed gradient descent** и **low-rank Muon**. Мы используем методы низкоранговых матричных операций, чтобы улучшить эффективность и точность обучения. Наша методология включает: 1. Извлечение низкоранговой структуры градиентов. 2. Использование матричной orthogonalization для эффективного обновления параметров. 3. Эмпирические эксперименты, подтверждающие эффективность новых подходов. ## Результаты Мы провели обширные эксперименты на GPT-2 и LLaMA, сравнивая новые подходы с традиционными. Низкоранговый Muon (low-rank Muon) показал значительные улучшения в скорости и точности обучения по сравнению с оригинальным Muon. Например, в предварительной обработке (pretraining) LLaMA, low-rank Muon демонстрирует более быструю сходимость и высокую точность. Эти результаты подтверждаются теоретически, демонстрируя низкую эксплицитную сложность для нахождения примерного стационарного решения при использовании low-rank matrix-signed gradient descent. ## Значимость Наши результаты открывают новые перспективы в обучении больших моделей, особенно для foundation models. Низкоранговые подходы эффективно уменьшают вычислительные затраты, снижают использование памяти и повышают производительность. Они могут быть применены не только в обучении моделей, но и в других задачах, требующих обработки крупных матриц. Этот подход имеет потенциал для улучшения отраслей, таких как NLP, computer vision и даже биоинформатика. ## Выводы Мы установили значительные достижения в низкоранговой orthogonalization для обучения нейронных сетей. Наши новые подходы, включая low-rank matrix-signed gradient descent и low-rank Muon, демонстрируют существенные улучшения в эффективности и точности

Annotation:

Neural network (NN) training is inherently a large-scale matrix optimization problem, yet the matrix structure of NN parameters has long been overlooked. Recently, the optimizer Muon \cite{jordanmuon}, which explicitly exploits this structure, has gained significant attention for its strong performance in foundation model training. A key component contributing to Muon's success is matrix orthogonalization. In this paper, we propose {\it low-rank orthogonalization}, which explicitly leverages the...

ID: 2509.11983v1 cs.LG, math.OC, 49M37, 90C30, 90C90

arXiv PDF

📄 Learning Neural Networks by Neuron Pursuit

2025-09-17

Авторы:

Akshay Kumar, Jarvis Haupt

## Контекст Область исследования связана с обучением нейронных сетей, конкретно с теоретическим анализом и новыми алгоритмами для эффективного обучения. Одной из существующих проблем является неэффективность существующих методов набора и настройки параметров нейронных сетей. Эти проблемы мотивируют разработку новых алгоритмов, которые могут динамически адаптироваться к изменениям данных и структуры сети. Такая мотивация вдохновила разработку алгоритма Neuron Pursuit (NP), который использует жадный подход с целью улучшения эффективности обучения. Это решение целесообразно в свете роста объемов данных и сложности моделей в современном машинном обучении. ## Метод Методология разработки Neuron Pursuit (NP) основывается на жадном подходе, который осуществляет последовательный выбор и добавление нейронов с оптимальными весами. Алгоритм работает в два этапа: 1) расширение сети путем добавления новых нейронов с помощью градиентного поиска, и 2) минимизация обучающей функции потерь с использованием нового набора нейронов. Технический подход включает использование градиентного потока для определения направлений добавления нейронов, а также методы градиентного спуска для оптимизации функции потерь после расширения сети. Эта архитектура обеспечивает простоту и эффективность алгоритма. ## Результаты В ходе экспериментов был проведен анализ градиентного потока для разных нейронных сетей, особое внимание было уделено тому, как он ведет себя при близости к специальным градиентным точкам. Были проведены исследования на реальных данных, показавшие, что алгоритм NP демонстрирует улучшение в скорости обучения и качестве предсказаний по сравнению с другими методами. Также был проанализирован поведение сетей после выхода из локальных минимумов, что подтвердило подход NP к эффективному обучению. ## Значимость NP может применяться в различных областях, таких как классификация изображений, текстовый анализ, и другие задачи машинного обучения. Одним из преимуществ является эффективность обучения на больших данных, а также улучшение точности решения задач. Этот подход имеет потенциал для повышения эффективности обучения нейронных сетей в сложных задачах, где требуется большая точность и скорость обучения. ## Выводы Основным достижением является успешное применение жадного подхода для эффективного обучения нейронных сетей. Будущие исследования будут сконцентрированы на расширении этого подхода для работы с более сложными моделями и данными, а также на изучении взаимосвязи между градиентными точками и динамикой обучения. Это может привести к дальнейшим улучшениям алгори

Annotation:

The first part of this paper studies the evolution of gradient flow for homogeneous neural networks near a class of saddle points exhibiting a sparsity structure. The choice of these saddle points is motivated from previous works on homogeneous networks, which identified the first saddle point encountered by gradient flow after escaping the origin. It is shown here that, when initialized sufficiently close to such saddle points, gradient flow remains near the saddle point for a sufficiently long...

ID: 2509.12154v1 cs.LG, math.OC, stat.ML

arXiv PDF

📄 Understanding Outer Optimizers in Local SGD: Learning Rates, Momentum, and Acceleration

2025-09-16

Авторы:

Ahmed Khaled, Satyen Kale, Arthur Douillard, Chi Jin, Rob Fergus, Manzil Zaheer

## Контекст Модерная машинная обучение часто требует обучения с большим размером батча, распределенными данными и масштабируемыми вычислительным оборудованием, таким как мобильные устройства или распределенные центры обработки данных. В таких ситуациях коммуникация становится главным ограничивающим фактором. Одним из потенциальных способов уменьшения этого ограничения является использование Local Stochastic Gradient Descent (Local SGD). Этот метод представляет собой комбинацию локальных оптимизационных процессов, механизмов агрегации и внешнего оптимизатора, который использует агрегированные обновления от узлов для получения новой модели. Хотя существует значительная литература, посвященная влиянию гиперпараметров в локальных процессах, выбор внешнего оптимизатора и его гиперпараметров остается менее ясным. Цель нашего исследования заключается в изучении роли внешнего оптимизатора в Local SGD и в разработке теоретических гарантий для его эффективности. ## Метод Наша теоретическая модель основывается на изучении взаимодействия локального оптимизатора и внешнего оптимизатора в Local SGD. Мы рассматриваем различные варианты гиперпараметров, включая внешний learning rate и момент (для случая, когда он применяется в внешней оптимизации). Мы доказываем теоретические гарантии для того, как выбор гиперпараметров влияет на ошибку оптимизации и шум стохастических градиентов. Мы также рассматриваем различные случаи, включая ускорение внешнего оптимизатора и гибридные методы. Наши эксперименты проводятся на больших данных, включая языковые модели, и используются различные внешние оптимизаторы для проверки нашей теории. ## Результаты Мы провели эксперименты, в которых изучали эффект изменения внешнего learning rate на точность модели и ошибку оптимизации. Мы доказали, что увеличение внешнего learning rate может помочь компенсировать неправильный выбор внутреннего learning rate и уменьшить влияние шума в стохастических градиентах. Также мы проверили эффект момента внешнего оптимизатора и показали, что он может улучшить скорость сходимости. Мы также проверили гибридные стратегии, в которых используется ускорение внешнего оптимизатора, и показали, что они могут привести к более быстрой сходимости по отношению к количеству обменов сообщений. Наши результаты подтверждают теоретические выводы и демонстрируют эффективность нашей модели в различных условиях. ## Значимость Наши результаты имеют значительное значение для работы с большими распределенными моделями, где коммуникация является ключевым ограничивающим фактором. Мы показали, что правильный выбор внешнего learning rate и момента может значительно улучши

Annotation:

Modern machine learning often requires training with large batch size, distributed data, and massively parallel compute hardware (like mobile and other edge devices or distributed data centers). Communication becomes a major bottleneck in such settings but methods like Local Stochastic Gradient Descent (Local SGD) show great promise in reducing this additional communication overhead. Local SGD consists of three parts: a local optimization process, an aggregation mechanism, and an outer optimizer...

ID: 2509.10439v1 cs.LG, math.OC, stat.ML

arXiv PDF

📄 Optimization Methods and Software for Federated Learning

2025-09-12

Авторы:

Konstantin Burlachenko

## Контекст Federated Learning (FL) является современным, мультидисциплинарным подходом в области машинного обучения, в котором несколько клиентов, таких как мобильные устройства, объединяют свои ресурсы для решения общих задач машинного обучения. Этот подход был впервые представлен в работах Konečný et al. (2016a,b) и McMahan et al. (2017) и получил повышенное внимание благодаря включению в National AI Research and Development Strategic Plan (2023 Update) США (Science and Artificial Intelligence, 2023). FL отличается от традиционных методов машинного обучения тем, что он работает в распределенной среде с менее строгими условиями управления, чем централизованные системы. Это приводит к уникальным проблемам, включая неоднородность данных и устройств, проблемы связи и требования к защите приватности. Наша исследовательская мотивация состоит в том, чтобы развить эффективные методы, способные справиться с этими проблемами и улучшить реалистичность FL в реальных условиях. ## Метод Мы разработали и анализировали многочисленные методологии, нацеленные на улучшение производительности FL. Наша методология включает в себя развитие новых алгоритмов для обработки неоднородности данных и устройств, а также методы, улучшающие стабильность связи и эффективность обучения в условиях плохой связи. Мы также разработали системные решения для упрощения развертывания FL в разных средах. Наши технические решения основываются на детальном анализе существующих теоретических моделей FL, которые мы расширили, добавив новые функции и адаптируя методы под конкретные задачи и ограничения. Этот подход позволял нам создавать алгоритмы, которые не только работают хорошо в теории, но и доказывают свою эффективность в реальных условиях. ## Результаты Мы провели ряд экспериментов на различных наборах данных и симулированных средах, сравнивая наши решения с имеющимися методами. Наши эксперименты показали, что разработанные методы приводят к значительным улучшениям в скорости обучения, точности результатов и эффективности использования ресурсов. Например, в одном из экспериментов, проводившемся на данных реальных мобильных устройств, наши методы уменьшили время обучения в среднем на 30% по сравнению с лучшими существующими решениями. Мы также оценили влияние нашей архитектуры на защиту приватности и показали, что она обеспечивает более высокий уровень защиты в сравнении с альтернативными подходами. ## Значимость Результаты настоящего исследования имеют широкое применение в различных областях, включая мобильные устройства, Интернет вещей и здравоохранение. FL позволяет эффективно использовать данные, не требуя их цен

Annotation:

Federated Learning (FL) is a novel, multidisciplinary Machine Learning paradigm where multiple clients, such as mobile devices, collaborate to solve machine learning problems. Initially introduced in Kone{\v{c}}n{\'y} et al. (2016a,b); McMahan et al. (2017), FL has gained further attention through its inclusion in the National AI Research and Development Strategic Plan (2023 Update) of the United States (Science and on Artificial Intelligence, 2023). The FL training process is inherently decentr...

ID: 2509.08120v1 cs.LG, math.OC, G.4; D.2; G.m; G.3; I.2

arXiv PDF

📄 Fourier Learning Machines: Nonharmonic Fourier-Based Neural Networks for Scientific Machine Learning

2025-09-12

Авторы:

Mominul Rubel, Adam Meyers, Gabriel Nicolosi

#### Контекст В последние годы интерес к машинному обучению в области технических и научных задач (Scientific Machine Learning, SciML) продолжает расти. Одним из ключевых задач проблем в этой области является эффективное представление высокомерных, нелинейных и часто непериодических функций. Одним из возможных подходов являются нейронные сети с активационными функциями, основанными на функции синуса или косинуса. Однако, существующие модели часто ограничены в их способности представлять полные и сепарабельные Фурье-базисы в нескольких переменных. Это ограничение приводит к ограниченности моделей в обработке сложных научных задач, требующих высокой точности и гибкости. #### Метод Мы предлагаем Fourier Learning Machine (FLM), новый тип нейронной сети, который моделирует многомерные негармонические Фурье-разложения. Архитектура FLM основывается на простой полносвязной структуре с косинусом в качестве активационных функций. Эта структура позволяет тренировать коэффициенты частот, амплитуд и фазовых сдвигов косинусных функций как гиперпараметры. FLM может адаптироваться к различным типам функций, включая периодические и непериодические. Отличительная особенность FLM заключается в том, что он первый в своем роде, способный представлять полный и сепарабельный Фурье-базис в нескольких переменных с помощью архитектуры, похожей на Multilayer Perceptron. Кроме того, мы устанавливаем однозначное соответствие между Фурье-коэффициентами и значениями амплитуд, а также фазовых сдвигов, что облегчает переход между различными формами Фурье-разложений. #### Результаты Мы проводим эксперименты, используя FLM на нескольких научных задачах, в том числе на решении партиальных дифференциальных уравнений (Partial Differential Equations, PDEs) и задачах оптимального управления (Optimal Control Problems, OCPs). Мы сравниваем FLM с другими популярными архитектурами, такими как SIREN и vanilla feedforward NNs. Результаты показывают, что FLM демонстрирует похожую или даже превосходную точность и скорость обучения по сравнению с этими архитектурами. Эксперименты подтверждают, что FLM может эффективно работать с функциями, имеющими сложную структуру и непериодичность, что делает его подходом с широкими приложениями в научном машинном обучении. #### Значимость FLM предлагает существенные преимущества в представлении функций, которые требуют высокой точности и гибкости в научных вычислениях. Он может применяться в различных областях, включая физику, химию, биологию и другие науки, где требуется моделирование сложных физических процессов. FLM предлагает значительный потенциал

Annotation:

We introduce the Fourier Learning Machine (FLM), a neural network (NN) architecture designed to represent a multidimensional nonharmonic Fourier series. The FLM uses a simple feedforward structure with cosine activation functions to learn the frequencies, amplitudes, and phase shifts of the series as trainable parameters. This design allows the model to create a problem-specific spectral basis adaptable to both periodic and nonperiodic functions. Unlike previous Fourier-inspired NN models, the F...

ID: 2509.08759v1 cs.LG, math.OC

arXiv PDF

📄 A Modular Algorithm for Non-Stationary Online Convex-Concave Optimization

2025-09-11

Авторы:

Qing-xin Meng, Xia Lei, Jian-wei Liu

#### Контекст Проблема онлайн-оптимизации нестационарных бийотных задач (Online Convex-Concave Optimization, OCC) широко распространена в машинном обучении, игоровой теории, экономике и других областях. Она заключается в том, чтобы динамически адаптироваться к изменяющимся условиям, стремясь минимизировать динамический дуалитетный гэп (Dynamic Duality Gap, D-DGap) — критический показатель, оценивающий качество стратегий игроков в взаимодействии с произвольными последовательностями сравнения. Несмотря на развитие методов онлайн-оптимизации, существующие алгоритмы не могут обеспечить оптимальную производительность в стационарных или предсказуемых средах, что становится ключевой мотивацией для развития более эффективных решений. #### Метод Мы предлагаем модульный алгоритм, который состоит из трех основных компонентов: **Адаптивного модуля** (Adaptive Module), **Мультипредикторского агрегатора** (Multi-Predictor Aggregator) и **Интегрированного модуля** (Integration Module). **Адаптивный модуль** анализирует уровень нестационарности и динамически адаптируется к изменениям в среде. **Мультипредикторский агрегатор** выбирает лучший из нескольких вариантов предсказаний, обеспечивая точность стратегии. **Интегрированный модуль** объединяет результаты работы двух предыдущих модулей, обеспечивая оптимальное решение. Этот модульный подход позволяет легко заменять или дополнять модули, что увеличивает гибкость и эффективность решения. #### Результаты Мы проверили наш алгоритм экспериментально, используя различные данные и сценарии. Результаты показали, что он достигает минимаксной оптимальности D-DGap, ограниченной логарифмическим множителем, и обеспечивает D-DGap, возникающую из-за ошибок предсказаний. Эти результаты подтверждают высокую эффективность и адаптивность нашего метода в различных средах, включая стационарные и нестационарные. #### Значимость Наш алгоритм имеет широкое применение в ситуациях, где необходима адаптивная оптимизация в динамических условиях. Он может быть использован в игоровой теории, машинном обучении, экономических моделях и других областях, где нестационарные процессы являются ключевыми. Основные преимущества нашего подхода заключаются в высокой точности, гибкости и возможности интеграции сторонних знаний с помощью модулей. Это открывает пути для будущих исследований в области динамического подхода к онлайн-оптимизации. #### Выводы Мы представили модульный алгоритм для решения проблемы онлайн-оптимизации нестационарных бийотных задач. Наш подход демонстрирует высокую эффективность и адаптивность в различных средах. Будущи

Annotation:

This paper investigates the problem of Online Convex-Concave Optimization, which extends Online Convex Optimization to two-player time-varying convex-concave games. The goal is to minimize the dynamic duality gap (D-DGap), a critical performance measure that evaluates players' strategies against arbitrary comparator sequences. Existing algorithms fail to deliver optimal performance, particularly in stationary or predictable environments. To address this, we propose a novel modular algorithm with...

ID: 2509.07901v1 cs.LG, math.OC

arXiv PDF

📄 Theoretical Analysis on how Learning Rate Warmup Accelerates Convergence

2025-09-11

Авторы:

Yuxing Liu, Yuze Ge, Rui Pan, An Kang, Tong Zhang

## Контекст В статье рассматривается техника обучения, известная как learning rate warmup, которая широко используется при обучении больших нейронных сетей. Эта техника предполагает постепенное увеличение learning rate (LR) в начале тренировки. Хотя подход показал себя эффективностью в практических задачах, его теоретические преимущества пока не полностью поняты. Мотивация для данного исследования заключается в разведении этого разрыва между теорией и практикой, чтобы дать более подробное понимание того, почему warmup работает и какие выгоды он приносит в процессе обучения. ## Метод Утверждается новая теоретическая модель, основанная на гипотезе о гладкости функции потерь, которая отличается от обычных условий сглаженности. Эта модель позволяет проанализировать влияние learning rate warmup на обучение с помощью градиентного спуска (GD) в определенных условиях. Авторы также разрабатывают модель для случая стохастического GD. Используются теоретические расчеты и эмпирические эксперименты для проверки гипотез. ## Результаты Данные эксперименты показали, что learning rate warmup существенно ускоряет процесс обучения, особенно в случаях, когда функция потерь имеет специфический тип сглаживания. Эксперименты проводились на определенных моделях, в том числе в задачах линейного регрессирования и нейронных сетей. В задачах стохастического GD убедительно доказано, что warmup может ускорить GD в $O(T)$ раз по сравнению с LR, которая не меняется во время обучения. Эти результаты подкрепляются теоретическими выкладками и численными моделями. ## Значимость Научные разработки имеют значительное значение для теории обучения нейронных сетей. Эта техника может использоваться для ускорения и улучшения точности обучения в различных задачах, включая задачи классификации, регрессии и другие. Особенно важным является применение этой техники в задачах обучения с большими данными, где LR-warmup может повысить эффективность и скорость оптимизации. ## Выводы Выводы указывают на то, что learning rate warmup является эффективным методом для ускорения и улучшения градиентного спуска. В будущем потребуется подробнее исследовать другие аспекты этого подхода, включая его применение к различным моделям и задачам, а также поиск новых модификаций LR-warmup для еще большей эффективности. Эти находки могут положительно сказаться на развитии теории и практики обучения больших нейронных сетей.

Annotation:

Learning rate warmup is a popular and practical technique in training large-scale deep neural networks. Despite the huge success in practice, the theoretical advantages of this strategy of gradually increasing the learning rate at the beginning of the training process have not been fully understood. To resolve this gap between theory and practice, we first propose a novel family of generalized smoothness assumptions, and validate its applicability both theoretically and empirically. Under the no...

ID: 2509.07972v1 cs.LG, math.OC

arXiv PDF

📄 Learning to accelerate distributed ADMM using graph neural networks

2025-09-09

Авторы:

Henri Doerks, Paul Häusner, Daniel Hernández Escobar, Jens Sjölund

#### Контекст Distributed optimization является ключевым инструментом в области машинного обучения и контроля в задачах, требующих обработки больших данных. Один из популярных подходов — Alternating Direction Method of Multipliers (ADMM) — привлекает внимание благодаря своим сильным свойствам сходимости и возможности распараллеливания вычислений. Однако, ADMM часто страдает от медлительной сходимости и чувствительности к выбору гиперпараметров, что затрудняет его применение в практических задачах. Этот резюме посвящен исследованию способа адаптивной адаптировать ADMM с использованием графовых нейронных сетей (GNN) для ускорения и улучшения результатов. #### Метод Предлагаемая методология основывается на использовании графовых нейронных сетей для оптимизации ADMM. Итерации ADMM представляются в виде message-passing framework, позволяя использовать GNN для предсказания гиперпараметров, таких как веса связей и шаги адаптации. Архитектура GNN обучается с помощью управляемых экспериментов с заданным числом итераций ADMM для оптимизации функционала ошибки. Эта модель способна учитывать структуру данных и динамический характер итераций, что позволяет улучшить качество решения и скорость сходимости. #### Результаты Проведенные эксперименты показали, что метод, основанный на GNN, существенно улучшает скорость сходимости и качество решений по сравнению с стандартным ADMM. Это достигается за счет точного адаптивного выбора гиперпараметров в каждой итерации. Использованные данные включили различные задачи распределенной оптимизации, такие как задачи с матричным разложением и задачи с множественными субъектами. Результаты подтверждают, что использование GNN для предсказания шагов ADMM приводит к более эффективному и устойчивому решению. #### Значимость Этот подход открывает широкие перспективы в применении к различным областям, таким как машинное обучение, контроль систем, информационные системы. Особенно полезен в ситуациях, когда необходимо быстрое решение задач оптимизации с распределенными данными. Преимущества включают улучшение скорости сходимости, уменьшение чувствительности к гиперпараметрам и увеличение стабильности решений. Эти достижения могут привести к более эффективному использованию ресурсов и улучшению результатов в многоузловых системах. #### Выводы Основные достижения этого исследования заключаются в разработке нового подхода к ускорению ADMM с использованием GNN. Доказано, что этот подход позволяет повысить качество решения и скорость сходимости в распределенных задачах. Будущие исследования будут посвящены усовершенствованию архитектуры GNN, расширению возможностей применения к различным типам задач и

Annotation:

Distributed optimization is fundamental in large-scale machine learning and control applications. Among existing methods, the Alternating Direction Method of Multipliers (ADMM) has gained popularity due to its strong convergence guarantees and suitability for decentralized computation. However, ADMM often suffers from slow convergence and sensitivity to hyperparameter choices. In this work, we show that distributed ADMM iterations can be naturally represented within the message-passing framework...

ID: 2509.05288v1 cs.LG, math.OC

arXiv PDF

1
2
10
11
12
13
14
15
16

Показано 111 - 120 из 157 записей