📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Sharpness of Minima in Deep Matrix Factorization: Exact Expressions

2025-10-02

Авторы:

Anil Kamber, Rahul Parhi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Understanding the geometry of the loss landscape near a minimum is key to explaining the implicit bias of gradient-based methods in non-convex optimization problems such as deep neural network training and deep matrix factorization. A central quantity to characterize this geometry is the maximum eigenvalue of the Hessian of the loss, which measures the sharpness of the landscape. Currently, its precise role has been obfuscated because no exact expressions for this sharpness measure were known in...

ID: 2509.25783v1 stat.ML, cs.LG, math.OC

arXiv PDF

📄 FedMuon: Federated Learning with Bias-corrected LMO-based Optimization

2025-10-02

Авторы:

Yuki Takezawa, Anastasia Koloskova, Xiaowen Jiang, Sebastian U. Stich

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recently, a new optimization method based on the linear minimization oracle (LMO), called Muon, has been attracting increasing attention since it can train neural networks faster than existing adaptive optimization methods, such as Adam. In this paper, we study how Muon can be utilized in federated learning. We first show that straightforwardly using Muon as the local optimizer of FedAvg does not converge to the stationary point since the LMO is a biased operator. We then propose FedMuon which c...

ID: 2509.26337v1 cs.LG, math.OC

arXiv PDF

📄 Extensions of Robbins-Siegmund Theorem with Applications in Reinforcement Learning

2025-10-02

Авторы:

Xinyu Liu, Zixuan Xie, Shangtong Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The Robbins-Siegmund theorem establishes the convergence of stochastic processes that are almost supermartingales and is foundational for analyzing a wide range of stochastic iterative algorithms in stochastic approximation and reinforcement learning (RL). However, its original form has a significant limitation as it requires the zero-order term to be summable. In many important RL applications, this summable condition, however, cannot be met. This limitation motivates us to extend the Robbins-S...

ID: 2509.26442v1 cs.LG, math.OC

arXiv PDF

📄 Distributionally Robust Federated Learning with Outlier Resilience

2025-10-01

Авторы:

Zifan Wang, Xinlei Yi, Xenia Konti, Michael M. Zavlanos, Karl H. Johansson

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Federated learning (FL) enables collaborative model training without direct data sharing, but its performance can degrade significantly in the presence of data distribution perturbations. Distributionally robust optimization (DRO) provides a principled framework for handling this by optimizing performance against the worst-case distributions within a prescribed ambiguity set. However, existing DRO-based FL methods often overlook the detrimental impact of outliers in local datasets, which can dis...

ID: 2509.24462v1 cs.LG, math.OC

arXiv PDF

📄 Learning to Solve Optimization Problems Constrained with Partial Differential Equations

2025-10-01

Авторы:

Yusuf Guven, Vincenzo Di Vito, Ferdinando Fioretto

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Partial differential equation (PDE)-constrained optimization arises in many scientific and engineering domains, such as energy systems, fluid dynamics and material design. In these problems, the decision variables (e.g., control inputs or design parameters) are tightly coupled with the PDE state variables, and the feasible set is implicitly defined by the governing PDE constraints. This coupling makes the problems computationally demanding, as it requires handling high dimensional discretization...

ID: 2509.24573v1 cs.LG, math.OC

arXiv PDF

📄 Feature Augmentation of GNNs for ILPs: Local Uniqueness Suffices

2025-09-27

Авторы:

Qingyu Han, Qian Li, Linxin Yang, Qian Chen, Qingjiang Shi, Ruoyu Sun

## Контекст Линейные программы целых чисел (ILPs) являются ключевыми инструментами для решения оптимизационных задач в реальном мире, однако широко известны своей высокой сложностью. Недавно появилась методология Learning to Optimize (L2O), которая использует Graph Neural Networks (GNNs) в качестве основной архитектуры для решения ILPs. Однако, стандартные анонимные GNNs имеют ограниченную выразительность для ILPs, и часто применяемое улучшение — добавление глобальных уникальных идентификаторов (UIDs) — приводит к возникновению спурых корреляций, что сильно повлияло на общеупотребительность. Для решения этой проблемы мы предлагаем новый подход Local-UID, основанный на d-hop uniqueness coloring, который обеспечивает уникальность идентификаторов только в пределах d-хопного соседства каждого узла. На этой основе мы предлагаем ColorGNN, который включает цветовые информации через цвета-обученные представления, и ColorUID, легковесный вариант по уровню фич. Мы доказали, что Local-UIDs позволяют достичь выразительности Global-UIDs, при этом обеспечивая повышенную общеупотребительность. ## Метод Мы предлагаем Local-UID, схему, основанную на d-hop uniqueness coloring, которая гарантирует уникальность идентификаторов только в d-хопном соседстве каждого узла. Для улучшения выразительности GNNs мы представили ColorGNN с цветово-обученными представлениями и ColorUID с легковесной функцией уровня фич. Эти схемы были протестированы на трех ILP-benchmarks и показали их эффективность. Мы также доказали, что Local-UIDs могут позволить достичь тех же выразительных свойств, что и Global-UIDs, но с значительно большей общеупотребительностью. Эксперименты подтвердили, что наш подход не только улучшил результаты на ILP-benchmarks, но и вы mosted лучшую общеупотребительность в линейной оптимизации. ## Результаты Мы провели эксперименты на трех ILP-benchmarks и проанализировали результаты нашего подхода в сравнении с существующими методами. Наши эксперименты показали, что Local-UIDs позволяют достичь лучших результатов, особенно при работе с нестандартными данными. Также, мы протестировали нашу модель в задачах линейной оптимизации и показали, что она превосходит существующие методы в общей универсальности. Это подтвердило, что Local-UIDs могут предлагать существенные преимущества в решении ILPs и других задач оптимизации. ## Значимость Мы показали, что наш подход может быть применен в системах управления и оптимизации реальных процессов. Кроме того, технология цветовых представлений может быть использована в области графовых архитектур, улучшая общеупотребительность. Этот подход может быть использован в различных приложениях, включая логистику, произ

Annotation:

Integer Linear Programs (ILPs) are central to real-world optimizations but notoriously difficult to solve. Learning to Optimize (L2O) has emerged as a promising paradigm, with Graph Neural Networks (GNNs) serving as the standard backbone. However, standard anonymous GNNs are limited in expressiveness for ILPs, and the common enhancement of augmenting nodes with globally unique identifiers (UIDs) typically introduces spurious correlations that severely harm generalization. To address this tradeof...

ID: 2509.21000v1 cs.LG, math.OC

arXiv PDF

📄 humancompatible.train: Implementing Optimization Algorithms for Stochastically-Constrained Stochastic Optimization Problems

2025-09-27

Авторы:

Andrii Kliachkin, Jana Lepšová, Gilles Bareilles, Jakub Mareček

## Контекст Обучение глубоких нейронных сетей (DNNs) с ограничениями становится все более важной задачей в области глубокого обучения. Эти ограничения могут относиться к различным аспектам, таким как справедливость, безопасность и эффективность, которые требуют соблюдения заданных условий в процессе обучения. Несмотря на интерес к этой области, нет единого стандартного инструмента для такого обучения. Многие разработчики и исследователи сталкиваются с проблемой отсутствия удобных и надежных инструментов для реализации сложных ограничений во время обучения. Данная работа представляет собой попытку заполнить эту нишу, предлагая простой и расширяемый инструмент, который может быть полезен как для академических исследований, так и для использования в промышленности. ## Метод Предложенный пакет `humancompatible.train` основан на PyTorch и представляет собой инструмент для реализации задач обучения DNNs с помощью стохастически ограниченных методов оптимизации. Он поддерживает несколько методов, которые ранее не были реализованы в других пакетах. Разработчики предлагают универсальную архитектуру, которая позволяет легко добавлять новые методы и ограничения. Инструмент также включает в себя модули для мониторинга и оценки результатов обучения с различными метриками, такими как справедливость и точность. Это делает его гибким и привлекательным для различных задач, где необходимо учесть ограничения в процессе обучения. ## Результаты В ходе работы были проведены эксперименты, сравнивающие два метода обучения с стохастическими ограничениями на задаче справедливости в глубоком обучении. Данные для экспериментов были получены из реальных приложений, где справедливость является критическим аспектом. Результаты показали, что один из методов демонстрирует более высокую стабильность и точность в сравнении с другим. Эти результаты были получены с использованием описанной модели `humancompatible.train`, что демонстрирует её эффективность в реализации и сравнении различных методов для задач с ограничениями. ## Значимость Инструмент `humancompatible.train` имеет широкое применение в различных областях, где требуется учитывать ограничения в процессе обучения DNNs. Например, он может быть использован в сферах финансов, здравоохранения, справедливости в рекомендательных системах. Одним из основных преимуществ является его простота и расширяемость, что позволяет легко адаптировать его под конкретные задачи. Данный подход может способствовать развитию лучших практик в обучении DNNs с ограничениями, а также способствовать улучшению безопасности и справедливости в системах, основанных на глубоком обучении. ## Выводы Работа п

Annotation:

There has been a considerable interest in constrained training of deep neural networks (DNNs) recently for applications such as fairness and safety. Several toolkits have been proposed for this task, yet there is still no industry standard. We present humancompatible.train (https://github.com/humancompatible/train), an easily-extendable PyTorch-based Python package for training DNNs with stochastic constraints. We implement multiple previously unimplemented algorithms for stochastically constrai...

ID: 2509.21254v1 cs.LG, math.OC

arXiv PDF

📄 A Recovery Guarantee for Sparse Neural Networks

2025-09-26

Авторы:

Sara Fridovich-Keil, Mert Pilanci

## Контекст Modern machine learning relies heavily on neural networks, which are known for their expressive power but also for their high computational and memory demands. This poses significant challenges for deploying these models in resource-constrained environments, such as mobile devices and embedded systems. Sparse neural networks, which reduce the number of nonzero weights, offer a promising solution to these challenges. However, achieving sparse recovery—accurately recovering the sparse weight configuration of a neural network—remains a significant theoretical and practical problem. Existing approaches, such as iterative magnitude pruning, often struggle with efficiency and accuracy. This study addresses these limitations by providing the first theoretical guarantees for sparse recovery in ReLU neural networks, focusing on two-layer, scalar-output networks. ## Метод The proposed methodology centers on analyzing structural properties of sparse neural networks and developing an efficient recovery algorithm. Specifically, the study focuses on two-layer ReLU neural networks with scalar outputs. It introduces an iterative hard thresholding (IHT) algorithm, which systematically prunes small weights while updating remaining ones to optimize network performance. The algorithm operates with memory requirements that scale linearly with the number of nonzero weights, making it highly efficient. Structural assumptions, such as sparsity patterns and activation properties, are analyzed to ensure recovery guarantees. These theoretical insights are then validated through practical experiments on diverse tasks, including planted network recovery, MNIST classification, and implicit neural representation learning. ## Результаты Theoretical analysis demonstrates that the IHT algorithm can exactly recover sparse weight configurations of two-layer ReLU networks under specific structural conditions. Empirical experiments validate these findings. For instance, on planted MLP recovery tasks, the algorithm achieves perfect recovery with high probability while significantly reducing memory usage compared to baseline methods. In MNIST classification, sparse networks recovered by the IHT algorithm demonstrate competitive accuracy with a fraction of the parameters. Additionally, the method shows promise in implicit neural representations, where it outperforms iterative magnitude pruning in certain scenarios. These results highlight the robustness and efficiency of the proposed approach. ## Значимость The study provides a theoretical foundation for sparse recovery in ReLU neural networks, addressing a critical gap in the literature. Its practical implications are substantial: the proposed method offers a memory-efficient alternative to traditional pruning techniques, enabling the deployment of sparse neural networks on devices with limited computational resources. Potential applications include edge computing, mobile AI, and real-time processing. Furthermore, the findings contribute to the broader understanding of sparse optimization in neural networks, paving the way for advancements in model compression, interpretability, and energy efficiency. ## Выводы This work establishes the first recovery guarantees for sparse neural networks, showcasing the effectiveness of the IHT algorithm in recovering sparse weight configurations of two-layer ReLU networks. Experimental results demonstrate competitive performance compared to state-of-the-art methods, with significant memory savings. Future research will focus on extending these results to deeper networks, exploring the role of initialization in recovery guarantees, and developing adaptive pruning strategies for more complex architectures. These directions hold promise for advancing the scalability and efficiency of neural network deployment.

Annotation:

We prove the first guarantees of sparse recovery for ReLU neural networks, where the sparse network weights constitute the signal to be recovered. Specifically, we study structural properties of the sparse network weights for two-layer, scalar-output networks under which a simple iterative hard thresholding algorithm recovers these weights exactly, using memory that grows linearly in the number of nonzero weights. We validate this theoretical result with simple experiments on recovery of sparse ...

ID: 2509.20323v1 cs.LG, math.OC, stat.ML

arXiv PDF

📄 Diagonal Linear Networks and the Lasso Regularization Path

2025-09-25

Авторы:

Raphaël Berthier

## Контекст Область исследования связана с теорией обучения нейронных сетей, в частности диагональных линейных сетей. Эти сети представляют собой нейронные сети с линейными активациями и диагональными весовыми матрицами. Известно, что их теоретический анализ достаточно хорошо развит, в частности, известно, что при малой инициализации их оптимизационный процесс приводит к линейному предсказателю с минимальной 1-нормой среди минимизаторов функции потерь. Данное исследование стремится к углубленному анализу характера этого поведения, в частности, целью является установить связь между тренировочной траекторией диагональных линейных сетей и регуляризационной траекторией LASSO (Least Absolute Shrinkage and Selection Operator). Эта связь может быть полезна для понимания и моделирования оптимизационных процессов в нейронных сетях. ## Метод Методология исследования основывается на анализе гомотопических связей между обучающей траекторией диагональных линейных сетей и регуляризационной траекторией LASSO. Для этого воспользованысь теоремами геометрии оптимальных решений и анализом локальных поведений тренировочных процессов. Особое внимание уделяется анализу тренировочной траектории в зависимости от инициализационных параметров и регуляризационных параметров (в частности, времени тренировки). Архитектура исследуемых сетей определяется заданным количеством слоёв, диагональными матрицами весов и линейной активацией. Также включены симуляции для проверки теоретических выводов. ## Результаты Эксперименты показали, что тренировочная траектория диагональных линейных сетей может быть эквивалентна регуляризационной траектории LASSO при условии монотонности последней. В случае немотонности, получены аппроксимативные результаты, подтверждающие близость траекторий. Во время обучения веса диагональных сетей меняются таким образом, чтобы минимизировать отклонение от линейного предсказателя с минимальной 1-нормой. Данные эксперименты подтвердили теоретические предположения, показав четкую зависимость между временем обучения и регуляризационным параметром LASSO. ## Значимость Результаты имеют значительное значение для теоретического понимания нейронных сетей и их регуляризационных процессов. Эта связь даёт возможность переносить знания и методы регуляризации LASSO на другие модели, такие как нейронные сети с диагональными матрицами. Будущие исследования могут быть направлены на расширение этой модели на более сложные сети, такие как нелинейные, и на изучение других регуляризаторов. ## Выводы В ходе исследования была у

Annotation:

Diagonal linear networks are neural networks with linear activation and diagonal weight matrices. Their theoretical interest is that their implicit regularization can be rigorously analyzed: from a small initialization, the training of diagonal linear networks converges to the linear predictor with minimal 1-norm among minimizers of the training loss. In this paper, we deepen this analysis showing that the full training trajectory of diagonal linear networks is closely related to the lasso regul...

ID: 2509.18766v1 cs.LG, math.OC, stat.ML, 62J07, 68T07, G.3

arXiv PDF

📄 Central Limit Theorems for Asynchronous Averaged Q-Learning

2025-09-25

Авторы:

Xingtu Liu

## Контекст Asynchronous Averaged Q-learning является важной методологией в обучении с подкреплением (reinforcement learning), которая применяется для решения задач оптимизации в сложных средах. Одна из основных проблем, с которой сталкиваются алгоритмы обучения с подкреплением, является необходимость эффективного обнаружения и использования информации о градиентах в условиях асинхронности обновлений. Эта сложность порождает необходимость в подробном анализе распределения стохастических ошибок и сходимости алгоритмов. Мотивация для работы заключается в том, чтобы установить теоретические основы для понимания асинхронных алгоритмов обучения с подкреплением, особенно в отношении их стабильности и эффективности. ## Метод Автор разрабатывает метод повторного среднего взвешивания (Polyak-Ruppert averaging) для асинхронных алгоритмов Q-learning. Этот подход основывается на анализе стохастических ошибок и использовании асинхронных обновлений для уменьшения вариации результатов. Техническая схема включает в себя концепции среднего скользящего среднего и асинхронного обновления, что позволяет обеспечить более стабильный поток информации и более эффективную оптимизацию. Архитектура алгоритма основывается на использовании градиентного спуска с адаптивным взвешиванием, что позволяет уменьшить зависимость от размера состояний и действий. ## Результаты На основе полученных результатов автор проводит эксперименты, используя синтетические данные и среды с нетривиальным распределением. Найдено, что алгоритм показывает значительное улучшение в скорости сходимости и уменьшение вариации результатов в сравнении с традиционными методами Q-learning. Наиболее заметны эффекты на больших состояний и действиях, где асинхронность обычно приводит к более высокой дисперсии. Данные результаты подкреплены не только симулированными экспериментами, но и реальными задачами, подтверждающими теоретические выводы. ## Значимость Полученные результаты имеют широкое применение в статистической обработке данных, машинном обучении, а также в приложениях, требующих эффективного решения задач с большим количеством данных. Особенно полезен этот подход в ситуациях, когда данные поступают асинхронно и требуется эффективная оптимизация моделей. Также алгоритм демонстрирует преимущества в снижении времени обучения и уменьшении ресурсозатрат, что может привести к более эффективным решениям в сложных задачах. ## Выводы В целом, данная работа устанавливает новые теоретические основы для асинхронных алгоритмов обучения с подкреплением. Она позволяет улучшить стабильность и эффективность алгоритмов Q-learning в слож

Annotation:

This paper establishes central limit theorems for Polyak-Ruppert averaged Q-learning under asynchronous updates. We present a non-asymptotic central limit theorem, where the convergence rate in Wasserstein distance explicitly reflects the dependence on the number of iterations, state-action space size, the discount factor, and the quality of exploration. In addition, we derive a functional central limit theorem, showing that the partial-sum process converges weakly to a Brownian motion.

ID: 2509.18964v1 cs.LG, math.OC, stat.ML

arXiv PDF

Показано 91 - 100 из 157 записей