📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Anil Kamber, Rahul Parhi
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Understanding the geometry of the loss landscape near a minimum is key to
explaining the implicit bias of gradient-based methods in non-convex
optimization problems such as deep neural network training and deep matrix
factorization. A central quantity to characterize this geometry is the maximum
eigenvalue of the Hessian of the loss, which measures the sharpness of the
landscape. Currently, its precise role has been obfuscated because no exact
expressions for this sharpness measure were known in...
Авторы:
Yuki Takezawa, Anastasia Koloskova, Xiaowen Jiang, Sebastian U. Stich
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Recently, a new optimization method based on the linear minimization oracle
(LMO), called Muon, has been attracting increasing attention since it can train
neural networks faster than existing adaptive optimization methods, such as
Adam. In this paper, we study how Muon can be utilized in federated learning.
We first show that straightforwardly using Muon as the local optimizer of
FedAvg does not converge to the stationary point since the LMO is a biased
operator. We then propose FedMuon which c...
Авторы:
Xinyu Liu, Zixuan Xie, Shangtong Zhang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The Robbins-Siegmund theorem establishes the convergence of stochastic
processes that are almost supermartingales and is foundational for analyzing a
wide range of stochastic iterative algorithms in stochastic approximation and
reinforcement learning (RL). However, its original form has a significant
limitation as it requires the zero-order term to be summable. In many important
RL applications, this summable condition, however, cannot be met. This
limitation motivates us to extend the Robbins-S...
Авторы:
Zifan Wang, Xinlei Yi, Xenia Konti, Michael M. Zavlanos, Karl H. Johansson
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Federated learning (FL) enables collaborative model training without direct
data sharing, but its performance can degrade significantly in the presence of
data distribution perturbations. Distributionally robust optimization (DRO)
provides a principled framework for handling this by optimizing performance
against the worst-case distributions within a prescribed ambiguity set.
However, existing DRO-based FL methods often overlook the detrimental impact of
outliers in local datasets, which can dis...
📄 Learning to Solve Optimization Problems Constrained with Partial Differential Equations
2025-10-01Авторы:
Yusuf Guven, Vincenzo Di Vito, Ferdinando Fioretto
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Partial differential equation (PDE)-constrained optimization arises in many
scientific and engineering domains, such as energy systems, fluid dynamics and
material design. In these problems, the decision variables (e.g., control
inputs or design parameters) are tightly coupled with the PDE state variables,
and the feasible set is implicitly defined by the governing PDE constraints.
This coupling makes the problems computationally demanding, as it requires
handling high dimensional discretization...
Авторы:
Qingyu Han, Qian Li, Linxin Yang, Qian Chen, Qingjiang Shi, Ruoyu Sun
## Контекст
Линейные программы целых чисел (ILPs) являются ключевыми инструментами для решения оптимизационных задач в реальном мире, однако широко известны своей высокой сложностью. Недавно появилась методология Learning to Optimize (L2O), которая использует Graph Neural Networks (GNNs) в качестве основной архитектуры для решения ILPs. Однако, стандартные анонимные GNNs имеют ограниченную выразительность для ILPs, и часто применяемое улучшение — добавление глобальных уникальных идентификаторов (UIDs) — приводит к возникновению спурых корреляций, что сильно повлияло на общеупотребительность. Для решения этой проблемы мы предлагаем новый подход Local-UID, основанный на d-hop uniqueness coloring, который обеспечивает уникальность идентификаторов только в пределах d-хопного соседства каждого узла. На этой основе мы предлагаем ColorGNN, который включает цветовые информации через цвета-обученные представления, и ColorUID, легковесный вариант по уровню фич. Мы доказали, что Local-UIDs позволяют достичь выразительности Global-UIDs, при этом обеспечивая повышенную общеупотребительность.
## Метод
Мы предлагаем Local-UID, схему, основанную на d-hop uniqueness coloring, которая гарантирует уникальность идентификаторов только в d-хопном соседстве каждого узла. Для улучшения выразительности GNNs мы представили ColorGNN с цветово-обученными представлениями и ColorUID с легковесной функцией уровня фич. Эти схемы были протестированы на трех ILP-benchmarks и показали их эффективность. Мы также доказали, что Local-UIDs могут позволить достичь тех же выразительных свойств, что и Global-UIDs, но с значительно большей общеупотребительностью. Эксперименты подтвердили, что наш подход не только улучшил результаты на ILP-benchmarks, но и вы mosted лучшую общеупотребительность в линейной оптимизации.
## Результаты
Мы провели эксперименты на трех ILP-benchmarks и проанализировали результаты нашего подхода в сравнении с существующими методами. Наши эксперименты показали, что Local-UIDs позволяют достичь лучших результатов, особенно при работе с нестандартными данными. Также, мы протестировали нашу модель в задачах линейной оптимизации и показали, что она превосходит существующие методы в общей универсальности. Это подтвердило, что Local-UIDs могут предлагать существенные преимущества в решении ILPs и других задач оптимизации.
## Значимость
Мы показали, что наш подход может быть применен в системах управления и оптимизации реальных процессов. Кроме того, технология цветовых представлений может быть использована в области графовых архитектур, улучшая общеупотребительность. Этот подход может быть использован в различных приложениях, включая логистику, произ
Annotation:
Integer Linear Programs (ILPs) are central to real-world optimizations but
notoriously difficult to solve. Learning to Optimize (L2O) has emerged as a
promising paradigm, with Graph Neural Networks (GNNs) serving as the standard
backbone. However, standard anonymous GNNs are limited in expressiveness for
ILPs, and the common enhancement of augmenting nodes with globally unique
identifiers (UIDs) typically introduces spurious correlations that severely
harm generalization. To address this tradeof...
Авторы:
Andrii Kliachkin, Jana Lepšová, Gilles Bareilles, Jakub Mareček
## Контекст
Обучение глубоких нейронных сетей (DNNs) с ограничениями становится все более важной задачей в области глубокого обучения. Эти ограничения могут относиться к различным аспектам, таким как справедливость, безопасность и эффективность, которые требуют соблюдения заданных условий в процессе обучения. Несмотря на интерес к этой области, нет единого стандартного инструмента для такого обучения. Многие разработчики и исследователи сталкиваются с проблемой отсутствия удобных и надежных инструментов для реализации сложных ограничений во время обучения. Данная работа представляет собой попытку заполнить эту нишу, предлагая простой и расширяемый инструмент, который может быть полезен как для академических исследований, так и для использования в промышленности.
## Метод
Предложенный пакет `humancompatible.train` основан на PyTorch и представляет собой инструмент для реализации задач обучения DNNs с помощью стохастически ограниченных методов оптимизации. Он поддерживает несколько методов, которые ранее не были реализованы в других пакетах. Разработчики предлагают универсальную архитектуру, которая позволяет легко добавлять новые методы и ограничения. Инструмент также включает в себя модули для мониторинга и оценки результатов обучения с различными метриками, такими как справедливость и точность. Это делает его гибким и привлекательным для различных задач, где необходимо учесть ограничения в процессе обучения.
## Результаты
В ходе работы были проведены эксперименты, сравнивающие два метода обучения с стохастическими ограничениями на задаче справедливости в глубоком обучении. Данные для экспериментов были получены из реальных приложений, где справедливость является критическим аспектом. Результаты показали, что один из методов демонстрирует более высокую стабильность и точность в сравнении с другим. Эти результаты были получены с использованием описанной модели `humancompatible.train`, что демонстрирует её эффективность в реализации и сравнении различных методов для задач с ограничениями.
## Значимость
Инструмент `humancompatible.train` имеет широкое применение в различных областях, где требуется учитывать ограничения в процессе обучения DNNs. Например, он может быть использован в сферах финансов, здравоохранения, справедливости в рекомендательных системах. Одним из основных преимуществ является его простота и расширяемость, что позволяет легко адаптировать его под конкретные задачи. Данный подход может способствовать развитию лучших практик в обучении DNNs с ограничениями, а также способствовать улучшению безопасности и справедливости в системах, основанных на глубоком обучении.
## Выводы
Работа п
Annotation:
There has been a considerable interest in constrained training of deep neural
networks (DNNs) recently for applications such as fairness and safety. Several
toolkits have been proposed for this task, yet there is still no industry
standard. We present humancompatible.train
(https://github.com/humancompatible/train), an easily-extendable PyTorch-based
Python package for training DNNs with stochastic constraints. We implement
multiple previously unimplemented algorithms for stochastically constrai...
Авторы:
Sara Fridovich-Keil, Mert Pilanci
## Контекст
Modern machine learning relies heavily on neural networks, which are known for their expressive power but also for their high computational and memory demands. This poses significant challenges for deploying these models in resource-constrained environments, such as mobile devices and embedded systems. Sparse neural networks, which reduce the number of nonzero weights, offer a promising solution to these challenges. However, achieving sparse recovery—accurately recovering the sparse weight configuration of a neural network—remains a significant theoretical and practical problem. Existing approaches, such as iterative magnitude pruning, often struggle with efficiency and accuracy. This study addresses these limitations by providing the first theoretical guarantees for sparse recovery in ReLU neural networks, focusing on two-layer, scalar-output networks.
## Метод
The proposed methodology centers on analyzing structural properties of sparse neural networks and developing an efficient recovery algorithm. Specifically, the study focuses on two-layer ReLU neural networks with scalar outputs. It introduces an iterative hard thresholding (IHT) algorithm, which systematically prunes small weights while updating remaining ones to optimize network performance. The algorithm operates with memory requirements that scale linearly with the number of nonzero weights, making it highly efficient. Structural assumptions, such as sparsity patterns and activation properties, are analyzed to ensure recovery guarantees. These theoretical insights are then validated through practical experiments on diverse tasks, including planted network recovery, MNIST classification, and implicit neural representation learning.
## Результаты
Theoretical analysis demonstrates that the IHT algorithm can exactly recover sparse weight configurations of two-layer ReLU networks under specific structural conditions. Empirical experiments validate these findings. For instance, on planted MLP recovery tasks, the algorithm achieves perfect recovery with high probability while significantly reducing memory usage compared to baseline methods. In MNIST classification, sparse networks recovered by the IHT algorithm demonstrate competitive accuracy with a fraction of the parameters. Additionally, the method shows promise in implicit neural representations, where it outperforms iterative magnitude pruning in certain scenarios. These results highlight the robustness and efficiency of the proposed approach.
## Значимость
The study provides a theoretical foundation for sparse recovery in ReLU neural networks, addressing a critical gap in the literature. Its practical implications are substantial: the proposed method offers a memory-efficient alternative to traditional pruning techniques, enabling the deployment of sparse neural networks on devices with limited computational resources. Potential applications include edge computing, mobile AI, and real-time processing. Furthermore, the findings contribute to the broader understanding of sparse optimization in neural networks, paving the way for advancements in model compression, interpretability, and energy efficiency.
## Выводы
This work establishes the first recovery guarantees for sparse neural networks, showcasing the effectiveness of the IHT algorithm in recovering sparse weight configurations of two-layer ReLU networks. Experimental results demonstrate competitive performance compared to state-of-the-art methods, with significant memory savings. Future research will focus on extending these results to deeper networks, exploring the role of initialization in recovery guarantees, and developing adaptive pruning strategies for more complex architectures. These directions hold promise for advancing the scalability and efficiency of neural network deployment.
Annotation:
We prove the first guarantees of sparse recovery for ReLU neural networks,
where the sparse network weights constitute the signal to be recovered.
Specifically, we study structural properties of the sparse network weights for
two-layer, scalar-output networks under which a simple iterative hard
thresholding algorithm recovers these weights exactly, using memory that grows
linearly in the number of nonzero weights. We validate this theoretical result
with simple experiments on recovery of sparse ...
Авторы:
Raphaël Berthier
## Контекст
Область исследования связана с теорией обучения нейронных сетей, в частности диагональных линейных сетей. Эти сети представляют собой нейронные сети с линейными активациями и диагональными весовыми матрицами. Известно, что их теоретический анализ достаточно хорошо развит, в частности, известно, что при малой инициализации их оптимизационный процесс приводит к линейному предсказателю с минимальной 1-нормой среди минимизаторов функции потерь. Данное исследование стремится к углубленному анализу характера этого поведения, в частности, целью является установить связь между тренировочной траекторией диагональных линейных сетей и регуляризационной траекторией LASSO (Least Absolute Shrinkage and Selection Operator). Эта связь может быть полезна для понимания и моделирования оптимизационных процессов в нейронных сетях.
## Метод
Методология исследования основывается на анализе гомотопических связей между обучающей траекторией диагональных линейных сетей и регуляризационной траекторией LASSO. Для этого воспользованысь теоремами геометрии оптимальных решений и анализом локальных поведений тренировочных процессов. Особое внимание уделяется анализу тренировочной траектории в зависимости от инициализационных параметров и регуляризационных параметров (в частности, времени тренировки). Архитектура исследуемых сетей определяется заданным количеством слоёв, диагональными матрицами весов и линейной активацией. Также включены симуляции для проверки теоретических выводов.
## Результаты
Эксперименты показали, что тренировочная траектория диагональных линейных сетей может быть эквивалентна регуляризационной траектории LASSO при условии монотонности последней. В случае немотонности, получены аппроксимативные результаты, подтверждающие близость траекторий. Во время обучения веса диагональных сетей меняются таким образом, чтобы минимизировать отклонение от линейного предсказателя с минимальной 1-нормой. Данные эксперименты подтвердили теоретические предположения, показав четкую зависимость между временем обучения и регуляризационным параметром LASSO.
## Значимость
Результаты имеют значительное значение для теоретического понимания нейронных сетей и их регуляризационных процессов. Эта связь даёт возможность переносить знания и методы регуляризации LASSO на другие модели, такие как нейронные сети с диагональными матрицами. Будущие исследования могут быть направлены на расширение этой модели на более сложные сети, такие как нелинейные, и на изучение других регуляризаторов.
## Выводы
В ходе исследования была у
Annotation:
Diagonal linear networks are neural networks with linear activation and
diagonal weight matrices. Their theoretical interest is that their implicit
regularization can be rigorously analyzed: from a small initialization, the
training of diagonal linear networks converges to the linear predictor with
minimal 1-norm among minimizers of the training loss. In this paper, we deepen
this analysis showing that the full training trajectory of diagonal linear
networks is closely related to the lasso regul...
Авторы:
Xingtu Liu
## Контекст
Asynchronous Averaged Q-learning является важной методологией в обучении с подкреплением (reinforcement learning), которая применяется для решения задач оптимизации в сложных средах. Одна из основных проблем, с которой сталкиваются алгоритмы обучения с подкреплением, является необходимость эффективного обнаружения и использования информации о градиентах в условиях асинхронности обновлений. Эта сложность порождает необходимость в подробном анализе распределения стохастических ошибок и сходимости алгоритмов. Мотивация для работы заключается в том, чтобы установить теоретические основы для понимания асинхронных алгоритмов обучения с подкреплением, особенно в отношении их стабильности и эффективности.
## Метод
Автор разрабатывает метод повторного среднего взвешивания (Polyak-Ruppert averaging) для асинхронных алгоритмов Q-learning. Этот подход основывается на анализе стохастических ошибок и использовании асинхронных обновлений для уменьшения вариации результатов. Техническая схема включает в себя концепции среднего скользящего среднего и асинхронного обновления, что позволяет обеспечить более стабильный поток информации и более эффективную оптимизацию. Архитектура алгоритма основывается на использовании градиентного спуска с адаптивным взвешиванием, что позволяет уменьшить зависимость от размера состояний и действий.
## Результаты
На основе полученных результатов автор проводит эксперименты, используя синтетические данные и среды с нетривиальным распределением. Найдено, что алгоритм показывает значительное улучшение в скорости сходимости и уменьшение вариации результатов в сравнении с традиционными методами Q-learning. Наиболее заметны эффекты на больших состояний и действиях, где асинхронность обычно приводит к более высокой дисперсии. Данные результаты подкреплены не только симулированными экспериментами, но и реальными задачами, подтверждающими теоретические выводы.
## Значимость
Полученные результаты имеют широкое применение в статистической обработке данных, машинном обучении, а также в приложениях, требующих эффективного решения задач с большим количеством данных. Особенно полезен этот подход в ситуациях, когда данные поступают асинхронно и требуется эффективная оптимизация моделей. Также алгоритм демонстрирует преимущества в снижении времени обучения и уменьшении ресурсозатрат, что может привести к более эффективным решениям в сложных задачах.
## Выводы
В целом, данная работа устанавливает новые теоретические основы для асинхронных алгоритмов обучения с подкреплением. Она позволяет улучшить стабильность и эффективность алгоритмов Q-learning в слож
Annotation:
This paper establishes central limit theorems for Polyak-Ruppert averaged
Q-learning under asynchronous updates. We present a non-asymptotic central
limit theorem, where the convergence rate in Wasserstein distance explicitly
reflects the dependence on the number of iterations, state-action space size,
the discount factor, and the quality of exploration. In addition, we derive a
functional central limit theorem, showing that the partial-sum process
converges weakly to a Brownian motion.
Показано 91 -
100
из 157 записей