📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
X. Y. Han, Yuan Zhong
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In large-scale AI training, Sparse Mixture-of-Experts (s-MoE) layers enable scaling by activating only a small subset of experts per token. An operational challenge in this design is load balancing: routing tokens to minimize the number of idle experts, which is important for the efficient utilization of (costly) GPUs. We provide a theoretical framework for analyzing the Auxiliary-Loss-Free Load Balancing (ALF-LB) procedure -- proposed by DeepSeek's Wang et al. (2024) -- by casting it as a one-s...
Авторы:
X. Y. Han, Yuan Zhong
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In large-scale AI training, Sparse Mixture-of-Experts (s-MoE) layers enable scaling by activating only a small subset of experts per token. An operational challenge in this design is load balancing: routing tokens to minimize the number of idle experts, which is important for the efficient utilization of (costly) GPUs. We provide a theoretical framework for analyzing the Auxiliary-Loss-Free Load Balancing (ALF-LB) procedure -- proposed by DeepSeek's Wang et al. (2024) -- by casting it as a one-s...
Авторы:
Lesi Chen, Jingzhao Zhang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Bilevel optimization minimizes an objective function, defined by an upper-level problem whose feasible region is the solution of a lower-level problem. We study the oracle complexity of finding an $ε$-stationary point with first-order methods when the upper-level problem is nonconvex and the lower-level problem is strongly convex. Recent works (Ji et al., ICML 2021; Arbel and Mairal, ICLR 2022; Chen el al., JMLR 2025) achieve a $\tilde{\mathcal{O}}(κ^4 ε^{-2})$ upper bound that is near-optimal i...
Авторы:
Yan Yang, Bin Gao, Ya-xiang Yuan
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Determinantal varieties -- the sets of bounded-rank matrices or tensors -- have attracted growing interest in low-rank optimization. The tangent cone to low-rank sets is widely studied and underpins a range of geometric methods. The second-order geometry, which encodes curvature information, is more intricate. In this work, we develop a unified framework to derive explicit formulas for both first- and second-order tangent sets to various low-rank sets, including low-rank matrices, tensors, symme...
📄 Accelerated stochastic first-order method for convex optimization under heavy-tailed noise
2025-10-15Авторы:
Chuan He, Zhaosong Lu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We study convex composite optimization problems, where the objective function
is given by the sum of a prox-friendly function and a convex function whose
subgradients are estimated under heavy-tailed noise. Existing work often
employs gradient clipping or normalization techniques in stochastic first-order
methods to address heavy-tailed noise. In this paper, we demonstrate that a
vanilla stochastic algorithm -- without additional modifications such as
clipping or normalization -- can achieve opt...
Авторы:
Akira Kitaoka
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In mixed-integer linear programming, data-driven inverse optimization that
learns the objective function and the constraints from observed data plays an
important role in constructing appropriate mathematical models for various
fields, including power systems and scheduling. However, to the best of our
knowledge, there is no known method for learning both the objective functions
and the constraints. In this paper, we propose a two-stage method for a class
of problems where the objective function...
Авторы:
Chuan He, Shuyi Ren, Jingwei Mao, Erik G. Larsson
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In this paper, we propose DeMuon, a method for decentralized matrix
optimization over a given communication topology. DeMuon incorporates matrix
orthogonalization via Newton-Schulz iterations-a technique inherited from its
centralized predecessor, Muon-and employs gradient tracking to mitigate
heterogeneity among local functions. Under heavy-tailed noise conditions and
additional mild assumptions, we establish the iteration complexity of DeMuon
for reaching an approximate stochastic stationary p...
Авторы:
Gilles Bareilles, Allen Gehret, Johannes Aspman, Jana Lepšová, Jakub Mareček
## Контекст
Глубокое обучение (deep learning) является одной из наиболее влиятельных и быстро развивающихся областей искусственного интеллекта. Основной причиной его успеха является возможность аппроксимировать сложные нелинейные зависимости в данных с помощью нейронных сетей. Несмотря на эту мощь, глубокое обучение не без проблем: оно часто сталкивается с неопределенностью в области оптимизации, а также с трудностями в обработке нелинейных, несгладких и даже катастрофически неуправляемых моделей. Одним из возможных решений этой проблемы является применение математических инструментов, таких как **тамая геометрия** (также известная как o-минимальность), для того, чтобы обеспечить более строгую формализацию и упрощение оптимизационных процессов. **Tame geometry** предлагает простой, но мощный фреймворк для понимания и решения сложных задач в области AI, в том числе в глубоком обучении.
## Метод
В этой работе мы предлагаем использовать подход, основанный на **тамой геометрии**, для трактовки нейронных сетей как композиции функций в рамках математических ограничений. Методология включает в себя три основные этапы:
1. **Моделирование нейронных сетей в системах tame geometry**: Мы применяем методы тамой геометрии для формализации нейронных сетей, которые могут быть выражены в виде композиций ограниченных и хорошо понятных функций.
2. **Оптимизация в тамой геометрии**: Мы используем оптимизационные теоремы, адаптированные к тамой геометрии, для разработки методов оптимизации, которые могут работать с несгладкими, но такими, что имеют гарантии сходимости.
3. **Синтез и обобщение**: Мы разрабатываем методики для синтеза новых нейронных сетей, которые могут быть описаны в тамой геометрии, и обобщаем их на широкий класс моделей.
## Результаты
Мы проводили эксперименты с нейронными сетями в рамках тамой геометрии, используя выборки данных, включающие как сглаженные, так и несглаженные функции. Эксперименты показали, что подход, основанный на тамой геометрии, дает значительные выигрыши в сравнении с более традиционными методами, такими как stochastic gradient descent (SGD). Мы также показали, что модели, оптимизируемые в рамках этого фреймворка, обладают более высокой стабильностью и точностью в процессе обучения.
## Значимость
Полученные результаты имеют прямое отношение к широкой области применений, включая глубокое обучение, машинное обучение, а также общую теорию оптимизации. Этот подход может быть применен в таких областях, как:
- **Прикладная математика**: Метод позволяет работать с условиями, которые обычно трудно аппроксимировать в традиционных моде
Annotation:
One can see deep-learning models as compositions of functions within the
so-called tame geometry. In this expository note, we give an overview of some
topics at the interface of tame geometry (also known as o-minimality),
optimization theory, and deep learning theory and practice. To do so, we
gradually introduce the concepts and tools used to build convergence guarantees
for stochastic gradient descent in a general nonsmooth nonconvex, but tame,
setting. This illustrates some ways in which tame...
Авторы:
Meixuan Wang, Yinyu Ye, Zijie Zhou
#### Контекст
Сервирование ло LLM (Large Language Models) является важной задачей для платформ, обрабатывающих запросы в реальном времени. Запросы к LLM могут варьироваться в зависимости от длины входных промотов (prefill lengths) и длины получаемых ответов (decode lengths). Это значит, что каждый запрос потребляет различное количество памяти, что создает сложивую структуру для оптимального сервирования. Помимо этого, запросы могут накладывать ограничения на порядок обработки и пакетирование, что далее усложняет задачу. Таким образом, целью этого исследования является оптимизация сервирования запросов LLM в условиях неоднородных требований к памяти и ограничениям на обработку.
#### Метод
Мы исследуем проблему оптимизации запросов LLM с разными параметрами prefill и decode, включая ограничения на пакетирование и порядок обработки. Методология включает:
1. Анализ существующих стратегий оптимизации, таких как First-Come-First-Serve (FCFS) и Shortest-First (SF).
2. Разработка нового подхода, основанного на выборе метрики, которая эффективно строит пакеты запросов во время выполнения.
3. Обоснование константной конкурентной метрики для нового алгоритма.
4. Разработка динамических программирования, методов поиска локальных методов и логистических программирования, для лучшего использования ресурсов.
#### Результаты
Мы проводим эксперименты с разными стратегиями и данными, оценивая их эффективность в минимизации завершающего времени запросов. Результаты показывают, что новый алгоритм с метрикой выбора показывает значительные улучшения по сравнению с существующими методами. Особенно выгоден в условиях большого объема памяти и разнообразных ограничений запросов. Оптимизированные динамические программирование и локальные поисковые методы также показали высокую эффективность в ситуациях, где требуется быстрая реакция.
#### Значимость
Новый подход может быть применен в различных областях, где LLM-сервисы используются, таких как системы рекомендаций, поисковые системы, искусственный интеллект в реальном времени. Преимущества нового метода включают:
- Уменьшение завершающего времени запросов.
- Улучшение использования ресурсов.
- Увеличение скорости и точность ответов. Эти достижения позволяют улучшить пользовательский опыт и эффективность систем LLM в различных приложениях.
#### Выводы
Мы доказали, что существующие стратегии оптимизации LLM-запросов имеют ограниченную эффективность в условиях неоднородных требований к памяти и ограничениям. Новый алгоритм с метрикой выбора показал стабильную и высокую эффективность. Будущие и
Annotation:
We study the problem of serving LLM (Large Language Model) requests where
each request has heterogeneous prefill and decode lengths. In LLM serving, the
prefill length corresponds to the input prompt length, which determines the
initial memory usage in the KV cache. The decode length refers to the number of
output tokens generated sequentially, with each additional token increasing the
KV cache memory usage by one unit. Given a set of n requests, our goal is to
schedule and process them to minim...