📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

X. Y. Han, Yuan Zhong

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In large-scale AI training, Sparse Mixture-of-Experts (s-MoE) layers enable scaling by activating only a small subset of experts per token. An operational challenge in this design is load balancing: routing tokens to minimize the number of idle experts, which is important for the efficient utilization of (costly) GPUs. We provide a theoretical framework for analyzing the Auxiliary-Loss-Free Load Balancing (ALF-LB) procedure -- proposed by DeepSeek's Wang et al. (2024) -- by casting it as a one-s...
ID: 2512.03915v2 math.OC, cs.AI, cs.LG
Авторы:

X. Y. Han, Yuan Zhong

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In large-scale AI training, Sparse Mixture-of-Experts (s-MoE) layers enable scaling by activating only a small subset of experts per token. An operational challenge in this design is load balancing: routing tokens to minimize the number of idle experts, which is important for the efficient utilization of (costly) GPUs. We provide a theoretical framework for analyzing the Auxiliary-Loss-Free Load Balancing (ALF-LB) procedure -- proposed by DeepSeek's Wang et al. (2024) -- by casting it as a one-s...
ID: 2512.03915v1 math.OC, cs.AI, cs.LG
Авторы:

Lesi Chen, Jingzhao Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Bilevel optimization minimizes an objective function, defined by an upper-level problem whose feasible region is the solution of a lower-level problem. We study the oracle complexity of finding an $ε$-stationary point with first-order methods when the upper-level problem is nonconvex and the lower-level problem is strongly convex. Recent works (Ji et al., ICML 2021; Arbel and Mairal, ICLR 2022; Chen el al., JMLR 2025) achieve a $\tilde{\mathcal{O}}(κ^4 ε^{-2})$ upper bound that is near-optimal i...
ID: 2511.22331v1 math.OC, cs.AI, cs.LG
Авторы:

Yan Yang, Bin Gao, Ya-xiang Yuan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Determinantal varieties -- the sets of bounded-rank matrices or tensors -- have attracted growing interest in low-rank optimization. The tangent cone to low-rank sets is widely studied and underpins a range of geometric methods. The second-order geometry, which encodes curvature information, is more intricate. In this work, we develop a unified framework to derive explicit formulas for both first- and second-order tangent sets to various low-rank sets, including low-rank matrices, tensors, symme...
ID: 2511.22613v1 math.OC, cs.AI, cs.LG
Авторы:

Chuan He, Zhaosong Lu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We study convex composite optimization problems, where the objective function is given by the sum of a prox-friendly function and a convex function whose subgradients are estimated under heavy-tailed noise. Existing work often employs gradient clipping or normalization techniques in stochastic first-order methods to address heavy-tailed noise. In this paper, we demonstrate that a vanilla stochastic algorithm -- without additional modifications such as clipping or normalization -- can achieve opt...
ID: 2510.11676v1 math.OC, cs.AI, cs.LG, stat.ML, 49M05, 49M37, 90C25, 90C30
Авторы:

Akira Kitaoka

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In mixed-integer linear programming, data-driven inverse optimization that learns the objective function and the constraints from observed data plays an important role in constructing appropriate mathematical models for various fields, including power systems and scheduling. However, to the best of our knowledge, there is no known method for learning both the objective functions and the constraints. In this paper, we propose a two-stage method for a class of problems where the objective function...
ID: 2510.04455v1 math.OC, cs.AI, cs.LG, math.ST, stat.ML, stat.TH
Авторы:

Chuan He, Shuyi Ren, Jingwei Mao, Erik G. Larsson

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In this paper, we propose DeMuon, a method for decentralized matrix optimization over a given communication topology. DeMuon incorporates matrix orthogonalization via Newton-Schulz iterations-a technique inherited from its centralized predecessor, Muon-and employs gradient tracking to mitigate heterogeneity among local functions. Under heavy-tailed noise conditions and additional mild assumptions, we establish the iteration complexity of DeMuon for reaching an approximate stochastic stationary p...
ID: 2510.01377v1 math.OC, cs.AI, cs.LG, cs.MA, cs.SY, eess.SY
Авторы:

Gilles Bareilles, Allen Gehret, Johannes Aspman, Jana Lepšová, Jakub Mareček

## Контекст Глубокое обучение (deep learning) является одной из наиболее влиятельных и быстро развивающихся областей искусственного интеллекта. Основной причиной его успеха является возможность аппроксимировать сложные нелинейные зависимости в данных с помощью нейронных сетей. Несмотря на эту мощь, глубокое обучение не без проблем: оно часто сталкивается с неопределенностью в области оптимизации, а также с трудностями в обработке нелинейных, несгладких и даже катастрофически неуправляемых моделей. Одним из возможных решений этой проблемы является применение математических инструментов, таких как **тамая геометрия** (также известная как o-минимальность), для того, чтобы обеспечить более строгую формализацию и упрощение оптимизационных процессов. **Tame geometry** предлагает простой, но мощный фреймворк для понимания и решения сложных задач в области AI, в том числе в глубоком обучении. ## Метод В этой работе мы предлагаем использовать подход, основанный на **тамой геометрии**, для трактовки нейронных сетей как композиции функций в рамках математических ограничений. Методология включает в себя три основные этапы: 1. **Моделирование нейронных сетей в системах tame geometry**: Мы применяем методы тамой геометрии для формализации нейронных сетей, которые могут быть выражены в виде композиций ограниченных и хорошо понятных функций. 2. **Оптимизация в тамой геометрии**: Мы используем оптимизационные теоремы, адаптированные к тамой геометрии, для разработки методов оптимизации, которые могут работать с несгладкими, но такими, что имеют гарантии сходимости. 3. **Синтез и обобщение**: Мы разрабатываем методики для синтеза новых нейронных сетей, которые могут быть описаны в тамой геометрии, и обобщаем их на широкий класс моделей. ## Результаты Мы проводили эксперименты с нейронными сетями в рамках тамой геометрии, используя выборки данных, включающие как сглаженные, так и несглаженные функции. Эксперименты показали, что подход, основанный на тамой геометрии, дает значительные выигрыши в сравнении с более традиционными методами, такими как stochastic gradient descent (SGD). Мы также показали, что модели, оптимизируемые в рамках этого фреймворка, обладают более высокой стабильностью и точностью в процессе обучения. ## Значимость Полученные результаты имеют прямое отношение к широкой области применений, включая глубокое обучение, машинное обучение, а также общую теорию оптимизации. Этот подход может быть применен в таких областях, как: - **Прикладная математика**: Метод позволяет работать с условиями, которые обычно трудно аппроксимировать в традиционных моде
Annotation:
One can see deep-learning models as compositions of functions within the so-called tame geometry. In this expository note, we give an overview of some topics at the interface of tame geometry (also known as o-minimality), optimization theory, and deep learning theory and practice. To do so, we gradually introduce the concepts and tools used to build convergence guarantees for stochastic gradient descent in a general nonsmooth nonconvex, but tame, setting. This illustrates some ways in which tame...
ID: 2509.18025v1 math.OC, cs.AI, cs.LG, math.LO, stat.ML
Авторы:

Meixuan Wang, Yinyu Ye, Zijie Zhou

#### Контекст Сервирование ло LLM (Large Language Models) является важной задачей для платформ, обрабатывающих запросы в реальном времени. Запросы к LLM могут варьироваться в зависимости от длины входных промотов (prefill lengths) и длины получаемых ответов (decode lengths). Это значит, что каждый запрос потребляет различное количество памяти, что создает сложивую структуру для оптимального сервирования. Помимо этого, запросы могут накладывать ограничения на порядок обработки и пакетирование, что далее усложняет задачу. Таким образом, целью этого исследования является оптимизация сервирования запросов LLM в условиях неоднородных требований к памяти и ограничениям на обработку. #### Метод Мы исследуем проблему оптимизации запросов LLM с разными параметрами prefill и decode, включая ограничения на пакетирование и порядок обработки. Методология включает: 1. Анализ существующих стратегий оптимизации, таких как First-Come-First-Serve (FCFS) и Shortest-First (SF). 2. Разработка нового подхода, основанного на выборе метрики, которая эффективно строит пакеты запросов во время выполнения. 3. Обоснование константной конкурентной метрики для нового алгоритма. 4. Разработка динамических программирования, методов поиска локальных методов и логистических программирования, для лучшего использования ресурсов. #### Результаты Мы проводим эксперименты с разными стратегиями и данными, оценивая их эффективность в минимизации завершающего времени запросов. Результаты показывают, что новый алгоритм с метрикой выбора показывает значительные улучшения по сравнению с существующими методами. Особенно выгоден в условиях большого объема памяти и разнообразных ограничений запросов. Оптимизированные динамические программирование и локальные поисковые методы также показали высокую эффективность в ситуациях, где требуется быстрая реакция. #### Значимость Новый подход может быть применен в различных областях, где LLM-сервисы используются, таких как системы рекомендаций, поисковые системы, искусственный интеллект в реальном времени. Преимущества нового метода включают: - Уменьшение завершающего времени запросов. - Улучшение использования ресурсов. - Увеличение скорости и точность ответов. Эти достижения позволяют улучшить пользовательский опыт и эффективность систем LLM в различных приложениях. #### Выводы Мы доказали, что существующие стратегии оптимизации LLM-запросов имеют ограниченную эффективность в условиях неоднородных требований к памяти и ограничениям. Новый алгоритм с метрикой выбора показал стабильную и высокую эффективность. Будущие и
Annotation:
We study the problem of serving LLM (Large Language Model) requests where each request has heterogeneous prefill and decode lengths. In LLM serving, the prefill length corresponds to the input prompt length, which determines the initial memory usage in the KV cache. The decode length refers to the number of output tokens generated sequentially, with each additional token increasing the KV cache memory usage by one unit. Given a set of n requests, our goal is to schedule and process them to minim...
ID: 2508.06133v1 math.OC, cs.AI, cs.LG