📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 ECPv2: Fast, Efficient, and Scalable Global Optimization of Lipschitz Functions

2025-11-22

Авторы:

Fares Fourati, Mohamed-Slim Alouini, Vaneet Aggarwal

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We propose ECPv2, a scalable and theoretically grounded algorithm for global optimization of Lipschitz-continuous functions with unknown Lipschitz constants. Building on the Every Call is Precious (ECP) framework, which ensures that each accepted function evaluation is potentially informative, ECPv2 addresses key limitations of ECP, including high computational cost and overly conservative early behavior. ECPv2 introduces three innovations: (i) an adaptive lower bound to avoid vacuous acceptance...

ID: 2511.16575v1 cs.LG, cs.AI, math.OC, stat.ML

arXiv PDF

📄 Transformers Provably Learn Chain-of-Thought Reasoning with Length Generalization

2025-11-15

Авторы:

Yu Huang, Zixin Wen, Aarti Singh, Yuejie Chi, Yuxin Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The ability to reason lies at the core of artificial intelligence (AI), and challenging problems usually call for deeper and longer reasoning to tackle. A crucial question about AI reasoning is whether models can extrapolate learned reasoning patterns to solve harder tasks with longer chain-of-thought (CoT). In this work, we present a theoretical analysis of transformers learning on synthetic state-tracking tasks with gradient descent. We mathematically prove how the algebraic structure of state...

ID: 2511.07378v1 cs.LG, cs.AI, math.OC, stat.ML

arXiv PDF

📄 Power Constrained Nonstationary Bandits with Habituation and Recovery Dynamics

2025-11-07

Авторы:

Fengxu Li, Stephanie M. Carpenter, Matthew P. Buman, Yonatan Mintz

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

A common challenge for decision makers is selecting actions whose rewards are unknown and evolve over time based on prior policies. For instance, repeated use may reduce an action's effectiveness (habituation), while inactivity may restore it (recovery). These nonstationarities are captured by the Reducing or Gaining Unknown Efficacy (ROGUE) bandit framework, which models real-world settings such as behavioral health interventions. While existing algorithms can compute sublinear regret policies ...

ID: 2511.02944v1 cs.LG, cs.AI, math.OC, stat.ML

arXiv PDF

📄 Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

2025-11-04

Авторы:

Beomhan Baek, Minhak Song, Chulhee Yun

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Adam [Kingma and Ba, 2015] is the de facto optimizer in deep learning, yet its theoretical understanding remains limited. Prior analyses show that Adam favors solutions aligned with $\ell_\infty$-geometry, but these results are restricted to the full-batch regime. In this work, we study the implicit bias of incremental Adam (using one sample per step) for logistic regression on linearly separable data, and we show that its bias can deviate from the full-batch behavior. To illustrate this, we con...

ID: 2510.26303v2 cs.LG, cs.AI, math.OC, stat.ML

arXiv PDF

📄 Exploring Landscapes for Better Minima along Valleys

2025-11-04

Авторы:

Tong Zhao, Jiacheng Li, Yuanchang Zhou, Guangming Tan, Weile Jia

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Finding lower and better-generalizing minima is crucial for deep learning. However, most existing optimizers stop searching the parameter space once they reach a local minimum. Given the complex geometric properties of the loss landscape, it is difficult to guarantee that such a point is the lowest or provides the best generalization. To address this, we propose an adaptor "E" for gradient-based optimizers. The adapted optimizer tends to continue exploring along landscape valleys (areas with low...

ID: 2510.27153v1 cs.LG, cs.AI, math.OC, stat.ML, 65K05, 65K10 (Primary) 49K05, 49J15, 90C26, 62F10 (Secondary), D.1.2; D.2.1; D.2.5

arXiv PDF

📄 Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

2025-11-01

Авторы:

Beomhan Baek, Minhak Song, Chulhee Yun

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

ID: 2510.26303v1 cs.LG, cs.AI, math.OC, stat.ML

arXiv PDF

📄 Seesaw: Accelerating Training by Balancing Learning Rate and Batch Size Scheduling

2025-10-18

Авторы:

Alexandru Meterez, Depen Morwani, Jingfeng Wu, Costin-Andrei Oncescu, Cengiz Pehlevan, Sham Kakade

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Increasing the batch size during training -- a ''batch ramp'' -- is a promising strategy to accelerate large language model pretraining. While for SGD, doubling the batch size can be equivalent to halving the learning rate, the optimal strategy for adaptive optimizers like Adam is less clear. As a result, any batch-ramp scheduling, if used at all, is typically tuned heuristically. This work develops a principled framework for batch-size scheduling and introduces Seesaw: whenever a standard sched...

ID: 2510.14717v1 cs.LG, cs.AI, math.OC, stat.ML

arXiv PDF

📄 A Median Perspective on Unlabeled Data for Out-of-Distribution Detection

2025-10-10

Авторы:

Momin Abbas, Ali Falahati, Hossein Goli, Mohammad Mohammadi Amiri

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Out-of-distribution (OOD) detection plays a crucial role in ensuring the robustness and reliability of machine learning systems deployed in real-world applications. Recent approaches have explored the use of unlabeled data, showing potential for enhancing OOD detection capabilities. However, effectively utilizing unlabeled in-the-wild data remains challenging due to the mixed nature of both in-distribution (InD) and OOD samples. The lack of a distinct set of OOD samples complicates the task of t...

ID: 2510.06505v1 cs.LG, cs.AI, math.OC, stat.ML

arXiv PDF

📄 Bridging Discrete and Continuous RL: Stable Deterministic Policy Gradient with Martingale Characterization

2025-10-01

Авторы:

Ziheng Cheng, Xin Guo, Yufei Zhang

## Контекст Область исследования сосредоточена на изучении интеграции дискретных и непрерывных методов расширенного подкрепления (RL) для решения задач в условиях непрерывных временных рядов. Дискретные алгоритмы RL, хотя широко применяются в симуляторах и играх, часто не подходят для решения задач, в которых непрерывные значения времени и событий являются ключевыми компонентами. Например, в управлении движениями роботов, энергетических системах или финансовых рынках необходимо учитывать непрерывные изменения времени и состояний. Существующие подходы часто страдают от низкой стабильности, медленной сходимости и требований к высокой точности тайм-дискретизации, что приводит к ошибкам и нестабильности в решениях. Этот рабочий ход ставит целью устранить эти ограничения, сформировав более совершенные и универсальные методы для непрерывных RL-задач. ## Метод Методология основывается на разработке алгоритма, который использует детерминистические политики в непрерывных временных рядах. Для этого изучается формула политического градиента на непрерывных временных рядах, основываясь на аналоге функции привышения (advantage). Для обеспечения стабильности и эффективности используется мартингальная характеристика, которая позволяет контролировать вариативность и надежность исследований. Архитектура CT-DDPG (Continuous-Time Deterministic Policy Gradient) объединяет элементы детерминированных политик и непрерывных оценок, чтобы достичь стабильного и эффективного обучения в непрерывных средах. Такая архитектура позволяет совместить точность детерминированных политик с гибкостью непрерывных оценок, обеспечивая устойчивость и эффективность в работе. ## Результаты На основе теоретических выводов проводились эксперименты на различных симуляционных задачах, включая управление роботами, энергосистемами и финансовыми моделями. В этих экспериментах использовались различные уровни дискретизации времени и шумовых воздействий, чтобы проверить устойчивость и точность CT-DDPG в сравнении с дискретными и непрерывными алгоритмами. Результаты показали, что CT-DDPG обеспечивает более высокую стабильность и быстрее достигает оптимальных решений, в сравнении с традиционными подходами. Эти результаты подтверждают значительные преимущества CT-DDPG в условиях сложных непрерывных задач, где существуют высокие требования к стабильности и точности. ## Значимость Результаты CT-DDPG открывают путь к применению RL в реальных непрерывных задачах, таких как энергетическое управление, интеллектуальное управление производством и управление роботами в реальном времени. Этот

Annotation:

The theory of discrete-time reinforcement learning (RL) has advanced rapidly over the past decades. Although primarily designed for discrete environments, many real-world RL applications are inherently continuous and complex. A major challenge in extending discrete-time algorithms to continuous-time settings is their sensitivity to time discretization, often leading to poor stability and slow convergence. In this paper, we investigate deterministic policy gradient methods for continuous-time RL....

ID: 2509.23711v1 cs.LG, cs.AI, math.OC, stat.ML

arXiv PDF

📄 Optimal Multimarginal Schrödinger Bridge: Minimum Spanning Tree over Measure-valued Vertices

2025-09-17

Авторы:

Georgiy A. Bondar, Abhishek Halder

#### Контекст Оптимальная многомерная Шредингерова цепь (Multimarginal Schrödinger Bridge, MSB) является мощным инструментом для описания и оптимизации корреляционных структур между несколькими случайными векторами. Традиционно, MSB определяется в рамках заданного графа с известными статистическими свойствами мер-значений вершин. Тем не менее, проблема определения оптимальной корреляционной структуры, то есть выбора наилучшего графа, остается открытой. Эта проблема важна в многих областях, включая компьютерные науки, физику и экономику. Нашим целью является разработка метода для выбора оптимальной структуры графа, оптимизируя MSB. #### Метод Мы предлагаем алгоритм, основывающийся на решении задачи минимального остатка спана (minimum spanning tree, MST) над мер-значениями. Для этого мы строим полный граф, где каждая вершина представляет из себя меру-значение, а веса ребер вычисляются как сумма оптимальных значений bimarginal MSB и энтропий вершин. Оптимальный граф выбирается как решение MST над таким графом. Эта модель позволяет объединить задачу выбора корреляционной структуры и оптимизацию MSB в одну систему. #### Результаты Мы проверили наш алгоритм на ряде экспериментов с различными количествами вершин и различными мер-значениями. Наши результаты показали, что данный подход эффективно решает задачу выбора оптимальной структуры графа. Мы также проверили, насколько уменьшается ошибка при использовании нашего метода в сравнении с традиционными подходами. Эксперименты показали, что наше решение является более точным и стабильным. #### Значимость Результаты нашего исследования могут быть применены в различных областях, таких как моделирование систем, оптимальное распределение ресурсов, а также в ситуациях, где необходимо оптимизировать структуру взаимосвязей. Этот подход предоставляет гибкость в выборе структуры, что может привести к более эффективным решениям. Мы также обнаружили, что наш метод может быть использован для решения задач, связанных с многомерными структурами, такими как графы с мер-значениями. #### Выводы Мы предложили метод для решения задачи оптимального выбора корреляционной структуры в MSB, основывающийся на MST. Наши эксперименты показали, что этот подход эффективен и может быть применен в различных задачах. В дальнейших исследованиях мы планируем расширить нашу модель для более широкого класса задач и применить ее к реальным данным.

Annotation:

The Multimarginal Schr\"odinger Bridge (MSB) finds the optimal coupling among a collection of random vectors with known statistics and a known correlation structure. In the MSB formulation, this correlation structure is specified \emph{a priori} as an undirected connected graph with measure-valued vertices. In this work, we formulate and solve the problem of finding the optimal MSB in the sense we seek the optimal coupling over all possible graph structures. We find that computing the optimal MS...

ID: 2509.10626v1 cs.LG, cs.AI, math.OC, stat.ML

arXiv PDF

Показано 1 - 10 из 13 записей