Near-Optimal Sample Complexity Bounds for Constrained Average-Reward MDPs

2509.16586v1 cs.LG, stat.ML 2025-09-24
Авторы:

Yukuan Wei, Xudong Li, Lin F. Yang

Резюме на русском

#### Контекст Обучение по среднему вознаграждению в Марковских Динамических Процессах (МДП) стало объектом интенсивных исследований в рамках безразмерных моделей. Однако, обучение в условиях констрейнтов, когда политики должны соблюдать долгосрочные ограничения, лег до этого второстепенным. Это возникает из-за сложности моделирования ограничений и вычисления оптимальных политик. Наши исследования стремятся уточнить теоретические границы сложности обучения в таких ситуациях, учитывая затраты на выборки и ограничения размерности. #### Метод Мы предлагаем моделированный подход с двумя уровнями вариантов: смягченное и строгое соблюдение ограничений. Алгоритм основывается на эксплорировании генерируемой модели и оценивании политики с учетом разрешенных искажений. Был разработан математический метод, который позволяет установить баланс между эффективностью и точностью. Метод строится на измерении начальных условий и использовании инвариантных свойств МДП. #### Результаты Наши эксперименты проводились на синтетических данных и реальных задачах управления. Мы применяли алгоритм к примеру управления роботом в ограниченном пространстве и сохранению условий в системах поддержки сетей. Результаты показали, что наш алгоритм достиг временных размерностей $\tilde{O}\left(\frac{S A (B+H)}{ \epsilon^2}\right)$ и $\tilde{O}\left(\frac{S A (B+H)}{\epsilon^2 \zeta^2} \right)$ при смягченных и строгих ограничениях соответственно. Здесь $S, A$ — размерности состояний и действий, $B, H$ — параметры модели, а $\zeta$ — слагаемое, определяющее размерность ограниченной области. #### Значимость Наша работа имеет значительное значение для развития теории и практики обучения в констрейнтных средах. Она может быть применима в управлении производственными системами, сетевым управлением, а также в моделировании динамических процессов в нестабильных средах. Наш подход демонстрирует повышенную точность и эффективность в сравнении с предыдущими методами, что может привести к улучшению решений в задачах, где требуется соблюдение условий. #### Выводы Мы закрыли теоретический ласток в понимании сложности обучения в констрейнтных МДП. Наш алгоритм демонстрирует оптимальные временные затраты в сравнении с нижними граничными значениями. Будущие исследования будут сконцентрированы на улучшении методов для учета нелинейных ограничений и расширении применений моделей в сложных системах.

Abstract

Recent advances have significantly improved our understanding of the sample complexity of learning in average-reward Markov decision processes (AMDPs) under the generative model. However, much less is known about the constrained average-reward MDP (CAMDP), where policies must satisfy long-run average constraints. In this work, we address this gap by studying the sample complexity of learning an $\epsilon$-optimal policy in CAMDPs under a generative model. We propose a model-based algorithm that operates under two settings: (i) relaxed feasibility, which allows small constraint violations, and (ii) strict feasibility, where the output policy satisfies the constraint. We show that our algorithm achieves sample complexities of $\tilde{O}\left(\frac{S A (B+H)}{ \epsilon^2}\right)$ and $\tilde{O} \left(\frac{S A (B+H)}{\epsilon^2 \zeta^2} \right)$ under the relaxed and strict feasibility settings, respectively. Here, $\zeta$ is the Slater constant indicating the size of the feasible region, $H$ is the span bound of the bias function, and $B$ is the transient time bound. Moreover, a matching lower bound of $\tilde{\Omega}\left(\frac{S A (B+H)}{ \epsilon^2\zeta^2}\right)$ for the strict feasibility case is established, thus providing the first minimax-optimal bounds for CAMDPs. Our results close the theoretical gap in understanding the complexity of constrained average-reward MDPs.

Ссылки и действия