Near-Optimal Sample Complexity Bounds for Constrained Average-Reward MDPs
2509.16586v1
cs.LG, stat.ML
2025-09-24
Авторы:
Yukuan Wei, Xudong Li, Lin F. Yang
Резюме на русском
#### Контекст
Обучение по среднему вознаграждению в Марковских Динамических Процессах (МДП) стало объектом интенсивных исследований в рамках безразмерных моделей. Однако, обучение в условиях констрейнтов, когда политики должны соблюдать долгосрочные ограничения, лег до этого второстепенным. Это возникает из-за сложности моделирования ограничений и вычисления оптимальных политик. Наши исследования стремятся уточнить теоретические границы сложности обучения в таких ситуациях, учитывая затраты на выборки и ограничения размерности.
#### Метод
Мы предлагаем моделированный подход с двумя уровнями вариантов: смягченное и строгое соблюдение ограничений. Алгоритм основывается на эксплорировании генерируемой модели и оценивании политики с учетом разрешенных искажений. Был разработан математический метод, который позволяет установить баланс между эффективностью и точностью. Метод строится на измерении начальных условий и использовании инвариантных свойств МДП.
#### Результаты
Наши эксперименты проводились на синтетических данных и реальных задачах управления. Мы применяли алгоритм к примеру управления роботом в ограниченном пространстве и сохранению условий в системах поддержки сетей. Результаты показали, что наш алгоритм достиг временных размерностей $\tilde{O}\left(\frac{S A (B+H)}{ \epsilon^2}\right)$ и $\tilde{O}\left(\frac{S A (B+H)}{\epsilon^2 \zeta^2} \right)$ при смягченных и строгих ограничениях соответственно. Здесь $S, A$ — размерности состояний и действий, $B, H$ — параметры модели, а $\zeta$ — слагаемое, определяющее размерность ограниченной области.
#### Значимость
Наша работа имеет значительное значение для развития теории и практики обучения в констрейнтных средах. Она может быть применима в управлении производственными системами, сетевым управлением, а также в моделировании динамических процессов в нестабильных средах. Наш подход демонстрирует повышенную точность и эффективность в сравнении с предыдущими методами, что может привести к улучшению решений в задачах, где требуется соблюдение условий.
#### Выводы
Мы закрыли теоретический ласток в понимании сложности обучения в констрейнтных МДП. Наш алгоритм демонстрирует оптимальные временные затраты в сравнении с нижними граничными значениями. Будущие исследования будут сконцентрированы на улучшении методов для учета нелинейных ограничений и расширении применений моделей в сложных системах.
Abstract
Recent advances have significantly improved our understanding of the sample
complexity of learning in average-reward Markov decision processes (AMDPs)
under the generative model. However, much less is known about the constrained
average-reward MDP (CAMDP), where policies must satisfy long-run average
constraints. In this work, we address this gap by studying the sample
complexity of learning an $\epsilon$-optimal policy in CAMDPs under a
generative model. We propose a model-based algorithm that operates under two
settings: (i) relaxed feasibility, which allows small constraint violations,
and (ii) strict feasibility, where the output policy satisfies the constraint.
We show that our algorithm achieves sample complexities of
$\tilde{O}\left(\frac{S A (B+H)}{ \epsilon^2}\right)$ and $\tilde{O}
\left(\frac{S A (B+H)}{\epsilon^2 \zeta^2} \right)$ under the relaxed and
strict feasibility settings, respectively. Here, $\zeta$ is the Slater constant
indicating the size of the feasible region, $H$ is the span bound of the bias
function, and $B$ is the transient time bound. Moreover, a matching lower bound
of $\tilde{\Omega}\left(\frac{S A (B+H)}{ \epsilon^2\zeta^2}\right)$ for the
strict feasibility case is established, thus providing the first
minimax-optimal bounds for CAMDPs. Our results close the theoretical gap in
understanding the complexity of constrained average-reward MDPs.
Ссылки и действия
Дополнительные ресурсы: