Reinforcement Learning in MDPs with Information-Ordered Policies
2508.03904v1
stat.ML, cs.LG, math.OC, 68Q32, I.2.6
2025-08-09
Авторы:
Zhongjun Zhang, Shipra Agrawal, Ilan Lobel, Sean R. Sinclair, Christina Lee Yu
Резюме на русском
#### Контекст
Рассмотрим Markov decision processes (MDPs) с бесконечным горизонтом и средним издержанием. Эти модели широко применяются в операционном исследовании, например, в управлении инвентарем, системах очередей и планировании производства. Одна из основных задач в таких моделях — найти политику, минимизирующую средний издержаний. Однако найти эффективную политику без дополнительного интерактивного взаимодействия с системой является сложной задачей. Большинство существующих подходов требуют большого количества итераций, что может быть неэффективно в реальном времени. Мы предлагаем новый подход, использующий частичный порядок над классом политик, что позволяет эффективно использовать данные, собранные под одним политикой для оценки политик, относящихся к другой.
#### Метод
Мы предлагаем алгоритм реквизитов, основанный на подходе "epoch-based". Данный подход использует частичный порядок над классом политик, чтобы обеспечить "counterfactual inference", то есть использовать данные, собранные под одной политикой, для оценки другой. Это позволяет уменьшить количество необходимых итераций и улучшить эффективность алгоритма. Наша методология включает три основных этапа:
1. Определение частичного порядка над политиками.
2. Разработка алгоритма, который использует этот порядок для эффективного обучения.
3. Использование полученных данных для проверки и сравнения политик.
Данный подход позволяет получить регрет-зависимость $O(\sqrt{w \log(|\Theta|) T})$, где $w$ — ширина частичного порядка, а $|\Theta|$ — размер класса политик. Особенностью этого подхода является то, что регрет не зависит от размера состояний и действий, что делает его эффективным для больших систем.
#### Результаты
Мы применили нашу модель к нескольким задачам из операционного исследования, включая управление инвентарем и моделирование очередей. Для каждой задачи, мы показали, что алгоритм достигает новых теоретических гарантий и демонстрирует сильные эмпирические результаты. Например, в модели управления инвентарем мы доказали, что наш алгоритм может уменьшить средний издержаний без дополнительных интервактивных данных. Также, в модели очередей, мы показали, что политики, полученные с помощью нашего алгоритма, выполняются эффективнее, независимо от структуры запросов или структуры запросов. Эти результаты подтверждают эффективность нашей модели в различных сценариях.
#### Значимость
Наш подход имеет широкие применения в различных областях операционного исследования. Он может быть использован для улучшения решений в управлении инвентарем, моделировании очередей и других задача
Abstract
We propose an epoch-based reinforcement learning algorithm for
infinite-horizon average-cost Markov decision processes (MDPs) that leverages a
partial order over a policy class. In this structure, $\pi' \leq \pi$ if data
collected under $\pi$ can be used to estimate the performance of $\pi'$,
enabling counterfactual inference without additional environment interaction.
Leveraging this partial order, we show that our algorithm achieves a regret
bound of $O(\sqrt{w \log(|\Theta|) T})$, where $w$ is the width of the partial
order. Notably, the bound is independent of the state and action space sizes.
We illustrate the applicability of these partial orders in many domains in
operations research, including inventory control and queuing systems. For each,
we apply our framework to that problem, yielding new theoretical guarantees and
strong empirical results without imposing extra assumptions such as convexity
in the inventory model or specialized arrival-rate structure in the queuing
model.