📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Reinforcement Learning in MDPs with Information-Ordered Policies

2025-08-09

Авторы:

Zhongjun Zhang, Shipra Agrawal, Ilan Lobel, Sean R. Sinclair, Christina Lee Yu

#### Контекст Рассмотрим Markov decision processes (MDPs) с бесконечным горизонтом и средним издержанием. Эти модели широко применяются в операционном исследовании, например, в управлении инвентарем, системах очередей и планировании производства. Одна из основных задач в таких моделях — найти политику, минимизирующую средний издержаний. Однако найти эффективную политику без дополнительного интерактивного взаимодействия с системой является сложной задачей. Большинство существующих подходов требуют большого количества итераций, что может быть неэффективно в реальном времени. Мы предлагаем новый подход, использующий частичный порядок над классом политик, что позволяет эффективно использовать данные, собранные под одним политикой для оценки политик, относящихся к другой. #### Метод Мы предлагаем алгоритм реквизитов, основанный на подходе "epoch-based". Данный подход использует частичный порядок над классом политик, чтобы обеспечить "counterfactual inference", то есть использовать данные, собранные под одной политикой, для оценки другой. Это позволяет уменьшить количество необходимых итераций и улучшить эффективность алгоритма. Наша методология включает три основных этапа: 1. Определение частичного порядка над политиками. 2. Разработка алгоритма, который использует этот порядок для эффективного обучения. 3. Использование полученных данных для проверки и сравнения политик. Данный подход позволяет получить регрет-зависимость $O(\sqrt{w \log(|\Theta|) T})$, где $w$ — ширина частичного порядка, а $|\Theta|$ — размер класса политик. Особенностью этого подхода является то, что регрет не зависит от размера состояний и действий, что делает его эффективным для больших систем. #### Результаты Мы применили нашу модель к нескольким задачам из операционного исследования, включая управление инвентарем и моделирование очередей. Для каждой задачи, мы показали, что алгоритм достигает новых теоретических гарантий и демонстрирует сильные эмпирические результаты. Например, в модели управления инвентарем мы доказали, что наш алгоритм может уменьшить средний издержаний без дополнительных интервактивных данных. Также, в модели очередей, мы показали, что политики, полученные с помощью нашего алгоритма, выполняются эффективнее, независимо от структуры запросов или структуры запросов. Эти результаты подтверждают эффективность нашей модели в различных сценариях. #### Значимость Наш подход имеет широкие применения в различных областях операционного исследования. Он может быть использован для улучшения решений в управлении инвентарем, моделировании очередей и других задача

Annotation:

We propose an epoch-based reinforcement learning algorithm for infinite-horizon average-cost Markov decision processes (MDPs) that leverages a partial order over a policy class. In this structure, $\pi' \leq \pi$ if data collected under $\pi$ can be used to estimate the performance of $\pi'$, enabling counterfactual inference without additional environment interaction. Leveraging this partial order, we show that our algorithm achieves a regret bound of $O(\sqrt{w \log(|\Theta|) T})$, where $w$ i...

ID: 2508.03904v1 stat.ML, cs.LG, math.OC, 68Q32, I.2.6

arXiv PDF