📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Zhongjun Zhang, Shipra Agrawal, Ilan Lobel, Sean R. Sinclair, Christina Lee Yu
#### Контекст
Рассмотрим Markov decision processes (MDPs) с бесконечным горизонтом и средним издержанием. Эти модели широко применяются в операционном исследовании, например, в управлении инвентарем, системах очередей и планировании производства. Одна из основных задач в таких моделях — найти политику, минимизирующую средний издержаний. Однако найти эффективную политику без дополнительного интерактивного взаимодействия с системой является сложной задачей. Большинство существующих подходов требуют большого количества итераций, что может быть неэффективно в реальном времени. Мы предлагаем новый подход, использующий частичный порядок над классом политик, что позволяет эффективно использовать данные, собранные под одним политикой для оценки политик, относящихся к другой.
#### Метод
Мы предлагаем алгоритм реквизитов, основанный на подходе "epoch-based". Данный подход использует частичный порядок над классом политик, чтобы обеспечить "counterfactual inference", то есть использовать данные, собранные под одной политикой, для оценки другой. Это позволяет уменьшить количество необходимых итераций и улучшить эффективность алгоритма. Наша методология включает три основных этапа:
1. Определение частичного порядка над политиками.
2. Разработка алгоритма, который использует этот порядок для эффективного обучения.
3. Использование полученных данных для проверки и сравнения политик.
Данный подход позволяет получить регрет-зависимость $O(\sqrt{w \log(|\Theta|) T})$, где $w$ — ширина частичного порядка, а $|\Theta|$ — размер класса политик. Особенностью этого подхода является то, что регрет не зависит от размера состояний и действий, что делает его эффективным для больших систем.
#### Результаты
Мы применили нашу модель к нескольким задачам из операционного исследования, включая управление инвентарем и моделирование очередей. Для каждой задачи, мы показали, что алгоритм достигает новых теоретических гарантий и демонстрирует сильные эмпирические результаты. Например, в модели управления инвентарем мы доказали, что наш алгоритм может уменьшить средний издержаний без дополнительных интервактивных данных. Также, в модели очередей, мы показали, что политики, полученные с помощью нашего алгоритма, выполняются эффективнее, независимо от структуры запросов или структуры запросов. Эти результаты подтверждают эффективность нашей модели в различных сценариях.
#### Значимость
Наш подход имеет широкие применения в различных областях операционного исследования. Он может быть использован для улучшения решений в управлении инвентарем, моделировании очередей и других задача
Annotation:
We propose an epoch-based reinforcement learning algorithm for
infinite-horizon average-cost Markov decision processes (MDPs) that leverages a
partial order over a policy class. In this structure, $\pi' \leq \pi$ if data
collected under $\pi$ can be used to estimate the performance of $\pi'$,
enabling counterfactual inference without additional environment interaction.
Leveraging this partial order, we show that our algorithm achieves a regret
bound of $O(\sqrt{w \log(|\Theta|) T})$, where $w$ i...