Pushdown Reward Machines for Reinforcement Learning
2508.06894v1
cs.AI, cs.LG, 68T05
2025-08-13
Авторы:
Giovanni Varricchione, Toryn Q. Klassen, Natasha Alechina, Mehdi Dastani, Brian Logan, Sheila A. McIlraith
Резюме на русском
## Контекст
Решение проблем в многих прикладных областях требует эффективного использования методов управления, в которых мотивация поведения агента определяется целевыми функциями. Одним из подходов является управление с поощрениями (Reinforcement Learning, RL). Однако, обычные модели RL не всегда подходят для задач, требующих учета временных структур в поведении агента. Одним из решений этой проблемы является использование Reward Machines (RMs), которые могут представлять сложные целевые функции в виде регулярных языков. Тем не менее, существуют задачи, требующие учета более высокоуровневых структур, которые находятся за пределами возможностей RMs. Таким образом, целью исследования является расширение моделей RL, чтобы они могли эффективно решать такие задачи.
## Метод
Pushdown Reward Machines (pdRMs) — это расширение обычных Reward Machines, основанное на **deterministic pushdown automata (DPDA)**. Эти автоматы могут представить более сложные языки, включая такие, допускающие неограниченные вложенности и глубины временных структур, чем это возможно в оригинальных RMs. Мы предлагаем два варианта политик, использующих pdRM: полный доступ к стеку и ограниченный доступ к верхним $k$-символам стека. Для проверки оптимальности политик мы предоставляем алгоритм, определяющий, достигают ли две политики одинаковую оптимальную суммарную награду в заданной среде. Мы также приводим теоретические результаты о выразительных возможностях pdRMs и анализируем сложность пространственных ресурсов.
## Результаты
Мы проводим эксперименты, применяя pdRMs к задачам, требующим учета временных структур. Для задач, которые могут быть представлены в контексте-фри языках, мы показываем, что pdRMs позволяют значительно увеличить эффективность обучения по сравнению с традиционными RMs. Мы также проверяем точность вычисления оптимальности политик на различных наборах данных. Эксперименты показывают, что pdRMs могут эффективно решать задачи, которые требуют учёта более сложных структур времени, чем это возможно в стандартных Reward Machines.
## Значимость
Предлагаемый подход может быть применен в различных прикладных областях, где необходимо учитывать временные структуры, такие как роботизированные системы, квантовые вычисления и анализ текстов. Одним из главных преимуществ pdRMs является их возможность эффективно учитывать временные структуры, что дает значительное преимущество над традиционными RMs. Мы также показываем, как эта модель может быть использована в сложных ситуациях, где требуется оптимальное решение по задачам, включающим временные зависимости. Потенциальное влияние заключается в том, что pdRMs могу
Abstract
Reward machines (RMs) are automata structures that encode (non-Markovian)
reward functions for reinforcement learning (RL). RMs can reward any behaviour
representable in regular languages and, when paired with RL algorithms that
exploit RM structure, have been shown to significantly improve sample
efficiency in many domains. In this work, we present pushdown reward machines
(pdRMs), an extension of reward machines based on deterministic pushdown
automata. pdRMs can recognize and reward temporally extended behaviours
representable in deterministic context-free languages, making them more
expressive than reward machines. We introduce two variants of pdRM-based
policies, one which has access to the entire stack of the pdRM, and one which
can only access the top $k$ symbols (for a given constant $k$) of the stack. We
propose a procedure to check when the two kinds of policies (for a given
environment, pdRM, and constant $k$) achieve the same optimal expected reward.
We then provide theoretical results establishing the expressive power of pdRMs,
and space complexity results about the proposed learning problems. Finally, we
provide experimental results showing how agents can be trained to perform tasks
representable in deterministic context-free languages using pdRMs.
Ссылки и действия
Дополнительные ресурсы: