Bilevel MCTS for Amortized O(1) Node Selection in Classical Planning

2508.08385v1 cs.AI, cs.CL 2025-08-14
Авторы:

Masataro Asai

Резюме на русском

## Контекст Многоarmed-bandit (MAB)-основанный Monte-Carlo Tree Search (MCTS) широко применяется в классическом планировании, поскольку позволяет эффективно исследовать дерево возможных действий. Однако одним из ограничений MCTS является высокая стоимость выбора узла в списке OPEN. Обычно этот процесс реализуется с помощью очереди с приоритетом, что обеспечивает работу в $O(1)$ временных характеристиках, однако в условиях классического планирования, когда дерево значительно расширяется, эффективность выбора узла снижается до $O(\log N)$ при использовании tree-based OPEN list, что может стать значительной задержкой. Одним из примеров таких сценариев является задача Tower-of-Hanoi с $k$-дисками, где $d \leq 2^k - 1$. Более того, в классическом планировании эта проблема вытесняет важность оценки узлов (rollouts), которая в игровых деревьях является основной затратой. Данная работа направлена на решение этой проблемы, оптимизируя выбор узла в tree-based OPEN list. ## Метод Для улучшения производительности выбора узла в tree-based OPEN list, мы предлагаем билвлютный подход в MCTS. Основной идеей является запуск best-first search для каждого узла, который выбирается на вершине дерева, с ограничением на вычисления, пропорциональным $d$. Это позволяет достичь амортизационного времени $O(1)$ для выбора узла, подобно традиционной очереди с приоритетом. Для дальнейшего улучшения, мы вводим механизм Tree Collapsing, который уменьшает количество шагов выбора действий. Эта методика позволяет эффективно компенсировать затраты на вывод узла, обеспечивая улучшенную скорость работы с tree-based OPEN list. ## Результаты Мы проводим эксперименты с различными классическими задачами планирования, включая Tower-of-Hanoi с различным количеством дисков $k$, и сравниваем результаты с существующими алгоритмами. Результаты показывают, что наши изменения MCTS позволяют достичь средней скорости выбора узла $O(1)$, что значительно сокращает время поиска в сравнении с традиционными методами. Более того, Tree Collapsing уменьшает количество шагов выбора действий, что приводит к дополнительному повышению производительности. Эти результаты показывают эффективность предлагаемого подхода в решении проблемы сложности выбора узла в tree-based OPEN list. ## Значимость Предложенный подход может быть применен в различных классических задачах планирования, где размер дерева исходных действий большой. Особенно применим он в задачах, где дерево расширяется арифметически, например, в Tower-of-Hanoi. Этот метод позволяет значительно уменьшить время, затрачиваемое на выбор узла, что позволяет увеличить эффективность MCTS в классическом планировании. Кроме того, этот подход может быть применен в других задачах, требующих быстро

Abstract

We study an efficient implementation of Multi-Armed Bandit (MAB)-based Monte-Carlo Tree Search (MCTS) for classical planning. One weakness of MCTS is that it spends a significant time deciding which node to expand next. While selecting a node from an OPEN list with $N$ nodes has $O(1)$ runtime complexity with traditional array-based priority-queues for dense integer keys, the tree-based OPEN list used by MCTS requires $O(\log N)$, which roughly corresponds to the search depth $d$. In classical planning, $d$ is arbitrarily large (e.g., $2^k-1$ in $k$-disk Tower-of-Hanoi) and the runtime for node selection is significant, unlike in game tree search, where the cost is negligible compared to the node evaluation (rollouts) because $d$ is inherently limited by the game (e.g., $d\leq 361$ in Go). To improve this bottleneck, we propose a bilevel modification to MCTS that runs a best-first search from each selected leaf node with an expansion budget proportional to $d$, which achieves amortized $O(1)$ runtime for node selection, equivalent to the traditional queue-based OPEN list. In addition, we introduce Tree Collapsing, an enhancement that reduces action selection steps and further improves the performance.

Ссылки и действия