Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

2509.22613v1 cs.AI, cs.CL, cs.LG, stat.ML 2025-09-30
Авторы:

Siwei Wang, Yifei Shen, Haoran Sun, Shi Feng, Shang-Hua Teng, Li Dong, Yaru Hao, Wei Chen

Резюме на русском

## Контекст Недавние развития в области глубокого обучения и реинфорсментного обучения (RL) позволили значительно улучшить планировочные возможности больших языковых моделей (LLM). Однако теоретическая природа этих улучшений остается не полностью понятной. В данной работе мы проводим исследование преимуществ и ограничений RL с помощью графовой абстракции, которая позволяет изучить ситуации, где RL может быть эффективным, а также где могут возникнуть проблемы. Эта модель позволяет сравнивать методы RL, таких как policy gradient (PG) и Q-learning, с другими моделями, такими как предварительно приточенные (supervised fine-tuned, SFT) модели, и выявлять преимущества и недостатки каждого подхода. ## Метод В этой работе используется графовая абстракция, которая представляет задачи планирования в виде состояний и действий на графе. Мы изучаем, как RL-методы, такие как PG и Q-learning, взаимодействуют с этой абстракцией и как они могут решать задачи планирования. Мы также проводим сравнение с SFT-моделями, которые обучаются с помощью Supervised Learning. Затем мы проводим эксперименты, используя реальные задачи планирования, такие как Blocksworld, в которых мы можем сравнить результаты настоящих данных с теоретическими выводами. ## Результаты Наши эксперименты показали, что SFT может привести к проблеме спуруосных решений, которые возникают из-за взаимосвязи входных данных, но не всегда корректно решают задачу планирования. RL, в свою очередь, более эффективно решает эти задачи, особенно благодаря эксплорерским поведениям, которые позволяют RL-системам улучшать свою общезначимость. Однако мы также выявили, что PG может привести к "уплотнению диверсификации" (diversity collapse), когда диверсификация решений уменьшается на протяжении обучения, даже если система достигает идеальной точности. Мы также показали, как Q-learning может стать более диверсифицированной, но только при условии правильного дизайна наград. ## Значимость Наши результаты имеют значительное значение для развития RL в области планирования языковых моделей. Мы показали, что RL может быть эффективным для решения задач планирования, но необходимо внимательно проектировать наградные функции для избежания проблем, таких как "уплотнение диверсификации". Мы также показали, что Q-learning может показаться более гибким и диверсифицированным в контексте RL. Эти результаты могут быть применены в различных областях, где требуется планирование и проектирование решений, таких как машинное обучение, игровые системы и управление. ## Выводы Мы получили значительные теоретические и практические выводы о преимуществах и ограничениях RL в задачах планирования. Мы выявили, что RL мо

Abstract

Recent reinforcement learning (RL) methods have substantially enhanced the planning capabilities of Large Language Models (LLMs), yet the theoretical basis for their effectiveness remains elusive. In this work, we investigate RL's benefits and limitations through a tractable graph-based abstraction, focusing on policy gradient (PG) and Q-learning methods. Our theoretical analyses reveal that supervised fine-tuning (SFT) may introduce co-occurrence-based spurious solutions, whereas RL achieves correct planning primarily through exploration, underscoring exploration's role in enabling better generalization. However, we also show that PG suffers from diversity collapse, where output diversity decreases during training and persists even after perfect accuracy is attained. By contrast, Q-learning provides two key advantages: off-policy learning and diversity preservation at convergence. We further demonstrate that careful reward design is necessary to prevent reward hacking in Q-learning. Finally, applying our framework to the real-world planning benchmark Blocksworld, we confirm that these behaviors manifest in practice.

Ссылки и действия