A Survey of Reinforcement Learning for Large Reasoning Models

2509.08827v1 cs.CL, cs.AI, cs.LG 2025-09-12
Авторы:

Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan, Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yuru Wang, Xinwei Long, Fangfu Liu, Xiang Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biqing Qi, Ning Ding, Bowen Zhou

Резюме на русском

#### Контекст Модели логического моделирования (LRMs), такие как математические и программировальные модели, требуют высокого уровня логической природы и компьютерной продуманности. Ребусы, логические задачи и программирование требуют логического рассуждения, что ставит высокие требования к моделям логического моделирования. На протяжении многих лет, логическая модель моделирования (LLM) была основной моделью для обработки текста и вопросов, но некоторые логические задачи, такие как математика и программирование, требуют глубжей логической природы, которую LLM не может охватить. Рейнфорсмент Лиджинг (RL), как мощная методика обучения, играет важную роль в повышении логических моделей LRMs. Однако, с учетом значительных вызовов, связанных с размерностью моделей, ресурсами вычисления, данными для обучения и потребностью в алгоритмах, необходимо подробно изучить и повысить возможности RL для LRMs. #### Метод Мы вводим обзор последних достижений в области RL для LRMs, описывая основные компоненты, включая задачи логического моделирования, инфраструктуру обучения, используемые алгоритмы и данные. Мы рассматриваем широкую линейку архитектур RL, включая традиционные модели, такие как Q-learning и стратегический RL, а также более современные подходы, такие как глубокий RL и мульти-агентный RL. Мы также обсуждаем методы для улучшения обучения, такие как мета-обучение, адаптивные стратегии и мульти-модельное обучение. Методы RL для LRMs также включают в себя техники, такие как оптимизация задач, обучение с подкреплением и улучшение моделей через градиентные методы. #### Результаты Мы проводим эксперименты с различными моделями RL для LRMs, включая эксперименты с математическими задачами, программированием и ребусами. Мы используем большие объемы данных, включая наборы данных для математики, программирования и логических ребусов, для тренировки моделей. Результаты показывают, что RL может существенно улучшить логические модели LRMs, повышая их точность и удовлетворяя высокие требования к логической природе. Мы также выявляем ограничения и проблемы, такие как высокая сложность моделей, необходимость высоких ресурсов для обучения и отсутствие достаточных данных для обучения. #### Значимость Анализируя текущие достижения в RL для LRMs, мы выявляем широкие области применения, включая образовательные системы, робототехнику, программирование и даже клинические задачи. Методика RL для LRMs может не только улучшить логические модели, но также помочь в развитии новых технологий в области ИИ. Помимо этого, полученные результаты могут влиять на развитие новых моделей логического моделирова

Abstract

In this paper, we survey recent advances in Reinforcement Learning (RL) for reasoning with Large Language Models (LLMs). RL has achieved remarkable success in advancing the frontier of LLM capabilities, particularly in addressing complex logical tasks such as mathematics and coding. As a result, RL has emerged as a foundational methodology for transforming LLMs into LRMs. With the rapid progress of the field, further scaling of RL for LRMs now faces foundational challenges not only in computational resources but also in algorithm design, training data, and infrastructure. To this end, it is timely to revisit the development of this domain, reassess its trajectory, and explore strategies to enhance the scalability of RL toward Artificial SuperIntelligence (ASI). In particular, we examine research applying RL to LLMs and LRMs for reasoning abilities, especially since the release of DeepSeek-R1, including foundational components, core problems, training resources, and downstream applications, to identify future opportunities and directions for this rapidly evolving area. We hope this review will promote future research on RL for broader reasoning models. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

Ссылки и действия