CoT-Space: A Theoretical Framework for Internal Slow-Thinking via Reinforcement Learning

2509.04027v1 cs.AI, cs.CL 2025-09-06
Авторы:

Zeyu Gan, Hao Yi, Yong Liu

Резюме на русском

## Контекст В последние годы Reinforcement Learning (RL) получил широкое распространение в области улучшения логических и реакционных способностей Large Language Models (LLMs). Однако существует значительный пробел в теоретическом понимании, поскольку традиционные токен-уровневые RL-фреймворки не учитывают природу многошаговых, сложных процессов мышления, таких как Chain-of-Thought (CoT). Проблема заключается в том, что существующие алгоритмы не могут точно описать или оптимизировать поведение LLMs в рамках многошаговых процессов мышления. Это приводит к неэффективности в решении задач, требующих рассуждений. Требуется новая теоретическая модель, которая бы глубоко рассматривала способность LLMs к мышлению и которая могла бы гарантировать более точное и оптимальное решение задач, включающих сложные многошаговые процессы. ## Метод Мы предлагаем **CoT-Space**, новый теоретический фреймворк, который перестраивает задачу LLMs с дискретной предсказательной модели на процесс оптимизации в непрерывном понятийном пространстве. Этот фреймворк включает в себя новую архитектуру, которая использует RL для оптимизации поведения LLMs внутри понятийного пространства, а не только для предсказания токенов. Мы также внедрили концепции шума и риска в модель, чтобы анализировать характеристики многошагового мышления. Это позволяет нам проанализировать, почему LLMs могут продолжать рассуждать даже когда решение уже найдено (overthinking). Мы также разработали методы для вычисления оптимальной длины Chain-of-Thought, чтобы достичь оптимального баланса между полнотой мышления и эффективностью. ## Результаты Мы провели ряд экспериментов для проверки нашего фреймворка. Использовались разные наборы данных, включая задачи сложных многошаговых рассуждений. Мы сравнили результаты нашего подхода с традиционными токен-уровневыми RL-моделями. Наши эксперименты показали, что CoT-Space не только улучшает долю правильных ответов, но и значительно сокращает время, затрачиваемое на решение задач, благодаря оптимальному расширению Chain-of-Thought. Мы также показали, что наша модель эффективно справляется с проблемой overthinking, уменьшая ненужные рассуждения и улучшая общую эффективность. ## Значимость Наш фреймворк имеет широкое применение в области машинного обучения, особенно в задачах, требующих сложных многошаговых рассуждений, таких как проблемы в области естественного языка, финансового анализа и даже робототехники. Он предоставляет значительные преимущества перед существующими моделями, такими как улучшение точности решений, эффективность и гибкость в различных сценариях. Мы видим потенциал CoT-Space в

Abstract

Reinforcement Learning (RL) has become a pivotal approach for enhancing the reasoning capabilities of Large Language Models (LLMs). However, a significant theoretical gap persists, as traditional token-level RL frameworks fail to align with the reasoning-level nature of complex, multi-step thought processes like Chain-of-Thought (CoT). To address this challenge, we introduce CoT-Space, a novel theoretical framework that recasts LLM reasoning from a discrete token-prediction task to an optimization process within a continuous, reasoning-level semantic space. By analyzing this process from both a noise perspective and a risk perspective, we demonstrate that the convergence to an optimal CoT length is a natural consequence of the fundamental trade-off between underfitting and overfitting. Furthermore, extensive experiments provide strong empirical validation for our theoretical findings. Our framework not only provides a coherent explanation for empirical phenomena such as overthinking but also offers a solid theoretical foundation to guide the future development of more effective and generalizable reasoning agents.

Ссылки и действия