CoT-Space: A Theoretical Framework for Internal Slow-Thinking via Reinforcement Learning
2509.04027v1
cs.AI, cs.CL
2025-09-06
Авторы:
Zeyu Gan, Hao Yi, Yong Liu
Резюме на русском
## Контекст
В последние годы Reinforcement Learning (RL) получил широкое распространение в области улучшения логических и реакционных способностей Large Language Models (LLMs). Однако существует значительный пробел в теоретическом понимании, поскольку традиционные токен-уровневые RL-фреймворки не учитывают природу многошаговых, сложных процессов мышления, таких как Chain-of-Thought (CoT). Проблема заключается в том, что существующие алгоритмы не могут точно описать или оптимизировать поведение LLMs в рамках многошаговых процессов мышления. Это приводит к неэффективности в решении задач, требующих рассуждений. Требуется новая теоретическая модель, которая бы глубоко рассматривала способность LLMs к мышлению и которая могла бы гарантировать более точное и оптимальное решение задач, включающих сложные многошаговые процессы.
## Метод
Мы предлагаем **CoT-Space**, новый теоретический фреймворк, который перестраивает задачу LLMs с дискретной предсказательной модели на процесс оптимизации в непрерывном понятийном пространстве. Этот фреймворк включает в себя новую архитектуру, которая использует RL для оптимизации поведения LLMs внутри понятийного пространства, а не только для предсказания токенов. Мы также внедрили концепции шума и риска в модель, чтобы анализировать характеристики многошагового мышления. Это позволяет нам проанализировать, почему LLMs могут продолжать рассуждать даже когда решение уже найдено (overthinking). Мы также разработали методы для вычисления оптимальной длины Chain-of-Thought, чтобы достичь оптимального баланса между полнотой мышления и эффективностью.
## Результаты
Мы провели ряд экспериментов для проверки нашего фреймворка. Использовались разные наборы данных, включая задачи сложных многошаговых рассуждений. Мы сравнили результаты нашего подхода с традиционными токен-уровневыми RL-моделями. Наши эксперименты показали, что CoT-Space не только улучшает долю правильных ответов, но и значительно сокращает время, затрачиваемое на решение задач, благодаря оптимальному расширению Chain-of-Thought. Мы также показали, что наша модель эффективно справляется с проблемой overthinking, уменьшая ненужные рассуждения и улучшая общую эффективность.
## Значимость
Наш фреймворк имеет широкое применение в области машинного обучения, особенно в задачах, требующих сложных многошаговых рассуждений, таких как проблемы в области естественного языка, финансового анализа и даже робототехники. Он предоставляет значительные преимущества перед существующими моделями, такими как улучшение точности решений, эффективность и гибкость в различных сценариях. Мы видим потенциал CoT-Space в
Abstract
Reinforcement Learning (RL) has become a pivotal approach for enhancing the
reasoning capabilities of Large Language Models (LLMs). However, a significant
theoretical gap persists, as traditional token-level RL frameworks fail to
align with the reasoning-level nature of complex, multi-step thought processes
like Chain-of-Thought (CoT). To address this challenge, we introduce CoT-Space,
a novel theoretical framework that recasts LLM reasoning from a discrete
token-prediction task to an optimization process within a continuous,
reasoning-level semantic space. By analyzing this process from both a noise
perspective and a risk perspective, we demonstrate that the convergence to an
optimal CoT length is a natural consequence of the fundamental trade-off
between underfitting and overfitting. Furthermore, extensive experiments
provide strong empirical validation for our theoretical findings. Our framework
not only provides a coherent explanation for empirical phenomena such as
overthinking but also offers a solid theoretical foundation to guide the future
development of more effective and generalizable reasoning agents.
Ссылки и действия
Дополнительные ресурсы: