From "Aha Moments" to Controllable Thinking: Toward Meta-Cognitive Reasoning in Large Reasoning Models via Decoupled Reasoning and Control

2508.04460v1 cs.AI 2025-08-09
Авторы:

Rui Ha, Chaozhuo Li, Rui Pu, Sen Su

Резюме на русском

```markdown ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы Large Reasoning Models (LRMs) продемонтрировали высокую эффективность в решении сложных задач, включая спонтанное демонстрацию таких когнитивных процессов, как пошаговое выведение, рефлексия и бэктрекинг. Эти явления, известные как "Aha Moments", отражают способность моделей к сложному мышлению. Однако, несмотря на эти успехи, такое мышление характеризуется значительными недостатками. Оно часто неконтролируемо и может приводить к "overthinking", когда модель продолжает генерировать избыточную информацию даже после достижения надежного решения. Это приводит к ненужному увеличению вычислительных затрат и задержек, что ограничивает практическую применимость LRMs. Ключевой проблемой является отсутствие внутренних механизмов регуляции. Текущие модели не могут эффективно мониторить и адаптировать свой процесс мышления, чтобы определить, когда нужно продолжить, вернуться назад или закончить процесс. Этот недостаток ограничивает возможности моделей к эффективному использованию в реальных приложениях. Чтобы решить эту проблему, необходим подход, который позволит моделям эффективно управлять своим процессом мышления. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагается Meta-cognitive Reasoning Framework (MERA), который разделяет процесс мышления на две компоненты: reasoning (мышление) и control (управление). Это позволяет оптимизировать стратегии управления независимо от самого процесса мышления. MERA включает в себя несколько ключевых компонентов. Первый компонент - это takeover-based data construction mechanism, который идентифицирует критические моменты принятия решений в процессе мышления и делегирует создание контрольных сигналов на вспомогательные LLMs. Это позволяет построить высококачественные данные для обучения reasoning-control моделей. Второй компонент - это supervised fine-tuning, который реализует структурированное разделение между процессом мышления и управлением. Этот процесс позволяет модели генерировать явные трассируемые следы и приобретать начальные meta-cognitive (мета-когнитивные) способности управления. Наконец, MERA использует Control-Segment Policy Optimization (CSPO), который сочетает segment-wise Group Relative Policy Optimization (GRPO) с механизмом control-masking. Это позволяет оптимизировать процесс обучения контрольного поведения, свести к минимуму вмешательство несвязанных компонентов и эффективно обучать модель. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на различных reasoning benchmarks для оценки эффективности MERA. Результаты показали, что модели, обученные с использованием MERA, демонстрируют значительное улучшение как в эффективности, так и в точности выполнения задач. Эти модели способны лучше управлять своим процессом мышления, избегая избыточного вычисления и уменьшая время ответа. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MERA имеет широкое применение в областях, требующих эффективного и контролируемого мышления. Это может включать такие домены, как автономные системы, робототехника, медицинские диагностические системы и другие области, где важна быстрая и точная обработка информации. Преимущества MERA включают в себя уменьшение вычислительных затрат, улучшение точности и увеличение скорости принятия решений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ MERA представляет собой важный шаг в развитии контролируемых систем мышления. Он позволяет LRMs эффективно управлять своим процессом мышления, что может привести к значительным улучшениям в их практическом применении. Будущие исследования могут сосредоточиться на дальнейшем улучшении эффективности и точности таких систем, а также на их интеграции в различные практические приложения. ```

Abstract

Large Reasoning Models (LRMs) have demonstrated a latent capacity for complex reasoning by spontaneously exhibiting cognitive behaviors such as step-by-step reasoning, reflection, and backtracking, commonly referred to as "Aha Moments". However, such emergent behaviors remain unregulated and uncontrolled, often resulting in overthinking, where the model continues generating redundant reasoning content even after reaching reliable conclusions. This leads to excessive computational costs and increased latency, limiting the practical deployment of LRMs. The root cause lies in the absence of intrinsic regulatory mechanisms, as current models are unable to monitor and adaptively manage their reasoning process to determine when to continue, backtrack, or terminate. To address this issue, we propose the Meta-cognitive Reasoning Framework (MERA), which explicitly decouples the thinking process into distinct reasoning and control components, thereby enabling the independent optimization of control strategies. Specifically, MERA incorporates a takeover-based data construction mechanism that identifies critical decision points during reasoning and delegates the creation of control signals to auxiliary LLMs, thereby enabling the construction of high-quality reasoning-control data. Additionally, a structured reasoning-control separation is implemented via supervised fine-tuning, enabling the model to generate explicit traces and acquire initial meta-cognitive control capabilities. Finally, MERA employs Control-Segment Policy Optimization (CSPO), which combines segment-wise Group Relative Policy Optimization (GRPO) with a control-masking mechanism to optimize control behavior learning while minimizing interference from irrelevant content. Experiments on various reasoning benchmarks demonstrate that models trained with MERA enhance both reasoning efficiency and accuracy.

Ссылки и действия