Efficient Reasoning for Large Reasoning Language Models via Certainty-Guided Reflection Suppression

2508.05337v1 cs.CL, cs.AI, cs.LG 2025-08-09

Авторы:

Jiameng Huang, Baijiong Lin, Guhao Feng, Jierun Chen, Di He, Lu Hou

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Large Reasoning Language Models (LRLMs) стали важной составляющей для решения сложных задач вывода, используя методы chain-of-thought reasoning. Эти модели генерируют длинные последовательности логических шагов, обычно спускаясь в детали, чтобы достичь более точных решений. Однако, эффективность такого подхода становится все более проблематичной по причине растущего количества циклов рефлексии, вызванных определенными триггер-словами, такими как "Wait" («Ждите») и "Alternatively" («Иначе»). Эти рефлексивные поведения, хоть и помогают улучшить результаты в некоторых случаях, часто приводят к **overthinking problem** – генерации избыточных шагов вывода, которые не несут дополнительной полезности, но значительно увеличивают количество токенов, время выполнения и стоимость вычислений. Проблема в том, что излишняя рефлексия может не только повысить затраты на вычисления, но и ухудшить практическую применимость LRLMs, особенно в ситуациях, где время отклика и эффективность критичны. Таким образом, необходимо разработать методы, которые бы позволили контролировать и оптимизировать процесс рефлексии в моделях, сохраняя при этом высокое качество результатов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье авторы предлагают метод под названием **Certainty-Guided Reflection Suppression (CGRS)**, который направлен на уменьшение излишней рефлексии в LRLMs. Основная идея заключается в том, чтобы динамически подавлять генерацию рефлексивных триггеров в моменты, когда модель выражает высокую уверенность в своем текущем ответе. Это позволяет избежать ненужных циклов рефлексии без ущерба для качества вывода. CGRS работает как дополнение к существующим autoregressive generation pipelines, не требуя модификации архитектуры модели или дополнительного тренировочного процесса. Алгоритм основывается на оценке уверенности модели в каждом шаге вывода. Если уровень уверенности превышает заданный порог, то генерация рефлексивных триггеров прекращается, что эффективно предотвращает излишнюю генерацию. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на четырех различных бенчмарках резонанса: **AIME24**, **AMC23**, **MATH500** и **GPQA-D**. Результаты показали, что CGRS способен значительно сократить количество токенов, необходимых для генерации ответов, при этом сохраняя точность вывода. В среднем, эффективность сокращения токенов составила от 18.5% до 41.9% в зависимости от задачи и модели. Кроме того, эксперименты показали, что CGRS эффективен на различных архитектурах моделей (DeepSeek-R1-Distill, QwQ-32B, Qwen3) и в различных диапазонах размеров моделей (от 4B до 32B параметров). Это демонстрирует универсальность и скалируемость метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CGRS имеет значительное практическое значение для повышения эффективности LRLMs в реальных приложениях. Уменьшение количества токенов не только снижает вычислительные затраты, но также улучшает время отклика моделей, что критично для задач, требующих быстрых решений. Кроме того, метод легко интегрируется в существующие пайплайны, что делает его пригодным для широкого круга приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод CGRS, который эффективно снижает излишнюю рефлексию в LRLMs, сохраняя при этом высокий уровень точности. Будущие исследования могут фокусироваться на дальнейшей оптимизации таких моделей, в том числе на адаптации CGRS к более широкому спектру задач и доменов. Также, исследование влияния других факторов, таких как тип задачи и контекст, может помочь в улучшении эффективности метода.

Abstract

Recent Large Reasoning Language Models (LRLMs) employ long chain-of-thought reasoning with complex reflection behaviors, typically signaled by specific trigger words (e.g., "Wait" and "Alternatively") to enhance performance. However, these reflection behaviors can lead to the overthinking problem where the generation of redundant reasoning steps that unnecessarily increase token usage, raise inference costs, and reduce practical utility. In this paper, we propose Certainty-Guided Reflection Suppression (CGRS), a novel method that mitigates overthinking in LRLMs while maintaining reasoning accuracy. CGRS operates by dynamically suppressing the model's generation of reflection triggers when it exhibits high confidence in its current response, thereby preventing redundant reflection cycles without compromising output quality. Our approach is model-agnostic, requires no retraining or architectural modifications, and can be integrated seamlessly with existing autoregressive generation pipelines. Extensive experiments across four reasoning benchmarks (i.e., AIME24, AMC23, MATH500, and GPQA-D) demonstrate CGRS's effectiveness: it reduces token usage by an average of 18.5% to 41.9% while preserving accuracy. It also achieves the optimal balance between length reduction and performance compared to state-of-the-art baselines. These results hold consistently across model architectures (e.g., DeepSeek-R1-Distill series, QwQ-32B, and Qwen3 family) and scales (4B to 32B parameters), highlighting CGRS's practical value for efficient reasoning.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Efficient Reasoning for Large Reasoning Language Models via Certainty-Guided Reflection Suppression

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация