SpecExit: Accelerating Large Reasoning Model via Speculative Exit

2509.24248v1 cs.AI, cs.CL, cs.LG 2025-10-01

Авторы:

Rubing Yang, Huajun Bai, Song Liu, Guanghua Yu, Runzhi Fan, Yanbin Dang, Jiejing Zhang, Kai Liu, Jianchen Zhu, Peng Chen

Резюме на русском

#### Контекст Ло LRM (Large Reasoning Models, большие модели рассуждения) широко применяются в сложных задачах, таких как понимание естественного языка, вывод и решение задач. Однако они часто страдают от "продолжательного рассуждения" (overthinking), когда модель продолжает генерировать вывод даже после достижения точного ответа. Это приводит к высокой задержке (latency) и неэффективному использованию ресурсов. Дополнительно, существующие механизмы спекулятивного вывода (speculative decoding), которые пытаются обнаружить момент сразу после достижения правильного ответа, требуют дополнительных вычислительных затрат на проверку выхода, что вносит дополнительную нагрузку. Наша статья оправдана потребностью в эффективном решении проблемы задержек в LRM, чтобы увеличить их эффективность в реальных ситуациях. #### Метод Мы предлагаем SpecExit, новую модель, которая предсказывает как последующие токены, так и момент выхода из модели (early-exit signal) непосредственно из легковесной модели (draft model). Эта модель не требует дополнительных проверок, поскольку основывается на анализе внутренних состояний модели (hidden states). Мы создаем легковесную модель, которая может эффективно предсказывать следующие токены и выход. Метод SpecExit отличается тем, что он не требует дополнительного пробного вывода, а вместо этого анализирует состояния модели, чтобы определить, когда модель достигла корректного решения. Это позволяет уменьшить задержку без ущерба для точности. #### Результаты Мы провели эксперименты на нескольких LRM, включая большие модели для естественного языка. Мы сравнивали SpecExit с существующими методами спекулятивного вывода. Результаты показывают, что SpecExit существенно сокращает задержку (до 2,5 раз) и уменьшает длину вывода (до 66%), не ухудшая точность решения. Это демонстрирует эффективность SpecExit в сокращении задержек без снижения качества работы модели. Мы также проводим анализ на разных типах задач и проблем, что демонстрирует универсальность SpecExit. #### Значимость SpecExit может применяться в разных областях, где необходима быстрая реакция моделей, такие как chatbots, системы рекомендаций и мобильные приложения. У него есть два основных преимущества: (1) уменьшение задержки и (2) эффективность в использовании ресурсов. Наш подход может сделать LRM более пригодными для реального применения, повысив их скорость и экономию ресурсов. #### Выводы Мы представляем SpecExit, новый подход для ускорения LRM, основанный на анализе состояний модели. Наши эксперименты показали, что SpecExit эффективно решает проблему задержек без ущерба для точности. В будущем, мы планируем расширить SpecExit на другие типы моделей и приложений, а также исследовать новые способы исполь

Abstract

Despite their strong performance on reasoning tasks, large reasoning models (LRMs) often suffer from overthinking, producing unnecessarily long outputs and incurring high end-to-end latency, a significant limitation to their real-world deployment. To address overthinking, early-exit mechanisms have been proposed to terminate reasoning before typical completion, showing that this approach can effectively shorten generation length with minimal impact on accuracy. However, their reliance on probing mechanisms introduces a detection overhead that limits their end-to-end latency gains and compromises their generalizability across diverse problems. Inspired by the use of hidden states in speculative decoding, we propose SpecExit, a novel framework that predicts both future tokens and an early-exit signal directly from a lightweight draft model without probing overhead. Our method offers significant improvements, reducing average generation length by 66\% and achieving a 2.5x speedup in end-to-end latency compared to the speculative decoding baseline, without compromising accuracy. Our method leverages the inherent signals from hidden states to provide effective early-exit signals, suggesting broader use of hidden states for efficient reasoning. Our code is available at https://github.com/Tencent/AngelSlim.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SpecExit: Accelerating Large Reasoning Model via Speculative Exit

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

STELLA: Guiding Large Language Models for Time Series Forecasting with Semantic ...

LEC: Linear Expectation Constraints for False-Discovery Control in Selective Pre...

Guided Self-Evolving LLMs with Minimal Human Supervision

Martingale Score: An Unsupervised Metric for Bayesian Rationality in LLM Reasoni...

ORION: Teaching Language Models to Reason Efficiently in the Language of Thought

Навигация