SpecExit: Accelerating Large Reasoning Model via Speculative Exit
2509.24248v1
cs.AI, cs.CL, cs.LG
2025-10-01
Авторы:
Rubing Yang, Huajun Bai, Song Liu, Guanghua Yu, Runzhi Fan, Yanbin Dang, Jiejing Zhang, Kai Liu, Jianchen Zhu, Peng Chen
Резюме на русском
#### Контекст
Ло LRM (Large Reasoning Models, большие модели рассуждения) широко применяются в сложных задачах, таких как понимание естественного языка, вывод и решение задач. Однако они часто страдают от "продолжательного рассуждения" (overthinking), когда модель продолжает генерировать вывод даже после достижения точного ответа. Это приводит к высокой задержке (latency) и неэффективному использованию ресурсов. Дополнительно, существующие механизмы спекулятивного вывода (speculative decoding), которые пытаются обнаружить момент сразу после достижения правильного ответа, требуют дополнительных вычислительных затрат на проверку выхода, что вносит дополнительную нагрузку. Наша статья оправдана потребностью в эффективном решении проблемы задержек в LRM, чтобы увеличить их эффективность в реальных ситуациях.
#### Метод
Мы предлагаем SpecExit, новую модель, которая предсказывает как последующие токены, так и момент выхода из модели (early-exit signal) непосредственно из легковесной модели (draft model). Эта модель не требует дополнительных проверок, поскольку основывается на анализе внутренних состояний модели (hidden states). Мы создаем легковесную модель, которая может эффективно предсказывать следующие токены и выход. Метод SpecExit отличается тем, что он не требует дополнительного пробного вывода, а вместо этого анализирует состояния модели, чтобы определить, когда модель достигла корректного решения. Это позволяет уменьшить задержку без ущерба для точности.
#### Результаты
Мы провели эксперименты на нескольких LRM, включая большие модели для естественного языка. Мы сравнивали SpecExit с существующими методами спекулятивного вывода. Результаты показывают, что SpecExit существенно сокращает задержку (до 2,5 раз) и уменьшает длину вывода (до 66%), не ухудшая точность решения. Это демонстрирует эффективность SpecExit в сокращении задержек без снижения качества работы модели. Мы также проводим анализ на разных типах задач и проблем, что демонстрирует универсальность SpecExit.
#### Значимость
SpecExit может применяться в разных областях, где необходима быстрая реакция моделей, такие как chatbots, системы рекомендаций и мобильные приложения. У него есть два основных преимущества: (1) уменьшение задержки и (2) эффективность в использовании ресурсов. Наш подход может сделать LRM более пригодными для реального применения, повысив их скорость и экономию ресурсов.
#### Выводы
Мы представляем SpecExit, новый подход для ускорения LRM, основанный на анализе состояний модели. Наши эксперименты показали, что SpecExit эффективно решает проблему задержек без ущерба для точности. В будущем, мы планируем расширить SpecExit на другие типы моделей и приложений, а также исследовать новые способы исполь
Abstract
Despite their strong performance on reasoning tasks, large reasoning models
(LRMs) often suffer from overthinking, producing unnecessarily long outputs and
incurring high end-to-end latency, a significant limitation to their real-world
deployment. To address overthinking, early-exit mechanisms have been proposed
to terminate reasoning before typical completion, showing that this approach
can effectively shorten generation length with minimal impact on accuracy.
However, their reliance on probing mechanisms introduces a detection overhead
that limits their end-to-end latency gains and compromises their
generalizability across diverse problems. Inspired by the use of hidden states
in speculative decoding, we propose SpecExit, a novel framework that predicts
both future tokens and an early-exit signal directly from a lightweight draft
model without probing overhead. Our method offers significant improvements,
reducing average generation length by 66\% and achieving a 2.5x speedup in
end-to-end latency compared to the speculative decoding baseline, without
compromising accuracy. Our method leverages the inherent signals from hidden
states to provide effective early-exit signals, suggesting broader use of
hidden states for efficient reasoning. Our code is available at
https://github.com/Tencent/AngelSlim.
Ссылки и действия
Дополнительные ресурсы: