DSDE: Dynamic Speculative Decoding with KLD Stability for Real-World Serving

2509.01083v1 cs.DC, cs.AI, cs.IT, math.IT, I.2.7; C.2.4 2025-09-05

Авторы:

Mingyu Yang, Jae-Young Choi, Kihyo Moon, Minsung Jang, Eunjoo Joen

Резюме на русском

## Контекст Реализация больших языковых моделей (LLM) вызывает значительные затраты ресурсов, особенно при обслуживании больших пакетов запросов. Одним из ключевых элементов, который позволяет ускорить инференс LLM, является **speculative decoding** — метод, при котором модель предсказывает возможные следующие токены в процессе генерации. Однако существующие подходы к speculative decoding ограничены фиксированной длиной спекуляции, что может приводить к неэффективности в сценариях с разнообразными запросами. Эта проблема становится важной в случаях, когда требуется высокая эффективность и устойчивость в реальном времени. В данной работе мы анализируем эту проблему и предлагаем новое решение, основанное на динамических сигналах, которые позволяют адаптировать длину спекуляции в зависимости от контекста запроса. ## Метод Для решения этой проблемы мы предлагаем **Dynamic Speculative Decoding Engine (DSDE)** — фреймворк, основанный на двух основных компонентах: 1. **Компонент KLD-Based Stability Signal**: Мы используем Kullback-Leibler Divergence (KLD) для оценки стабильности генерации токенов в каждом этапе. Этот сигнал позволяет определить, насколько устойчива генерация, и динамически регулировать длину спекуляции на основании диагностических сигналов. 2. **Adaptive Speculation Length Cap**: Мы вводим адаптивный порог для длины спекуляции, который позволяет избежать проблемы "straggler" — небольших потоков, которые замедляют общую скорость обслуживания. Этот подход гарантирует, что длина спекуляции будет адаптироваться в зависимости от характера запросов. DSDE — это тренировка-свободный подход, который может быть интегрирован с различными типами моделей LLM. Он основывается на динамическом анализе стабильности и адаптивной регулировке для обеспечения более эффективного инференса. ## Результаты Мы проводили ряд экспериментов, используя различные наборы данных и подготовленные тестовые сценарии, чтобы оценить эффективность DSDE. Мы сравнивали его с трех лидирующих базеров, которые также используют спекуляционный decoding. Наши результаты показали, что DSDE достигает конкурентной скорости обслуживания (end-to-end latency), сопоставимой с лучшими базовыми подходами. Более того, DSDE проявляет высокую устойчивость в сценариях с низким уровнем приемлемости запросов, где другие подходы могут быть менее эффективны. Эти результаты демонстрируют, что KLD-based stability signal и адаптивный speculation length cap эффективно компенсируют проблему нестабильности в ситуациях с разными объемами запросов. ## Значимость DSDE может применяться в наборе приложений, где требуется высокая производительность и устойчивость во время обслуживания

Abstract

Speculative decoding accelerates large language model inference, but its reliance on a fixed speculation length is suboptimal in large-batch serving environments with diverse requests. This paper explores a new direction for dynamic adaptation by investigating a novel class of post-hoc, diagnostic signals. We propose Dynamic Speculative Decoding Engine (DSDE), a training-free framework built on two primary components: (1) a predictive signal based on the variance of the Kullback-Leibler (KLD) divergence, which diagnoses the generation's regional stability, and (2) an adaptive speculation length cap to mitigate the straggler problem in per-sequence decoding. Experiments demonstrate the potential of using KLD-based stability signals for dynamic adaptation. An algorithm guided by these signals achieves end-to-end latency competitive with leading baselines and exhibits superior robustness across diverse workloads. This robustness is particularly valuable in challenging low-acceptance-rate regimes, where the proposed signal maintains its diagnostic utility. Collectively, these findings validate post-hoc signals as a valuable component for building more robust and intelligent LLM inference systems, and highlight a promising direction for future research on dynamic speculation length adaptation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация