📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 DSDE: Dynamic Speculative Decoding with KLD Stability for Real-World Serving

2025-09-05

Авторы:

Mingyu Yang, Jae-Young Choi, Kihyo Moon, Minsung Jang, Eunjoo Joen

## Контекст Реализация больших языковых моделей (LLM) вызывает значительные затраты ресурсов, особенно при обслуживании больших пакетов запросов. Одним из ключевых элементов, который позволяет ускорить инференс LLM, является **speculative decoding** — метод, при котором модель предсказывает возможные следующие токены в процессе генерации. Однако существующие подходы к speculative decoding ограничены фиксированной длиной спекуляции, что может приводить к неэффективности в сценариях с разнообразными запросами. Эта проблема становится важной в случаях, когда требуется высокая эффективность и устойчивость в реальном времени. В данной работе мы анализируем эту проблему и предлагаем новое решение, основанное на динамических сигналах, которые позволяют адаптировать длину спекуляции в зависимости от контекста запроса. ## Метод Для решения этой проблемы мы предлагаем **Dynamic Speculative Decoding Engine (DSDE)** — фреймворк, основанный на двух основных компонентах: 1. **Компонент KLD-Based Stability Signal**: Мы используем Kullback-Leibler Divergence (KLD) для оценки стабильности генерации токенов в каждом этапе. Этот сигнал позволяет определить, насколько устойчива генерация, и динамически регулировать длину спекуляции на основании диагностических сигналов. 2. **Adaptive Speculation Length Cap**: Мы вводим адаптивный порог для длины спекуляции, который позволяет избежать проблемы "straggler" — небольших потоков, которые замедляют общую скорость обслуживания. Этот подход гарантирует, что длина спекуляции будет адаптироваться в зависимости от характера запросов. DSDE — это тренировка-свободный подход, который может быть интегрирован с различными типами моделей LLM. Он основывается на динамическом анализе стабильности и адаптивной регулировке для обеспечения более эффективного инференса. ## Результаты Мы проводили ряд экспериментов, используя различные наборы данных и подготовленные тестовые сценарии, чтобы оценить эффективность DSDE. Мы сравнивали его с трех лидирующих базеров, которые также используют спекуляционный decoding. Наши результаты показали, что DSDE достигает конкурентной скорости обслуживания (end-to-end latency), сопоставимой с лучшими базовыми подходами. Более того, DSDE проявляет высокую устойчивость в сценариях с низким уровнем приемлемости запросов, где другие подходы могут быть менее эффективны. Эти результаты демонстрируют, что KLD-based stability signal и адаптивный speculation length cap эффективно компенсируют проблему нестабильности в ситуациях с разными объемами запросов. ## Значимость DSDE может применяться в наборе приложений, где требуется высокая производительность и устойчивость во время обслуживания

Annotation:

Speculative decoding accelerates large language model inference, but its reliance on a fixed speculation length is suboptimal in large-batch serving environments with diverse requests. This paper explores a new direction for dynamic adaptation by investigating a novel class of post-hoc, diagnostic signals. We propose Dynamic Speculative Decoding Engine (DSDE), a training-free framework built on two primary components: (1) a predictive signal based on the variance of the Kullback-Leibler (KLD) di...

ID: 2509.01083v1 cs.DC, cs.AI, cs.IT, math.IT, I.2.7; C.2.4

arXiv PDF