📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Mingyu Yang, Jae-Young Choi, Kihyo Moon, Minsung Jang, Eunjoo Joen
## Контекст
Реализация больших языковых моделей (LLM) вызывает значительные затраты ресурсов, особенно при обслуживании больших пакетов запросов. Одним из ключевых элементов, который позволяет ускорить инференс LLM, является **speculative decoding** — метод, при котором модель предсказывает возможные следующие токены в процессе генерации. Однако существующие подходы к speculative decoding ограничены фиксированной длиной спекуляции, что может приводить к неэффективности в сценариях с разнообразными запросами. Эта проблема становится важной в случаях, когда требуется высокая эффективность и устойчивость в реальном времени. В данной работе мы анализируем эту проблему и предлагаем новое решение, основанное на динамических сигналах, которые позволяют адаптировать длину спекуляции в зависимости от контекста запроса.
## Метод
Для решения этой проблемы мы предлагаем **Dynamic Speculative Decoding Engine (DSDE)** — фреймворк, основанный на двух основных компонентах:
1. **Компонент KLD-Based Stability Signal**: Мы используем Kullback-Leibler Divergence (KLD) для оценки стабильности генерации токенов в каждом этапе. Этот сигнал позволяет определить, насколько устойчива генерация, и динамически регулировать длину спекуляции на основании диагностических сигналов.
2. **Adaptive Speculation Length Cap**: Мы вводим адаптивный порог для длины спекуляции, который позволяет избежать проблемы "straggler" — небольших потоков, которые замедляют общую скорость обслуживания. Этот подход гарантирует, что длина спекуляции будет адаптироваться в зависимости от характера запросов.
DSDE — это тренировка-свободный подход, который может быть интегрирован с различными типами моделей LLM. Он основывается на динамическом анализе стабильности и адаптивной регулировке для обеспечения более эффективного инференса.
## Результаты
Мы проводили ряд экспериментов, используя различные наборы данных и подготовленные тестовые сценарии, чтобы оценить эффективность DSDE. Мы сравнивали его с трех лидирующих базеров, которые также используют спекуляционный decoding. Наши результаты показали, что DSDE достигает конкурентной скорости обслуживания (end-to-end latency), сопоставимой с лучшими базовыми подходами. Более того, DSDE проявляет высокую устойчивость в сценариях с низким уровнем приемлемости запросов, где другие подходы могут быть менее эффективны. Эти результаты демонстрируют, что KLD-based stability signal и адаптивный speculation length cap эффективно компенсируют проблему нестабильности в ситуациях с разными объемами запросов.
## Значимость
DSDE может применяться в наборе приложений, где требуется высокая производительность и устойчивость во время обслуживания
Annotation:
Speculative decoding accelerates large language model inference, but its
reliance on a fixed speculation length is suboptimal in large-batch serving
environments with diverse requests. This paper explores a new direction for
dynamic adaptation by investigating a novel class of post-hoc, diagnostic
signals. We propose Dynamic Speculative Decoding Engine (DSDE), a training-free
framework built on two primary components: (1) a predictive signal based on the
variance of the Kullback-Leibler (KLD) di...