SpecVLM: Enhancing Speculative Decoding of Video LLMs via Verifier-Guided Token Pruning
2508.16201v1
cs.CV, cs.AI, cs.CL
2025-08-26
Авторы:
Yicheng Ji, Jun Zhang, Heming Xia, Jinpeng Chen, Lidan Shou, Gang Chen, Huan Li
Резюме на русском
## Контекст
Видео-большие языковые модели (Video Large Language Models, Vid-LLMs) отличаются сильными способностями в понимании видеоконтента. Однако их зависимость от детальных представлений видеотокенов приводит к значительным требованиям к памяти и вычислительным ресурсам в процессах заполнения и декодирования. Эта проблема становится актуальной при использовании Vid-LLMs в реальном времени, таких как гибридные модели, которые объединяют видео- и текстовые задачи. Необходимо уменьшить накладные расходы на заполнение и декодирование без потери точности.
## Метод
SpecVLM представляет собой фреймворк для спекулятивного декодирования (SD), основывающийся на трёх основных компонентах: 1) **Staged Token Pruning (STP)**, 2) **Draft Model Pruning Sensitivity Analysis**, и 3) **Verifier-Guided Token Pruning (VGTP)**. Фреймворк использует нейросетевой декодер, сочетающий в себе модель спекулятивного декодирования и модель верификатора. Для эффективного уменьшения количества видеотокенов, SpecVLM проводит двухступенчатое удаление ненужных токенов: сначала выбираются токены, оптимальные для декодирования, а затем происходит удаление остальных токенов с помощью простого, но эффективного метода.
## Результаты
Проведенные эксперименты показали, что SpecVLM эффективно ускоряет декодирование для ряда Vid-LLMs. Например, для модели LLaVA-OneVision-72B достигнут ускорение до **2.68×**, при этом не теряется точности. Также для модели Qwen2.5-VL-32B был получен ускорение **2.11×**. Эти результаты достигнуты благодаря удалению до 90% ненужных видеотокенов, что позволяет значительно сократить вычислительные затраты без потери качества.
## Значимость
Видоизменённый SpecVLM открывает новые возможности для гибридных моделей, объединяющих видео- и текстовые задачи. Он предоставляет удачное решение для эффективного использования ресурсов, быстрого декодирования и обработки видеоконтента в реальном времени. SpecVLM может быть применён в различных областях, таких как видеоаналитика, реальном времени анализе, автоматическом применении моделей в области контента.
## Выводы
SpecVLM доказывает его эффективность в ускорении декодирования Vid-LLMs, существенно сокращая требования к памяти и вычислительным ресурсам без потери точности. Дальнейшие исследования будут направлены на расширение SpecVLM для дополнительных моделей Vid-LLMs и улучшение его работы в более сложных задачах видео- и текстового анализа.
Abstract
Video large language models (Vid-LLMs) have shown strong capabilities in
understanding video content. However, their reliance on dense video token
representations introduces substantial memory and computational overhead in
both prefilling and decoding. To mitigate the information loss of recent video
token reduction methods and accelerate the decoding stage of Vid-LLMs
losslessly, we introduce SpecVLM, a training-free speculative decoding (SD)
framework tailored for Vid-LLMs that incorporates staged video token pruning.
Building on our novel finding that the draft model's speculation exhibits low
sensitivity to video token pruning, SpecVLM prunes up to 90% of video tokens,
enabling efficient speculation without sacrificing accuracy. To achieve this,
it performs a two-stage pruning process: Stage I selects highly informative
tokens guided by attention signals from the verifier (target model), while
Stage II prunes remaining redundant ones in a spatially uniform manner.
Extensive experiments on four video understanding benchmarks demonstrate the
effectiveness and robustness of SpecVLM, which achieves up to 2.68$\times$
decoding speedup for LLaVA-OneVision-72B and 2.11$\times$ speedup for
Qwen2.5-VL-32B.
Ссылки и действия
Дополнительные ресурсы: