SpecVLM: Enhancing Speculative Decoding of Video LLMs via Verifier-Guided Token Pruning

2508.16201v1 cs.CV, cs.AI, cs.CL 2025-08-26

Авторы:

Yicheng Ji, Jun Zhang, Heming Xia, Jinpeng Chen, Lidan Shou, Gang Chen, Huan Li

Резюме на русском

## Контекст Видео-большие языковые модели (Video Large Language Models, Vid-LLMs) отличаются сильными способностями в понимании видеоконтента. Однако их зависимость от детальных представлений видеотокенов приводит к значительным требованиям к памяти и вычислительным ресурсам в процессах заполнения и декодирования. Эта проблема становится актуальной при использовании Vid-LLMs в реальном времени, таких как гибридные модели, которые объединяют видео- и текстовые задачи. Необходимо уменьшить накладные расходы на заполнение и декодирование без потери точности. ## Метод SpecVLM представляет собой фреймворк для спекулятивного декодирования (SD), основывающийся на трёх основных компонентах: 1) **Staged Token Pruning (STP)**, 2) **Draft Model Pruning Sensitivity Analysis**, и 3) **Verifier-Guided Token Pruning (VGTP)**. Фреймворк использует нейросетевой декодер, сочетающий в себе модель спекулятивного декодирования и модель верификатора. Для эффективного уменьшения количества видеотокенов, SpecVLM проводит двухступенчатое удаление ненужных токенов: сначала выбираются токены, оптимальные для декодирования, а затем происходит удаление остальных токенов с помощью простого, но эффективного метода. ## Результаты Проведенные эксперименты показали, что SpecVLM эффективно ускоряет декодирование для ряда Vid-LLMs. Например, для модели LLaVA-OneVision-72B достигнут ускорение до **2.68×**, при этом не теряется точности. Также для модели Qwen2.5-VL-32B был получен ускорение **2.11×**. Эти результаты достигнуты благодаря удалению до 90% ненужных видеотокенов, что позволяет значительно сократить вычислительные затраты без потери качества. ## Значимость Видоизменённый SpecVLM открывает новые возможности для гибридных моделей, объединяющих видео- и текстовые задачи. Он предоставляет удачное решение для эффективного использования ресурсов, быстрого декодирования и обработки видеоконтента в реальном времени. SpecVLM может быть применён в различных областях, таких как видеоаналитика, реальном времени анализе, автоматическом применении моделей в области контента. ## Выводы SpecVLM доказывает его эффективность в ускорении декодирования Vid-LLMs, существенно сокращая требования к памяти и вычислительным ресурсам без потери точности. Дальнейшие исследования будут направлены на расширение SpecVLM для дополнительных моделей Vid-LLMs и улучшение его работы в более сложных задачах видео- и текстового анализа.

Abstract

Video large language models (Vid-LLMs) have shown strong capabilities in understanding video content. However, their reliance on dense video token representations introduces substantial memory and computational overhead in both prefilling and decoding. To mitigate the information loss of recent video token reduction methods and accelerate the decoding stage of Vid-LLMs losslessly, we introduce SpecVLM, a training-free speculative decoding (SD) framework tailored for Vid-LLMs that incorporates staged video token pruning. Building on our novel finding that the draft model's speculation exhibits low sensitivity to video token pruning, SpecVLM prunes up to 90% of video tokens, enabling efficient speculation without sacrificing accuracy. To achieve this, it performs a two-stage pruning process: Stage I selects highly informative tokens guided by attention signals from the verifier (target model), while Stage II prunes remaining redundant ones in a spatially uniform manner. Extensive experiments on four video understanding benchmarks demonstrate the effectiveness and robustness of SpecVLM, which achieves up to 2.68$\times$ decoding speedup for LLaVA-OneVision-72B and 2.11$\times$ speedup for Qwen2.5-VL-32B.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SpecVLM: Enhancing Speculative Decoding of Video LLMs via Verifier-Guided Token Pruning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Traini...

NAS-LoRA: Empowering Parameter-Efficient Fine-Tuning for Visual Foundation Model...

Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Stream...

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcem...

Навигация