ViSpec: Accelerating Vision-Language Models with Vision-Aware Speculative Decoding
2509.15235v1
cs.CV, cs.CL
2025-09-22
Авторы:
Jialiang Kang, Han Shu, Wenshuo Li, Yingjie Zhai, Xinghao Chen
Резюме на русском
#### Контекст
Современные визуально-языковые модели (Vision-Language Models, VLMs) широко используются в задачах обработки и анализа изображений и текста. Однако их высокая сложность и большой объем вычислительных ресурсов ограничивают их эффективность, особенно при выполнении задач, требующих оперативного ответа. Техника спекулятивного декодирования (speculative decoding), широко используемая для ускорения больших языковых моделей, пока недостаточно эффективно применялась к VLMs. Это становится крайне важной проблемой, поскольку визуально-языковые модели становятся важной частью больших мультимодальных систем. Мы предлагаем новую модель, ViSpec, которая сочетает в себе визуально-адаптивный подход и улучшения в архитектуре, чтобы существенно ускорить декодирование VLMs.
#### Метод
ViSpec включает в себя несколько ключевых компонентов. Во-первых, мы предлагаем легкий модуль визуальной адаптации (lightweight vision adaptor), который сжимает изображение в компактное представление с помощью адаптивного сжатия токенов. Это решение позволяет сохранить ключевую информацию об изображении, при этом снижая объем вычислений. Во-вторых, мы добавляем в модель вспомогательный вектор, который передается из изображения в текст, чтобы повысить координацию между визуальными и текстовыми данными. Третьим компонентом является усовершенствованный алгоритм декодирования, который учитывает эти улучшения. Мы также предлагаем новую стратегию тренировки, основывающуюся на модифицированных промптах, чтобы избежать риска негативных последствий от прямого доступа к скрытым состояниям целевой модели.
#### Результаты
Мы провести многочисленные эксперименты на различных задачах, включая обработку текста и изображений. Наши эксперименты показали, что ViSpec достигает существенных ускорений (до 2.5x) по сравнению с другими методами спекулятивного декодирования. Этот результат был получен при сохранении высокой точности решения задач. Мы также проверили, насколько выгодны наши улучшения при работе с различными объемами данных и моделями. Результаты показали, что ViSpec работает эффективно на больших и малых моделях, повышая их производительность без потери качества.
#### Значимость
Предложенная модель ViSpec может быть применена в многих приложениях, где требуется быстрая и точная обработка визуально-языковых данных, такие как транскрипция речи в текст, синтез текста, системы советников и аналитические платформы. Ускорение, достигнутое с помощью ViSpec, позволяет использовать мощные визуально-языковые модели в реальном времени, улучшая их применение в системах с жесткими ограничениями по врем
Abstract
Speculative decoding is a widely adopted technique for accelerating inference
in large language models (LLMs), yet its application to vision-language models
(VLMs) remains underexplored, with existing methods achieving only modest
speedups (<1.5x). This gap is increasingly significant as multimodal
capabilities become central to large-scale models. We hypothesize that large
VLMs can effectively filter redundant image information layer by layer without
compromising textual comprehension, whereas smaller draft models struggle to do
so. To address this, we introduce Vision-Aware Speculative Decoding (ViSpec), a
novel framework tailored for VLMs. ViSpec employs a lightweight vision adaptor
module to compress image tokens into a compact representation, which is
seamlessly integrated into the draft model's attention mechanism while
preserving original image positional information. Additionally, we extract a
global feature vector for each input image and augment all subsequent text
tokens with this feature to enhance multimodal coherence. To overcome the
scarcity of multimodal datasets with long assistant responses, we curate a
specialized training dataset by repurposing existing datasets and generating
extended outputs using the target VLM with modified prompts. Our training
strategy mitigates the risk of the draft model exploiting direct access to the
target model's hidden states, which could otherwise lead to shortcut learning
when training solely on target model outputs. Extensive experiments validate
ViSpec, achieving, to our knowledge, the first substantial speedup in VLM
speculative decoding.
Ссылки и действия
Дополнительные ресурсы: