ViSpec: Accelerating Vision-Language Models with Vision-Aware Speculative Decoding

2509.15235v1 cs.CV, cs.CL 2025-09-22

Авторы:

Jialiang Kang, Han Shu, Wenshuo Li, Yingjie Zhai, Xinghao Chen

Резюме на русском

#### Контекст Современные визуально-языковые модели (Vision-Language Models, VLMs) широко используются в задачах обработки и анализа изображений и текста. Однако их высокая сложность и большой объем вычислительных ресурсов ограничивают их эффективность, особенно при выполнении задач, требующих оперативного ответа. Техника спекулятивного декодирования (speculative decoding), широко используемая для ускорения больших языковых моделей, пока недостаточно эффективно применялась к VLMs. Это становится крайне важной проблемой, поскольку визуально-языковые модели становятся важной частью больших мультимодальных систем. Мы предлагаем новую модель, ViSpec, которая сочетает в себе визуально-адаптивный подход и улучшения в архитектуре, чтобы существенно ускорить декодирование VLMs. #### Метод ViSpec включает в себя несколько ключевых компонентов. Во-первых, мы предлагаем легкий модуль визуальной адаптации (lightweight vision adaptor), который сжимает изображение в компактное представление с помощью адаптивного сжатия токенов. Это решение позволяет сохранить ключевую информацию об изображении, при этом снижая объем вычислений. Во-вторых, мы добавляем в модель вспомогательный вектор, который передается из изображения в текст, чтобы повысить координацию между визуальными и текстовыми данными. Третьим компонентом является усовершенствованный алгоритм декодирования, который учитывает эти улучшения. Мы также предлагаем новую стратегию тренировки, основывающуюся на модифицированных промптах, чтобы избежать риска негативных последствий от прямого доступа к скрытым состояниям целевой модели. #### Результаты Мы провести многочисленные эксперименты на различных задачах, включая обработку текста и изображений. Наши эксперименты показали, что ViSpec достигает существенных ускорений (до 2.5x) по сравнению с другими методами спекулятивного декодирования. Этот результат был получен при сохранении высокой точности решения задач. Мы также проверили, насколько выгодны наши улучшения при работе с различными объемами данных и моделями. Результаты показали, что ViSpec работает эффективно на больших и малых моделях, повышая их производительность без потери качества. #### Значимость Предложенная модель ViSpec может быть применена в многих приложениях, где требуется быстрая и точная обработка визуально-языковых данных, такие как транскрипция речи в текст, синтез текста, системы советников и аналитические платформы. Ускорение, достигнутое с помощью ViSpec, позволяет использовать мощные визуально-языковые модели в реальном времени, улучшая их применение в системах с жесткими ограничениями по врем

Abstract

Speculative decoding is a widely adopted technique for accelerating inference in large language models (LLMs), yet its application to vision-language models (VLMs) remains underexplored, with existing methods achieving only modest speedups (<1.5x). This gap is increasingly significant as multimodal capabilities become central to large-scale models. We hypothesize that large VLMs can effectively filter redundant image information layer by layer without compromising textual comprehension, whereas smaller draft models struggle to do so. To address this, we introduce Vision-Aware Speculative Decoding (ViSpec), a novel framework tailored for VLMs. ViSpec employs a lightweight vision adaptor module to compress image tokens into a compact representation, which is seamlessly integrated into the draft model's attention mechanism while preserving original image positional information. Additionally, we extract a global feature vector for each input image and augment all subsequent text tokens with this feature to enhance multimodal coherence. To overcome the scarcity of multimodal datasets with long assistant responses, we curate a specialized training dataset by repurposing existing datasets and generating extended outputs using the target VLM with modified prompts. Our training strategy mitigates the risk of the draft model exploiting direct access to the target model's hidden states, which could otherwise lead to shortcut learning when training solely on target model outputs. Extensive experiments validate ViSpec, achieving, to our knowledge, the first substantial speedup in VLM speculative decoding.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ViSpec: Accelerating Vision-Language Models with Vision-Aware Speculative Decoding

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация