CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models

2508.17243v1 cs.CV, cs.AI, cs.CL 2025-08-27

Авторы:

Zicong Tang, Ziyang Ma, Suqing Wang, Zuchao Li, Lefei Zhang, Hai Zhao, Yun Li, Qianren Wang

Резюме на русском

## Контекст Large Vision-Language Models (LVLMs) обрабатывают мультимодальные входные данные, включая текстовые токены и визуальные токены, извлеченные из изображений или видео. Из-за богатой визуальной информации одно изображение может сгенерировать тысячи визуальных токенов, что приводит к высоким вычислительным затратам в процессе префиллинга и значительному наложению памяти во время декодирования. Несмотря на то, что существующие методы предлагают снижать число визуальных токенов, они часто сталкиваются с проблемами в глубоких слоях, где недостаточно контекстной информации. Мы утверждаем, что многие визуальные токены являются излишними даже в слоях с меньшим контекстом и могут быть безопасно и эффективно удалены при использовании соответствующих сигналов контекста. В настоящей работе мы предлагаем CoViPAL — метод упрощения визуальных токенов, работающий на уровне каждого слоя, и использующий модуль Plug-and-Play Pruning Module (PPM) для предсказания и удаления излишних визуальных токенов перед их обработкой LVLMs. ## Метод CoViPAL основывается на многоуровневом подходе к упрощению визуальных токенов, используя Plug-and-Play Pruning Module (PPM). PPM является легковесным и модель-агностичным, что позволяет его интегрировать с любыми моделями LVLM без изменения их основной архитектуры. PPM работает на основе контекстной информации, извлекаемой из визуальных токенов и текстовых токенов, и применяет метод предсказания и удаления ненужных токенов. Этот метод позволяет уменьшить количество токенов, обрабатываемых LVLM, без ущерба для точности или значительного увеличения времени обучения. Мы также разработали архитектуру PPM таким образом, чтобы она могла оперировать в реальном времени, что обеспечивает высокую эффективность и гибкость. ## Результаты Мы провели эксперименты на нескольких бенчмарках, используя разные модели LVLM, и сравнили результаты CoViPAL с другими методами упрощения визуальных токенов. Наши результаты показали, что CoViPAL превосходит методы, не требующие обучения, при одинаковых ограничениях по числу токенов и показывает лучший результат по сравнению с тренируемыми методами, обладающими похожим количеством подкрепления. Мы также проанализировали эффективность PPM на разных слоях LVLMs и показали, что он эффективно снижает нагрузку на память и вычисления во всех слоях, в том числе в глубоких и малоконтекстных. Эти результаты демонстрируют высокую эффективность и гибкость CoViPAL в решении проблемы высоких затрат на обработку визуальных данных в LVLMs. ## Значимость CoViPAL предлагает новую точку зрения на проблему упрощения визу

Abstract

Large Vision-Language Models (LVLMs) process multimodal inputs consisting of text tokens and vision tokens extracted from images or videos. Due to the rich visual information, a single image can generate thousands of vision tokens, leading to high computational costs during the prefilling stage and significant memory overhead during decoding. Existing methods attempt to prune redundant vision tokens, revealing substantial redundancy in visual representations. However, these methods often struggle in shallow layers due to the lack of sufficient contextual information. We argue that many visual tokens are inherently redundant even in shallow layers and can be safely and effectively pruned with appropriate contextual signals. In this work, we propose CoViPAL, a layer-wise contextualized visual token pruning method that employs a Plug-and-Play Pruning Module (PPM) to predict and remove redundant vision tokens before they are processed by the LVLM. The PPM is lightweight, model-agnostic, and operates independently of the LVLM architecture, ensuring seamless integration with various models. Extensive experiments on multiple benchmarks demonstrate that CoViPAL outperforms training-free pruning methods under equal token budgets and surpasses training-based methods with comparable supervision. CoViPAL offers a scalable and efficient solution to improve inference efficiency in LVLMs without compromising accuracy.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Traini...

NAS-LoRA: Empowering Parameter-Efficient Fine-Tuning for Visual Foundation Model...

Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Stream...

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcem...

Навигация