Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

2509.06415v1 cs.CV, cs.AI, cs.CL 2025-09-10

Авторы:

Jaemin Son, Sujin Choi, Inyong Yun

Резюме на русском

## Контекст Исследования в области визуально-языковых моделей (Vision-Language Models, VLMs) демонстрируют впечатляющие результаты в области распознавания документов. Однако эти модели характеризуются высоким потреблением вычислительных ресурсов, что становится большой проблемой при их применении в реальных сценариях. Особенно заметна эта проблема при обработке документов, где большая часть изображения состоит из неинформативных областей. Это приводит к ненужным вычислениям и увеличивает затраты на ресурсы. Исследователи стремятся найти методы, позволяющие эффективно оптимизировать работу VLMs, сохранив высокую точность. ## Метод Для решения этой проблемы предлагается инновационный подход — **Index-Preserving Lightweight Token Pruning**. Основной элемент этого подхода — **binary patch-level classifier**, который отфильтровывает некритичные области документа, такие как фоновые изображения или непонятные символы. Затем, для восстановления логической структуры текста, используется **max-pooling refinement step**, который объединяет разделенные части текста в единое целое. Такой подход позволяет снизить вычислительные затраты, не ухудшая точность работы VLMs. Архитектура системы оптимизирована для работы с документными изображениями, используя специальные методы для повышения точности и эффективности распознавания. ## Результаты На базе реальных документных данных проведено ряд экспериментов для оценки эффективности предложенного подхода. Было сравнено поведение VLMs с использованием предлагаемого метода и без него. Результаты показали, что использование **Index-Preserving Lightweight Token Pruning** приводит к значительной снижению вычислительных затрат — до 30% в сравнении с базовым подходом. Тем не менее, точность распознавания остается высокой и соответствует уровню без применения оптимизации. Это демонстрирует эффективность фреймворка в сокращении ненужных вычислений без потери качества работы. ## Значимость Предложенный подход может быть применен в различных областях, где требуется эффективная обработка документов, например, в системах автоматического документооборота, в системах текстового поиска и в системах анализа документов в сетях Интернета. Важное преимущество этого подхода — снижение требований к вычислительным ресурсам, что делает его применимым для быстродействующих систем и мобильных приложений. Это может положительно сказаться на развитии технологий обработки документов, улучшении их доступности и эффективности в работе с большими объемами данных. ## Выводы Результаты работы показали, что **Index-Preserving Lightweight Token Pruning** является эффективным методом для оптимизации работы VLMs при обработке документов. Оно позволяет значительно снизить вычислительные за

Abstract

Recent progress in vision-language models (VLMs) has led to impressive results in document understanding tasks, but their high computational demands remain a challenge. To mitigate the compute burdens, we propose a lightweight token pruning framework that filters out non-informative background regions from document images prior to VLM processing. A binary patch-level classifier removes non-text areas, and a max-pooling refinement step recovers fragmented text regions to enhance spatial coherence. Experiments on real-world document datasets demonstrate that our approach substantially lowers computational costs, while maintaining comparable accuracy.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Traini...

NAS-LoRA: Empowering Parameter-Efficient Fine-Tuning for Visual Foundation Model...

Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Stream...

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcem...

Навигация