Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models
2509.06415v1
cs.CV, cs.AI, cs.CL
2025-09-10
Авторы:
Jaemin Son, Sujin Choi, Inyong Yun
Резюме на русском
## Контекст
Исследования в области визуально-языковых моделей (Vision-Language Models, VLMs) демонстрируют впечатляющие результаты в области распознавания документов. Однако эти модели характеризуются высоким потреблением вычислительных ресурсов, что становится большой проблемой при их применении в реальных сценариях. Особенно заметна эта проблема при обработке документов, где большая часть изображения состоит из неинформативных областей. Это приводит к ненужным вычислениям и увеличивает затраты на ресурсы. Исследователи стремятся найти методы, позволяющие эффективно оптимизировать работу VLMs, сохранив высокую точность.
## Метод
Для решения этой проблемы предлагается инновационный подход — **Index-Preserving Lightweight Token Pruning**. Основной элемент этого подхода — **binary patch-level classifier**, который отфильтровывает некритичные области документа, такие как фоновые изображения или непонятные символы. Затем, для восстановления логической структуры текста, используется **max-pooling refinement step**, который объединяет разделенные части текста в единое целое. Такой подход позволяет снизить вычислительные затраты, не ухудшая точность работы VLMs. Архитектура системы оптимизирована для работы с документными изображениями, используя специальные методы для повышения точности и эффективности распознавания.
## Результаты
На базе реальных документных данных проведено ряд экспериментов для оценки эффективности предложенного подхода. Было сравнено поведение VLMs с использованием предлагаемого метода и без него. Результаты показали, что использование **Index-Preserving Lightweight Token Pruning** приводит к значительной снижению вычислительных затрат — до 30% в сравнении с базовым подходом. Тем не менее, точность распознавания остается высокой и соответствует уровню без применения оптимизации. Это демонстрирует эффективность фреймворка в сокращении ненужных вычислений без потери качества работы.
## Значимость
Предложенный подход может быть применен в различных областях, где требуется эффективная обработка документов, например, в системах автоматического документооборота, в системах текстового поиска и в системах анализа документов в сетях Интернета. Важное преимущество этого подхода — снижение требований к вычислительным ресурсам, что делает его применимым для быстродействующих систем и мобильных приложений. Это может положительно сказаться на развитии технологий обработки документов, улучшении их доступности и эффективности в работе с большими объемами данных.
## Выводы
Результаты работы показали, что **Index-Preserving Lightweight Token Pruning** является эффективным методом для оптимизации работы VLMs при обработке документов. Оно позволяет значительно снизить вычислительные за
Abstract
Recent progress in vision-language models (VLMs) has led to impressive
results in document understanding tasks, but their high computational demands
remain a challenge. To mitigate the compute burdens, we propose a lightweight
token pruning framework that filters out non-informative background regions
from document images prior to VLM processing. A binary patch-level classifier
removes non-text areas, and a max-pooling refinement step recovers fragmented
text regions to enhance spatial coherence. Experiments on real-world document
datasets demonstrate that our approach substantially lowers computational
costs, while maintaining comparable accuracy.
Ссылки и действия
Дополнительные ресурсы: