ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

2509.21991v1 cs.CV, cs.AI, cs.CL, cs.LG 2025-09-30
Авторы:

Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim

Резюме на русском

#### Контекст В последние годы визионно-языковые модели (VLMs) получили широкое применение в различных областях, таких как анализ изображений, генерация текста и семантический поиск. Однако существующие модели страдают от высоких затрат на вычисления при работе с высокорезольвентными изображениями, что ограничивает их эффективность в реальном времени. Эта проблема усиливается с развитием моделей " thinking with images", которые расширяют область научного исследования с текста на визуальные данные. Наша мотивация заключается в создании более эффективной модели для решения этих задач, оптимизируя процесс работы с высокорезольвентными изображениями. #### Метод Мы предлагаем ERGO (Efficient Reasoning & Guided Observation), метод, основанный на двухступенчатой "коарсе-то-файн" (грубая до строгой) пипейлни. В первой стадии сокращается разрешение изображения, чтобы выделить задачу-применимые области, а во второй стадии обрабатываются только эти области с полным разрешением. Для того чтобы отличить релевантные области, мы предлагаем решение, основанное на мультимодальном контексте, которое учитывает не только текстовую информацию, но и визуальную. Это позволяет управлять перцептивной неопределенностью, расширяя область обработки для ответа на запросы. Мы используем фреймворк реинфорсментного обучения для оптимизации этого процесса. #### Результаты Мы провёряли нашу модель на нескольких датасетах, включая V*, и сравнили её с оригинальной моделью и другими конкурентными подходами. ERGO достигла значительного улучшения производительности с меньшими затратами на вычисления. Например, на V* она превосходит Qwen2.5-VL-7B на 4.7%, при этом используя только 23% визуальных токенов и получая 3x ускорение в инференсе. Это демонстрирует эффективность нашего подхода в решении задач высокорезольвентного визуального понимания. #### Значимость Исследования ERGO могут применяться в различных областях, включая автоматизированный контент-анализ, робототехнику и системы опоры на реальном времени. Основное преимущество заключается в снижении вычислительных затрат, что особенно критично для мобильных устройств и реального времени. Наш подход также может расширить возможности визуально-языковых моделей, улучшив их точность и скорость работы. Это делает нашу модель привлекательной для применения в реальном мире. #### Выводы Мы представляем ERGO, метод, который эффективно решает проблему высоких затрат на работу с высокорезольвентными изображениями в визуально-языковых моделях. Наш подход демонстрирует высокую точность и эффективность, достигнутые за счёт двухступенчатого принципа обработки. Мы планируем дальней

Abstract

Efficient processing of high-resolution images is crucial for real-world vision-language applications. However, existing Large Vision-Language Models (LVLMs) incur substantial computational overhead due to the large number of vision tokens. With the advent of "thinking with images" models, reasoning now extends beyond text to the visual domain. This capability motivates our two-stage "coarse-to-fine" reasoning pipeline: first, a downsampled image is analyzed to identify task-relevant regions; then, only these regions are cropped at full resolution and processed in a subsequent reasoning stage. This approach reduces computational cost while preserving fine-grained visual details where necessary. A major challenge lies in inferring which regions are truly relevant to a given query. Recent related methods often fail in the first stage after input-image downsampling, due to perception-driven reasoning, where clear visual information is required for effective reasoning. To address this issue, we propose ERGO (Efficient Reasoning & Guided Observation) that performs reasoning-driven perception-leveraging multimodal context to determine where to focus. Our model can account for perceptual uncertainty, expanding the cropped region to cover visually ambiguous areas for answering questions. To this end, we develop simple yet effective reward components in a reinforcement learning framework for coarse-to-fine perception. Across multiple datasets, our approach delivers higher accuracy than the original model and competitive methods, with greater efficiency. For instance, ERGO surpasses Qwen2.5-VL-7B on the V* benchmark by 4.7 points while using only 23% of the vision tokens, achieving a 3x inference speedup. The code and models can be found at: https://github.com/nota-github/ERGO.

Ссылки и действия