Reinforced Visual Perception with Tools
2509.01656v1
cs.CV, cs.CL
2025-09-05
Авторы:
Zetong Zhou, Dongping Chen, Zixian Ma, Zhihan Hu, Mingyang Fu, Sinan Wang, Yao Wan, Zhou Zhao, Ranjay Krishna
Резюме на русском
#### Контекст
Визуальное разумение является одной из основных способностей человеческого разума, включая сложные процессы восприятия и логического мышления. Оно необходимо для решения различных задач, которые включают в себя визуальную обработку и логическую синтезированность. Несмотря на то, что современные компьютерные модели визуального распознавания показали замечательные результаты в определенных задачах, широкомасштабное визуальное разумение остается чрезвычайно сложной проблемой. Одной из ключевых проблем является необходимость объединить мощные модели визуального восприятия с возможностью логического мышления. До сих пор было показано, что добавление моделей визуального распознавания к ло LLM-моделям через супервизированный тип тюнинга может повысить их эффективность, однако этот подход имеет значительные ограничения, включая дорогостоящую генерацию данных, необходимость тщательной фильтрации данных и ограниченную общийствость.
#### Метод
Для решения этих проблем мы предлагаем Reinforced Visual Perception with Tools (ReVPT), систему, которая позволяет улучшить возможности ло LLM-моделей в отношении визуального рассуждения и использования визуальных инструментов. ReVPT основывается на градиентно-релаксационном процессе оптимизации (GRPO), который укрепляет модели для логического вывода и визуального инструментального использования. Мы представляем процесс обучения с поддержкой подкреплений, использующий специализированные визуальные инструменты для решения задач. Этот подход позволяет модели более эффективно обучаться, используя градиентную оптимизацию и подачу подкреплений. Мы вводим новую архитектуру, которая сочетает в себе модели визуального восприятия и логического вывода, чтобы создать более гибкий и мощный инструмент для решения визуальных задач.
#### Результаты
Мы проводили широкий ряд экспериментов, используя несколько визуальных бенчмарок, таких как SAT, CV-Bench, BLINK и MMStar. Наши результаты показали, что ReVPT не только повышает производительность, но и превосходит супервизированные методы и текстовые методы RL-типа в области визуального рассуждения. Такие модели, как ReVPT-3B и ReVPT-7B, показали существенные улучшения в задачах CV-Bench, благодаря тому, что имеют 9.03% и 9.44% более высокую эффективность по сравнению с инструктивными моделями. Мы также провели ряд абляционных экспериментов, которые подтвердили эффективность различных компонентов процесса обучения.
#### Значимость
Предлагаемый подход может быть применен в различных областях, таких как искусственный интеллект, программирование с помощью виз
Abstract
Visual reasoning, a cornerstone of human intelligence, encompasses complex
perceptual and logical processes essential for solving diverse visual problems.
While advances in computer vision have produced powerful models for various
perceptual tasks, leveraging these for general visual reasoning remains
challenging. Prior work demonstrates that augmenting LLMs with vision models
via supervised finetuning improves performance, but faces key limitations such
as expensive data generation, reliance on careful data filtering, and poor
generalization. To address these issues, we propose ReVPT to enhance
multi-modal LLMs' abilities to reason about and use visual tools through
reinforcement learning. We introduce a novel RL algorithm based on GRPO,
designed to train models to reason with a suite of four visual tools. Through
extensive experiments, we show that our method achieves state-of-the-art
performance on several perception-heavy benchmarks, including SAT, CV-Bench,
BLINK and MMStar, significantly outperforming the supervised and text-based RL
finetuning baselines. Notably, Our ReVPT-3B and ReVPT-7B outperform the
instruct models by 9.03% and 9.44% on CV-Bench. Finally, we bring to the
community new insights on RL-based visual tool-usage through extensive
ablations. Our code is available at https://github.com/ls-kelvin/REVPT.
Ссылки и действия
Дополнительные ресурсы: