Reinforced Visual Perception with Tools

2509.01656v1 cs.CV, cs.CL 2025-09-05

Авторы:

Zetong Zhou, Dongping Chen, Zixian Ma, Zhihan Hu, Mingyang Fu, Sinan Wang, Yao Wan, Zhou Zhao, Ranjay Krishna

Резюме на русском

#### Контекст Визуальное разумение является одной из основных способностей человеческого разума, включая сложные процессы восприятия и логического мышления. Оно необходимо для решения различных задач, которые включают в себя визуальную обработку и логическую синтезированность. Несмотря на то, что современные компьютерные модели визуального распознавания показали замечательные результаты в определенных задачах, широкомасштабное визуальное разумение остается чрезвычайно сложной проблемой. Одной из ключевых проблем является необходимость объединить мощные модели визуального восприятия с возможностью логического мышления. До сих пор было показано, что добавление моделей визуального распознавания к ло LLM-моделям через супервизированный тип тюнинга может повысить их эффективность, однако этот подход имеет значительные ограничения, включая дорогостоящую генерацию данных, необходимость тщательной фильтрации данных и ограниченную общийствость. #### Метод Для решения этих проблем мы предлагаем Reinforced Visual Perception with Tools (ReVPT), систему, которая позволяет улучшить возможности ло LLM-моделей в отношении визуального рассуждения и использования визуальных инструментов. ReVPT основывается на градиентно-релаксационном процессе оптимизации (GRPO), который укрепляет модели для логического вывода и визуального инструментального использования. Мы представляем процесс обучения с поддержкой подкреплений, использующий специализированные визуальные инструменты для решения задач. Этот подход позволяет модели более эффективно обучаться, используя градиентную оптимизацию и подачу подкреплений. Мы вводим новую архитектуру, которая сочетает в себе модели визуального восприятия и логического вывода, чтобы создать более гибкий и мощный инструмент для решения визуальных задач. #### Результаты Мы проводили широкий ряд экспериментов, используя несколько визуальных бенчмарок, таких как SAT, CV-Bench, BLINK и MMStar. Наши результаты показали, что ReVPT не только повышает производительность, но и превосходит супервизированные методы и текстовые методы RL-типа в области визуального рассуждения. Такие модели, как ReVPT-3B и ReVPT-7B, показали существенные улучшения в задачах CV-Bench, благодаря тому, что имеют 9.03% и 9.44% более высокую эффективность по сравнению с инструктивными моделями. Мы также провели ряд абляционных экспериментов, которые подтвердили эффективность различных компонентов процесса обучения. #### Значимость Предлагаемый подход может быть применен в различных областях, таких как искусственный интеллект, программирование с помощью виз

Abstract

Visual reasoning, a cornerstone of human intelligence, encompasses complex perceptual and logical processes essential for solving diverse visual problems. While advances in computer vision have produced powerful models for various perceptual tasks, leveraging these for general visual reasoning remains challenging. Prior work demonstrates that augmenting LLMs with vision models via supervised finetuning improves performance, but faces key limitations such as expensive data generation, reliance on careful data filtering, and poor generalization. To address these issues, we propose ReVPT to enhance multi-modal LLMs' abilities to reason about and use visual tools through reinforcement learning. We introduce a novel RL algorithm based on GRPO, designed to train models to reason with a suite of four visual tools. Through extensive experiments, we show that our method achieves state-of-the-art performance on several perception-heavy benchmarks, including SAT, CV-Bench, BLINK and MMStar, significantly outperforming the supervised and text-based RL finetuning baselines. Notably, Our ReVPT-3B and ReVPT-7B outperform the instruct models by 9.03% and 9.44% on CV-Bench. Finally, we bring to the community new insights on RL-based visual tool-usage through extensive ablations. Our code is available at https://github.com/ls-kelvin/REVPT.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Reinforced Visual Perception with Tools

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация