Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models
2509.12132v1
cs.CV, cs.CL
2025-09-17
Авторы:
Pu Jian, Junhong Wu, Wei Sun, Chen Wang, Shuo Ren, Jiajun Zhang
Резюме на русском
#### Контекст
Визуальная рационализация (visual reasoning) — это важный аспект искусственного интеллекта, направленный на обработку и анализ визуальной информации с учетом логических правил и контекста. Однако существующие модели визуального рассуждения (visual reasoning models, VRMs) часто способствуют автоматическому построению ответов, недостаточно учитывая визуальные данные или проводя углубленное визуальное обоснование при принятии решений. Эта проблема влечет за собой ограниченность решений и несоответствие реальным обстоятельствам. Были предприняты усилия для передачи техник "медленного мышления" (slow-thinking) из текстовых моделей в VRMs. Однако эти усилия сталкиваются с ключевыми проблемами, включая недостаточное внимание к визуальным данным и слабую возможность визуальной рефлексии (visual reflection) — процесс, когда модель анализирует свои рассуждения на основе визуальных сигналов.
#### Метод
Для решения этой проблемы мы предлагаем модель \textbf{Reflection-V}, которая улучшает визуальную рефлексию в VRMs с помощью двух основных компонентов:
1. **Конструирование визуально-центрированного контекста рассуждения**. Используя агента, взаимодействующего с моделями языка и визуального рассуждения, мы строим данные, которые стимулируют модели привлекать внимание к визуальным сигналам в ходе рассуждения.
2. **Реабилитация внимания с помощью оптимизации визуальных моделей**. Мы применяем визуальную модель внимания (visual attention) как признак для проектирования наград в обучении с подкреплением (reinforcement learning). Это позволяет модели оптимизировать свой подход к визуальному анализу, стремясь к более точному и визуально обоснованному решению.
#### Результаты
Мы провели эксперименты на нескольких бенчмарках визуального рассуждения, включая проверку способности моделей к визуальной рефлексии. Результаты показали, что \textbf{Reflection-V} превосходит существующие модели по следующим показателям:
- Увеличение внимания к визуальным данным в ходе рассуждения.
- Улучшение точности ответов, особенно при сложных задачах визуального анализа.
- Уменьшение количества ошибок в ситуациях, требующих глубокого визуального объяснения.
Эти результаты подтверждают, что модель \textbf{Reflection-V} не только повышает качество решений, но и обеспечивает более стабильное внимание к визуальным сигналам.
#### Значимость
Модель \textbf{Reflection-V} может быть применена в различных областях, где важно улучшение визуального рассуждения, включая медицинскую диагностику, анализ видео, управление роботами и другие приложения, требующие точного и визуально обоснованного анализа. Ос
Abstract
Recent advances in text-only "slow-thinking" reasoning have prompted efforts
to transfer this capability to vision-language models (VLMs), for training
visual reasoning models (\textbf{VRMs}). owever, such transfer faces critical
challenges: Effective "slow thinking" in VRMs requires \textbf{visual
reflection}, the ability to check the reasoning process based on visual
information. Through quantitative analysis, we observe that current VRMs
exhibit limited visual reflection, as their attention to visual information
diminishes rapidly with longer generated responses. To address this challenge,
we propose a new VRM \textbf{Reflection-V}, which enhances visual reflection
based on reasoning data construction for cold-start and reward design for
reinforcement learning (RL). Firstly, we construct vision-centered reasoning
data by leveraging an agent that interacts between VLMs and reasoning LLMs,
enabling cold-start learning of visual reflection patterns. Secondly, a visual
attention based reward model is employed during RL to encourage reasoning based
on visual information. Therefore, \textbf{Reflection-V} demonstrates
significant improvements across multiple visual reasoning benchmarks.
Furthermore, \textbf{Reflection-V} maintains a stronger and more consistent
reliance on visual information during visual reasoning, indicating effective
enhancement in visual reflection capabilities.
Ссылки и действия
Дополнительные ресурсы: