LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model

2509.00676v1 cs.CV, cs.LG 2025-09-05
Авторы:

Xiyao Wang, Chunyuan Li, Jianwei Yang, Kai Zhang, Bo Liu, Tianyi Xiong, Furong Huang

Резюме на русском

## Контекст Область визуально-языковых моделей (Vision-Language Models, VLM) широко применяется в задачах визуального понимания и решении интеллектуальных задач. Одним из ключевых элементов этих моделей являются критические модели (critic models), которые обычно используются для оценки и поддержания качества генерируемых ответов, а не для их генерации. Это разделение между критическими и политическими моделями (policy models) во многом стало привычкой, хотя оно ограничивает потенциал моделей. В данной работе мы выступаем за перемену этого подхода, предлагая переорганизовать критические данные с приоритетом предпочтений (preference-labeled critic datasets) в подходящий вид для тренировки, чтобы объединить возможность оценки и генерации в одной модели. ## Метод Мы предлагаем реконструировать критические данные, используя процедуру рейтинга по приоритетам (preference-based ranking), чтобы обеспечить тренировку моделей с помощью реинфорсментного обучения (reinforcement learning, RL). Этот подход преобразует критические модели в полноценные политические модели, которые не только оценивают, но и генерируют ответы. Мы применяем этот подход к модели LLaVA-Critic-R1, которая является начальной моделью типа critic, но обучается с помощью RL для достижения качества политической модели. Этот процесс включает в себя использование данных, относящихся к определенной тематике, и тренировку модели для оптимизации приоритетов предпочтений. ## Результаты Мы проводили эксперименты с LLaVA-Critic-R1 на 26 задачах визуального понимания и решения. Она показала себя как высококачественная критическая модель и, в то же время, как мощная политическая модель. Особенно заметна была ее способность повысить качество генерации ответов, набрав до 5.7% больше, чем базовая модель (Qwen-2.5-VL-7B). Мы также расширили этот подход, создав LLaVA-Critic-R1+, которая дает еще большее улучшение в политических моделях без потери качества критического анализа. На репрезентативной метрике MMMU она достигла рекордного результата 71.9 при работе на семи миллиардах параметров. Наконец, мы проверили, как самокритический анализ во время тестирования может улучшить результаты в пяти визуальных задачах, набрав до 13.8% improvements. ## Значимость Наш подход открывает новые возможности для создания универсальных моделей, которые обладают как критическими, так и политическими способностями. Это значительно увеличивает скейлинг и самоподготовление моделей в области визуального понимания. Мы показываем, что модели, обученные с использованием наших методов, могут быть применены в различных задачах, включая логическое р vine-reasoning и визуальное понимание. Это делает нашу работу важной для развития самоо

Abstract

In vision-language modeling, critic models are typically trained to evaluate outputs -- assigning scalar scores or pairwise preferences -- rather than to generate responses. This separation from policy models, which produce the responses, is so entrenched that critics are rarely considered for direct policy use. In this work, we challenge this convention. We propose to reorganize preference-labeled critic datasets into verifiable training signals and perform reinforcement learning directly on a base generative model, producing LLaVA-Critic-R1, a multimodal critic trained to optimize preference judgments while retaining full generation ability. Surprisingly, LLaVA-Critic-R1 emerges not only as a top-performing critic but also as a competitive policy model -- matching or surpassing specialized reasoning VLMs trained with in-domain data across 26 visual reasoning and understanding benchmarks, with an average gain of +5.7% over its base model (Qwen-2.5-VL-7B). Extending this approach to existing strong reasoning VLMs yields LLaVA-Critic-R1+, which further advances policy performance without sacrificing critic quality, achieving a SoTA performance of 71.9 on MMMU at the 7B scale. Finally, we show that the enhanced critic ability benefits inference: applying self-critique at test time yields an average +13.8% improvement on five representative reasoning tasks without additional training. Our results reveal that RL training on critic data can produce a unified model excelling at both evaluation and generation, offering a simple path toward scalable, self-improving multimodal systems.

Ссылки и действия