LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
2509.00676v1
cs.CV, cs.LG
2025-09-05
Авторы:
Xiyao Wang, Chunyuan Li, Jianwei Yang, Kai Zhang, Bo Liu, Tianyi Xiong, Furong Huang
Резюме на русском
## Контекст
Область визуально-языковых моделей (Vision-Language Models, VLM) широко применяется в задачах визуального понимания и решении интеллектуальных задач. Одним из ключевых элементов этих моделей являются критические модели (critic models), которые обычно используются для оценки и поддержания качества генерируемых ответов, а не для их генерации. Это разделение между критическими и политическими моделями (policy models) во многом стало привычкой, хотя оно ограничивает потенциал моделей. В данной работе мы выступаем за перемену этого подхода, предлагая переорганизовать критические данные с приоритетом предпочтений (preference-labeled critic datasets) в подходящий вид для тренировки, чтобы объединить возможность оценки и генерации в одной модели.
## Метод
Мы предлагаем реконструировать критические данные, используя процедуру рейтинга по приоритетам (preference-based ranking), чтобы обеспечить тренировку моделей с помощью реинфорсментного обучения (reinforcement learning, RL). Этот подход преобразует критические модели в полноценные политические модели, которые не только оценивают, но и генерируют ответы. Мы применяем этот подход к модели LLaVA-Critic-R1, которая является начальной моделью типа critic, но обучается с помощью RL для достижения качества политической модели. Этот процесс включает в себя использование данных, относящихся к определенной тематике, и тренировку модели для оптимизации приоритетов предпочтений.
## Результаты
Мы проводили эксперименты с LLaVA-Critic-R1 на 26 задачах визуального понимания и решения. Она показала себя как высококачественная критическая модель и, в то же время, как мощная политическая модель. Особенно заметна была ее способность повысить качество генерации ответов, набрав до 5.7% больше, чем базовая модель (Qwen-2.5-VL-7B). Мы также расширили этот подход, создав LLaVA-Critic-R1+, которая дает еще большее улучшение в политических моделях без потери качества критического анализа. На репрезентативной метрике MMMU она достигла рекордного результата 71.9 при работе на семи миллиардах параметров. Наконец, мы проверили, как самокритический анализ во время тестирования может улучшить результаты в пяти визуальных задачах, набрав до 13.8% improvements.
## Значимость
Наш подход открывает новые возможности для создания универсальных моделей, которые обладают как критическими, так и политическими способностями. Это значительно увеличивает скейлинг и самоподготовление моделей в области визуального понимания. Мы показываем, что модели, обученные с использованием наших методов, могут быть применены в различных задачах, включая логическое р vine-reasoning и визуальное понимание. Это делает нашу работу важной для развития самоо
Abstract
In vision-language modeling, critic models are typically trained to evaluate
outputs -- assigning scalar scores or pairwise preferences -- rather than to
generate responses. This separation from policy models, which produce the
responses, is so entrenched that critics are rarely considered for direct
policy use. In this work, we challenge this convention. We propose to
reorganize preference-labeled critic datasets into verifiable training signals
and perform reinforcement learning directly on a base generative model,
producing LLaVA-Critic-R1, a multimodal critic trained to optimize preference
judgments while retaining full generation ability. Surprisingly,
LLaVA-Critic-R1 emerges not only as a top-performing critic but also as a
competitive policy model -- matching or surpassing specialized reasoning VLMs
trained with in-domain data across 26 visual reasoning and understanding
benchmarks, with an average gain of +5.7% over its base model (Qwen-2.5-VL-7B).
Extending this approach to existing strong reasoning VLMs yields
LLaVA-Critic-R1+, which further advances policy performance without sacrificing
critic quality, achieving a SoTA performance of 71.9 on MMMU at the 7B scale.
Finally, we show that the enhanced critic ability benefits inference: applying
self-critique at test time yields an average +13.8% improvement on five
representative reasoning tasks without additional training. Our results reveal
that RL training on critic data can produce a unified model excelling at both
evaluation and generation, offering a simple path toward scalable,
self-improving multimodal systems.
Ссылки и действия
Дополнительные ресурсы: