VideoJudge: Bootstrapping Enables Scalable Supervision of MLLM-as-a-Judge for Video Understanding
2509.21451v1
cs.CV, cs.CL
2025-09-30
Авторы:
Abdul Waheed, Zhen Wu, Dareen Alharthi, Seungone Kim, Bhiksha Raj
Резюме на русском
## Контекст
Оценка качества видео понимания по-прежнему представляет серьезные трудности. Обычно используются метрики, такие как BLEU, ROUGE и BERTScore, но они не могут точно отразить тонкости человеческого суждения. Обзорные ручные оценки, хотя и являются достоверными, требуют больших затрат времени и ресурсов. Недавние исследования затрагивали возможность использования больших языковых моделей (LLMs) или многомодальных языковых моделей (MLLMs) для автоматизации этой задачи. Однако их применение к видеопониманию еще относительно не исследовано. Мы предлагаем VideoJudge, 3B и 7B-размерные MLLM-модели, оптимизированные для оценки выводов моделей видеопонимания в виде текстовых ответов, ориентированных на видео. Мы предлагаем новую подходящую методологию для обучения VideoJudge, которая использует взаимодействие между генератором и оценщиком, чтобы обеспечить точные и целесообразные результаты.
## Метод
Мы разработали VideoJudge на основе метода обучения с подкреплением. Наша модель подразделяется на две части: генератор, который генерирует ответы на видео, и оценщик, который использует многомодальную модель (MLLM) для точной оценки этих ответов. Ответы, которые не соответствуют целевому рейтингу, отбрасываются. Мы использовали 3B и 7B-параметры для VideoJudge, чтобы достичь баланса между точностью и эффективностью. Для обучения мы использовали широкий набор видеозадач, включая видео-детектирование, видео-качество и видео-понимание. Оценка модели производилась на нескольких метриках, включая BLEU, ROUGE и BERTScore, а также на пользовательской оценке качества.
## Результаты
Мы провести многочисленные эксперименты, сравнивая VideoJudge с другими MLLM-моделями, такими как Qwen2.5-VL. Мы проверяли модель на трех мета-оценочных бенчмарках в области видеопонимания. VideoJudge-7B показал значительные преимущества по сравнению с более крупными моделями, такими как Qwen2.5-VL (32B и 72B). Мы также обнаружили, что цепочки мыслей при рандомизированном обучении не дают дополнительного выигрыша, что подтверждает значимость ввода видео как ключевого фактора для точной оценки моделей видеопонимания.
## Значимость
Мы видим широкие области применения VideoJudge в сфере видеопонимания, таких как видео-детектирование, видео-описание и видео-классификация. Модель имеет потенциал для создания эффективных и точных систем, которые могут точно оценивать выводы моделей видеопонимания без ручного вмешательства. Это предлагает значительные преимущества в скорости и стоимости процесса оценки. Мы также отмечаем, что наш подход может быть рас
Abstract
Precisely evaluating video understanding models remains challenging: commonly
used metrics such as BLEU, ROUGE, and BERTScore fail to capture the fineness of
human judgment, while obtaining such judgments through manual evaluation is
costly. Recent work has explored using large language models (LLMs) or
multimodal LLMs (MLLMs) as evaluators, but their extension to video
understanding remains relatively unexplored. In this work, we introduce
VideoJudge, a 3B and 7B-sized MLLM judge specialized to evaluate outputs from
video understanding models (\textit{i.e.}, text responses conditioned on
videos). To train VideoJudge, our recipe builds on the interplay between a
generator and an evaluator: the generator is prompted to produce responses
conditioned on a target rating, and responses not matching the evaluator's
rating are discarded. Across three out of four meta-evaluation benchmarks,
VideoJudge-7B outperforms larger MLLM judge baselines such as Qwen2.5-VL (32B
and 72B). Notably, we find that LLM judges (Qwen3) models perform worse than
MLLM judges (Qwen2.5-VL) and long chain-of-thought reasoning does not improve
performance, indicating that providing video inputs is crucial for evaluation
of video understanding tasks.
Ссылки и действия
Дополнительные ресурсы: