VideoJudge: Bootstrapping Enables Scalable Supervision of MLLM-as-a-Judge for Video Understanding

2509.21451v1 cs.CV, cs.CL 2025-09-30
Авторы:

Abdul Waheed, Zhen Wu, Dareen Alharthi, Seungone Kim, Bhiksha Raj

Резюме на русском

## Контекст Оценка качества видео понимания по-прежнему представляет серьезные трудности. Обычно используются метрики, такие как BLEU, ROUGE и BERTScore, но они не могут точно отразить тонкости человеческого суждения. Обзорные ручные оценки, хотя и являются достоверными, требуют больших затрат времени и ресурсов. Недавние исследования затрагивали возможность использования больших языковых моделей (LLMs) или многомодальных языковых моделей (MLLMs) для автоматизации этой задачи. Однако их применение к видеопониманию еще относительно не исследовано. Мы предлагаем VideoJudge, 3B и 7B-размерные MLLM-модели, оптимизированные для оценки выводов моделей видеопонимания в виде текстовых ответов, ориентированных на видео. Мы предлагаем новую подходящую методологию для обучения VideoJudge, которая использует взаимодействие между генератором и оценщиком, чтобы обеспечить точные и целесообразные результаты. ## Метод Мы разработали VideoJudge на основе метода обучения с подкреплением. Наша модель подразделяется на две части: генератор, который генерирует ответы на видео, и оценщик, который использует многомодальную модель (MLLM) для точной оценки этих ответов. Ответы, которые не соответствуют целевому рейтингу, отбрасываются. Мы использовали 3B и 7B-параметры для VideoJudge, чтобы достичь баланса между точностью и эффективностью. Для обучения мы использовали широкий набор видеозадач, включая видео-детектирование, видео-качество и видео-понимание. Оценка модели производилась на нескольких метриках, включая BLEU, ROUGE и BERTScore, а также на пользовательской оценке качества. ## Результаты Мы провести многочисленные эксперименты, сравнивая VideoJudge с другими MLLM-моделями, такими как Qwen2.5-VL. Мы проверяли модель на трех мета-оценочных бенчмарках в области видеопонимания. VideoJudge-7B показал значительные преимущества по сравнению с более крупными моделями, такими как Qwen2.5-VL (32B и 72B). Мы также обнаружили, что цепочки мыслей при рандомизированном обучении не дают дополнительного выигрыша, что подтверждает значимость ввода видео как ключевого фактора для точной оценки моделей видеопонимания. ## Значимость Мы видим широкие области применения VideoJudge в сфере видеопонимания, таких как видео-детектирование, видео-описание и видео-классификация. Модель имеет потенциал для создания эффективных и точных систем, которые могут точно оценивать выводы моделей видеопонимания без ручного вмешательства. Это предлагает значительные преимущества в скорости и стоимости процесса оценки. Мы также отмечаем, что наш подход может быть рас

Abstract

Precisely evaluating video understanding models remains challenging: commonly used metrics such as BLEU, ROUGE, and BERTScore fail to capture the fineness of human judgment, while obtaining such judgments through manual evaluation is costly. Recent work has explored using large language models (LLMs) or multimodal LLMs (MLLMs) as evaluators, but their extension to video understanding remains relatively unexplored. In this work, we introduce VideoJudge, a 3B and 7B-sized MLLM judge specialized to evaluate outputs from video understanding models (\textit{i.e.}, text responses conditioned on videos). To train VideoJudge, our recipe builds on the interplay between a generator and an evaluator: the generator is prompted to produce responses conditioned on a target rating, and responses not matching the evaluator's rating are discarded. Across three out of four meta-evaluation benchmarks, VideoJudge-7B outperforms larger MLLM judge baselines such as Qwen2.5-VL (32B and 72B). Notably, we find that LLM judges (Qwen3) models perform worse than MLLM judges (Qwen2.5-VL) and long chain-of-thought reasoning does not improve performance, indicating that providing video inputs is crucial for evaluation of video understanding tasks.

Ссылки и действия