Advancing Reference-free Evaluation of Video Captions with Factual Analysis

2509.16538v1 cs.CV, cs.CL 2025-09-24

Авторы:

Shubhashis Roy Dipta, Tz-Ying Wu, Subarna Tripathi

Резюме на русском

#### Контекст Видео-капшены (video captions) представляют собой компактные снимки сюжета, описывающие актеров, объекты и действия в видео. Они широко используются в задачах, таких как вопрос-ответ и локализация событий. Несмотря на их полезность, получение качественных видео-капшенов через человеческую аннотацию является дорогостоящим и, в некоторых случаях, практически невозможным, особенно при работе с разнообразными видеодоменами. Существующие модели, обученные на супервизированных данных, часто сталкиваются с проблемами оценки качества в новых доменах из-за зависимости от протоколов референсной оценки, требующих доступа к истинным капшенам. Это предположение не оптимально для оценки качества капшенов в "нативных" (wild) условиях. Мы предлагаем референсно-свободную методологию оценки качества видео-капшенов, сконцентрированную на фактической точности, чтобы обеспечить более эффективную и независимую оценку. #### Метод Мы представляем VC-Inspector — новую систему оценки качества видео-капшенов, которая основывается на фактической точности и не требует доступа к референсным капшенам. Мы разработали процесс, включающий генерирование псевдо-капшенов разного качества с помощью бо LLM, которые затем используются для обучения многомодальной модели Qwen2.5-VL. Эта модель служит основой для нашего системного эксперта в оценке качества. Мы применяем аппарат сравнения, включающий множество критериев, таких как точность фактов, контекстная релевантность и адекватность языка, чтобы оценивать качество капшенов. Этот подход позволяет сравнивать видео-капшены с реальными сценариями, обеспечивая более объективные и точные оценки. #### Результаты Мы провели эксперименты на двух наборах данных: VATEX-Eval для видео-капшенов и Flickr8K-Expert/CF для изображений (представленных в виде одного кадра-видео). Наш подход показал значительное превосходство в точности и согласованности с человеческими оценками по сравнению с текущими методами. Мы также провели анализ широкого спектра факторов, включая фактическую точность, языковую структуру и соответствие контексту. Наши результаты демонстрируют высокую общинность и эффективность VC-Inspector в разных видеодоменах, что делает его привлекательным для различных задач в области машинного видения и NLP. #### Значимость Мы показали, что наш подход может применяться в различных областях, включая видео-капшены, описания изображений и даже текстовые задачи. Он предоставляет шкалу оценки качества, которая не требует дорогостоящих человеческих аннотаций. Это открывает путь к более

Abstract

Video captions offer concise snapshots of actors, objects, and actions within a video, serving as valuable assets for applications such as question answering and event localization. However, acquiring human annotations for video captions is costly or even impractical, especially when dealing with diverse video domains. Existing models trained on supervised datasets face challenges in evaluating performance across different domains due to the reliance on reference-based evaluation protocols, which necessitate ground truth captions. This assumption is unrealistic for evaluating videos in the wild. To address these limitations, we propose a reference-free evaluation framework that does not require ground truth captions, focusing on factual grounding to ensure accurate assessment of caption quality. We introduce VC-Inspector, a novel caption quality evaluator that is both reference-free and factually grounded. Utilizing large language models, we generate pseudo captions of varying quality based on supervised data, which are subsequently used to train a multimodal model (i.e., Qwen2.5-VL) as the evaluator. Our approach demonstrates superior alignment with human judgments on the VATEX-Eval dataset, outperforming existing methods. The performance also generalizes to image caption datasets, Flickr8K-Expert and Flickr8K-CF, when viewing images as 1-frame videos. Overall, VC-Inspector offers a scalable and generalizable solution for evaluating the factual accuracy of video captions, paving the way for more effective and objective assessment methodologies in diverse video domains.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Advancing Reference-free Evaluation of Video Captions with Factual Analysis

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация