Cinéaste: A Fine-grained Contextual Movie Question Answering Benchmark

2509.14227v1 cs.CV, I.2.10; I.2.7 2025-09-19
Авторы:

Nisarg A. Shah, Amir Ziai, Chaitanya Ekanadham, Vishal M. Patel

Резюме на русском

## Контекст Область исследования затрагивает развитие моделей визуального понимания и их применение в контекстной работе с видео. Несмотря на успехи в области визуально-языковых моделей, оценка их умения решать задачи, требующие глубокого контекстного понимания, остается затруднительной. Существующие бенчмарки часто ограничиваются краткими клипами или вопросами шаблонного характера, не подходящими для оценки работы моделей в более технически сложных сценариях, таких как работа с длительным хронологическим контентом. Рассматриваемая работа стремится заполнить этот пробел, предлагая Cinéaste — бенчмарк, ориентированный на глубокое контекстное обоснование для длительных видео. ## Метод Cinéaste использует 3,119 множественно-выборочных вопросов-ответов, построенных на 1,805 сценах из 200 разных фильмов. Для генерации вопросов используется GPT-4o, который интегрирует визуальные описания, капшны, названия сцен и сводки фильмов. Для фильтрации вопросов введены два этапа: Context-Independence Filtering, гарантирующий, что вопросы требуют контекста видео, и Contextual Veracity Filtering, проверяющий корректность ответов в свете конкретного контента фильма. Это позволяет создавать более глубокие и сложные вопросы, принуждая модели визуального понимания построить логические выводы, базируясь на длительном контексте. ## Результаты На платформе Cinéaste, обученные модели столкнулись с сильными ограничениями в достижении высокой точности. Открытые модели, к примеру, демонстрируют только 63.15% точности, что говорит о сложности задачи. Эксперименты показали, что сложность заключается в том, что модели столкнулись с трудностями в логическом рассуждении по длительному видеоконтенту. Это отражает потребность в развитии моделей, способных выполнять глубокое контекстное разумение в терминах длительных видео. ## Значимость Cinéaste представляет собой значительный вклад в область контекстного понимания видео. Его применение может быть распространено в задачах, требующих высокого уровня контекстного взаимодействия, таких как анализ контента видео, создание новых тестовых средств и дальнейшее развитие моделей для работы с длительными видео. Работа позволяет увидеть значительный потенциал в развитии новых подходов, которые могут продвинуть границы технического понимания видеоконтента. ## Выводы Результаты экспериментов подтвердили сложность задачи контекстного понимания в длительных видео. Ограничения моделей в логическом рассуждении становятся основным барьером для достижения высокой точности. Будущие исследования будут сосредоточены на разви

Abstract

While recent advancements in vision-language models have improved video understanding, diagnosing their capacity for deep, narrative comprehension remains a challenge. Existing benchmarks often test short-clip recognition or use template-based questions, leaving a critical gap in evaluating fine-grained reasoning over long-form narrative content. To address these gaps, we introduce $\mathsf{Cin\acute{e}aste}$, a comprehensive benchmark for long-form movie understanding. Our dataset comprises 3,119 multiple-choice question-answer pairs derived from 1,805 scenes across 200 diverse movies, spanning five novel fine-grained contextual reasoning categories. We use GPT-4o to generate diverse, context-rich questions by integrating visual descriptions, captions, scene titles, and summaries, which require deep narrative understanding. To ensure high-quality evaluation, our pipeline incorporates a two-stage filtering process: Context-Independence filtering ensures questions require video context, while Contextual Veracity filtering validates factual consistency against the movie content, mitigating hallucinations. Experiments show that existing MLLMs struggle on $\mathsf{Cin\acute{e}aste}$; our analysis reveals that long-range temporal reasoning is a primary bottleneck, with the top open-source model achieving only 63.15\% accuracy. This underscores significant challenges in fine-grained contextual understanding and the need for advancements in long-form movie comprehension.

Ссылки и действия