Cinéaste: A Fine-grained Contextual Movie Question Answering Benchmark
2509.14227v1
cs.CV, I.2.10; I.2.7
2025-09-19
Авторы:
Nisarg A. Shah, Amir Ziai, Chaitanya Ekanadham, Vishal M. Patel
Резюме на русском
## Контекст
Область исследования затрагивает развитие моделей визуального понимания и их применение в контекстной работе с видео. Несмотря на успехи в области визуально-языковых моделей, оценка их умения решать задачи, требующие глубокого контекстного понимания, остается затруднительной. Существующие бенчмарки часто ограничиваются краткими клипами или вопросами шаблонного характера, не подходящими для оценки работы моделей в более технически сложных сценариях, таких как работа с длительным хронологическим контентом. Рассматриваемая работа стремится заполнить этот пробел, предлагая Cinéaste — бенчмарк, ориентированный на глубокое контекстное обоснование для длительных видео.
## Метод
Cinéaste использует 3,119 множественно-выборочных вопросов-ответов, построенных на 1,805 сценах из 200 разных фильмов. Для генерации вопросов используется GPT-4o, который интегрирует визуальные описания, капшны, названия сцен и сводки фильмов. Для фильтрации вопросов введены два этапа: Context-Independence Filtering, гарантирующий, что вопросы требуют контекста видео, и Contextual Veracity Filtering, проверяющий корректность ответов в свете конкретного контента фильма. Это позволяет создавать более глубокие и сложные вопросы, принуждая модели визуального понимания построить логические выводы, базируясь на длительном контексте.
## Результаты
На платформе Cinéaste, обученные модели столкнулись с сильными ограничениями в достижении высокой точности. Открытые модели, к примеру, демонстрируют только 63.15% точности, что говорит о сложности задачи. Эксперименты показали, что сложность заключается в том, что модели столкнулись с трудностями в логическом рассуждении по длительному видеоконтенту. Это отражает потребность в развитии моделей, способных выполнять глубокое контекстное разумение в терминах длительных видео.
## Значимость
Cinéaste представляет собой значительный вклад в область контекстного понимания видео. Его применение может быть распространено в задачах, требующих высокого уровня контекстного взаимодействия, таких как анализ контента видео, создание новых тестовых средств и дальнейшее развитие моделей для работы с длительными видео. Работа позволяет увидеть значительный потенциал в развитии новых подходов, которые могут продвинуть границы технического понимания видеоконтента.
## Выводы
Результаты экспериментов подтвердили сложность задачи контекстного понимания в длительных видео. Ограничения моделей в логическом рассуждении становятся основным барьером для достижения высокой точности. Будущие исследования будут сосредоточены на разви
Abstract
While recent advancements in vision-language models have improved video
understanding, diagnosing their capacity for deep, narrative comprehension
remains a challenge. Existing benchmarks often test short-clip recognition or
use template-based questions, leaving a critical gap in evaluating fine-grained
reasoning over long-form narrative content. To address these gaps, we introduce
$\mathsf{Cin\acute{e}aste}$, a comprehensive benchmark for long-form movie
understanding. Our dataset comprises 3,119 multiple-choice question-answer
pairs derived from 1,805 scenes across 200 diverse movies, spanning five novel
fine-grained contextual reasoning categories. We use GPT-4o to generate
diverse, context-rich questions by integrating visual descriptions, captions,
scene titles, and summaries, which require deep narrative understanding. To
ensure high-quality evaluation, our pipeline incorporates a two-stage filtering
process: Context-Independence filtering ensures questions require video
context, while Contextual Veracity filtering validates factual consistency
against the movie content, mitigating hallucinations. Experiments show that
existing MLLMs struggle on $\mathsf{Cin\acute{e}aste}$; our analysis reveals
that long-range temporal reasoning is a primary bottleneck, with the top
open-source model achieving only 63.15\% accuracy. This underscores significant
challenges in fine-grained contextual understanding and the need for
advancements in long-form movie comprehension.
Ссылки и действия
Дополнительные ресурсы: