MovieCORE: COgnitive REasoning in Movies

2508.19026v1 cs.CL, cs.AI, cs.CV 2025-08-28

Авторы:

Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu

Резюме на русском

#### Контекст В последние годы видеозапросы к ответам (Video Question Answering, VQA) стали важной областью исследований в рамках глубокого понимания видеоматериалов. Однако большинство существующих VQA-датасеты сфокусированы на понимании видео на поверхностном уровне, не доставляя достаточного вызова для глубоких когнитивных систем. Это проблема возникает из-за отсутствия вопросов, требующих глубокого системного (System-2) мышления, что характерно для людей при оценке и понимании контента видео. Для решения этой проблемы предлагается MovieCORE — новый VQA-датасет, который решает эту проблему, создавая вопросы, которые не только требуют активного участия System-2, но и ориентированы на конкретный контент видео. #### Метод MovieCORE был создан с использованием инновационного подхода, основанного на мульти-LLM brainstorming. Мы использовали несколько бо LLM в качестве "мыслительных агентов", чтобы сгенерировать и уточнить качественные вопросы и ответы. Этот подход позволил нам создавать вопросы, которые не только требуют глубокого понимания контекста, но и поднимают сложные вопросы для анализа. Для оценки качества датасета мы разработали ряд тестов, оценивающих глубину мышления, синтаксическую сложность и потенциал пробуждения вопросов. Также мы представили Agentic Choice Enhancement (ACE) — модуль, который улучшает модели видео-языковых моделей (VLMs), позволяя им лучше принимать решения и улучшать рассуждения в 25%. #### Результаты Мы провели эксперименты, используя MovieCORE для оценки уровней глубины мышления, потенциала вызова и синтаксической сложности вопросов. Данные эксперименты показали, что наши вопросы не только требуют глубокого понимания контекста, но и могут вызывать сложные рассуждения. Мы также проверили различные модели VQA на нашем датасете и получили результаты, показывающие, что даже самые продвинутые модели находятся в трудностях при работе с более сложными вопросами. Это подтверждает необходимость дальнейшего исследования для улучшения моделей VQA. #### Значимость MovieCORE может быть применен в различных областях, включая развитие интеллектуальных систем для анализа видео, создание более глубокого понимания контента, использование в области обучения и развлечений. Этот датасет дает возможность развивать модели, которые не только понимают видео, но и способны думать на более сложном уровне, что является ключевым аспектом в развитии AI. Благодаря ACE модулю, мы улучшили модели VQA, увеличив их рассуждения на 25%. #### Выводы MovieCORE представляет собой новую модель для VQA, которая расширяет границы глубокого понимания видеоматериалов. Этот датасет позволяет провери

Abstract

This paper introduces MovieCORE, a novel video question answering (VQA) dataset designed to probe deeper cognitive understanding of movie content. Unlike existing datasets that focus on surface-level comprehension, MovieCORE emphasizes questions that engage System-2 thinking while remaining specific to the video material. We present an innovative agentic brainstorming approach, utilizing multiple large language models (LLMs) as thought agents to generate and refine high-quality question-answer pairs. To evaluate dataset quality, we develop a set of cognitive tests assessing depth, thought-provocation potential, and syntactic complexity. We also propose a comprehensive evaluation scheme for assessing VQA model performance on deeper cognitive tasks. To address the limitations of existing video-language models (VLMs), we introduce an agentic enhancement module, Agentic Choice Enhancement (ACE), which improves model reasoning capabilities post-training by up to 25%. Our work contributes to advancing movie understanding in AI systems and provides valuable insights into the capabilities and limitations of current VQA models when faced with more challenging, nuanced questions about cinematic content. Our project page, dataset and code can be found at https://joslefaure.github.io/assets/html/moviecore.html.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MovieCORE: COgnitive REasoning in Movies

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Jina-VLM: Small Multilingual Vision Language Model

Jina-VLM: Small Multilingual Vision Language Model

Lost in Translation and Noise: A Deep Dive into the Failure Modes of VLMs on Rea...

SMILE: A Composite Lexical-Semantic Metric for Question-Answering Evaluation

Multimodal Evaluation of Russian-language Architectures

Навигация