Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning

2508.04416v1 cs.CV 2025-08-09
Авторы:

Haoji Zhang, Xin Gu, Jiawen Li, Chixiang Ma, Sule Bai, Chubin Zhang, Bowen Zhang, Zhichao Zhou, Dongliang He, Yansong Tang

Резюме на русском

Задача видео-разумания, включающая вопрос-ответ и темпоральное определение, является ключевой для многих приложений, но сталкивается с проблемами, такими как ограниченные межмодальные взаимодействия и увеличение риска халлуцинаций при работе с длинными видео. Для решения этих задач предлагается **VITAL (Video Intelligence via Tool-Augmented Learning)** — система, основанная на agentic video reasoning. Она включает в себя визуальную ноутбук для точного выбора фреймов и мультимодальный chain-of-thought (CoT) для точного выполнения рассуждений. Для оптимизации модели были созданы два высококачественных мультизадачных датасета MTVR-CoT-72k и MTVR-RL-110k, а также разработан алгоритм DGRPO, который устраняет неравномерность сложности в мультизадачном reinforcement learning. Эксперименты показали, что VITAL превосходит существующие методы в задачах видео-разумания, особенно при работе с длинными видео. Результаты будут доступны всем.

Abstract

The video reasoning ability of multimodal large language models (MLLMs) is crucial for downstream tasks like video question answering and temporal grounding. While recent approaches have explored text-based chain-of-thought (CoT) reasoning for MLLMs, these methods often suffer from limited cross-modal interaction and increased hallucination, especially with longer videos or reasoning chains. To address these challenges, we propose Video Intelligence via Tool-Augmented Learning (VITAL), a novel end-to-end agentic video reasoning framework. With a visual toolbox, the model can densely sample new video frames on demand and generate multimodal CoT for precise long video reasoning. We observe that temporal grounding and question answering are mutually beneficial for video understanding tasks. Therefore, we construct two high-quality multi-task video reasoning datasets MTVR-CoT-72k for supervised fine-tuning and MTVR-RL-110k for reinforcement learning. Moreover, we propose a Difficulty-aware Group Relative Policy Optimization algorithm (DGRPO) to mitigate difficulty imbalance in multi-task reinforcement learning. Extensive experiments on 11 challenging video understanding benchmarks demonstrate the advanced reasoning ability of VITAL, outperforming existing methods in video question answering and temporal grounding tasks, especially in long video scenarios. All code, data and model weight will be made publicly available.

Ссылки и действия