Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning
2508.04416v1
cs.CV
2025-08-09
Авторы:
Haoji Zhang, Xin Gu, Jiawen Li, Chixiang Ma, Sule Bai, Chubin Zhang, Bowen Zhang, Zhichao Zhou, Dongliang He, Yansong Tang
Резюме на русском
Задача видео-разумания, включающая вопрос-ответ и темпоральное определение, является ключевой для многих приложений, но сталкивается с проблемами, такими как ограниченные межмодальные взаимодействия и увеличение риска халлуцинаций при работе с длинными видео. Для решения этих задач предлагается **VITAL (Video Intelligence via Tool-Augmented Learning)** — система, основанная на agentic video reasoning. Она включает в себя визуальную ноутбук для точного выбора фреймов и мультимодальный chain-of-thought (CoT) для точного выполнения рассуждений. Для оптимизации модели были созданы два высококачественных мультизадачных датасета MTVR-CoT-72k и MTVR-RL-110k, а также разработан алгоритм DGRPO, который устраняет неравномерность сложности в мультизадачном reinforcement learning. Эксперименты показали, что VITAL превосходит существующие методы в задачах видео-разумания, особенно при работе с длинными видео. Результаты будут доступны всем.
Abstract
The video reasoning ability of multimodal large language models (MLLMs) is
crucial for downstream tasks like video question answering and temporal
grounding. While recent approaches have explored text-based chain-of-thought
(CoT) reasoning for MLLMs, these methods often suffer from limited cross-modal
interaction and increased hallucination, especially with longer videos or
reasoning chains. To address these challenges, we propose Video Intelligence
via Tool-Augmented Learning (VITAL), a novel end-to-end agentic video reasoning
framework. With a visual toolbox, the model can densely sample new video frames
on demand and generate multimodal CoT for precise long video reasoning. We
observe that temporal grounding and question answering are mutually beneficial
for video understanding tasks. Therefore, we construct two high-quality
multi-task video reasoning datasets MTVR-CoT-72k for supervised fine-tuning and
MTVR-RL-110k for reinforcement learning. Moreover, we propose a
Difficulty-aware Group Relative Policy Optimization algorithm (DGRPO) to
mitigate difficulty imbalance in multi-task reinforcement learning. Extensive
experiments on 11 challenging video understanding benchmarks demonstrate the
advanced reasoning ability of VITAL, outperforming existing methods in video
question answering and temporal grounding tasks, especially in long video
scenarios. All code, data and model weight will be made publicly available.
Ссылки и действия
Дополнительные ресурсы: