TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding
2508.04369v2
cs.CV
2025-08-09
Авторы:
Canhui Tang, Zifan Han, Hongbo Sun, Sanping Zhou, Xuchong Zhang, Xin Wei, Ye Yuan, Jinglin Xu, Hao Sun
Резюме на русском
Многомодальные большие языковые модели (MLLMs) показали сильный потенциал в задачах видео-языкового понимания, но столкнулись с ограничениями при обработке длинных видео. Это обусловлено ограниченным контекстом моделей и высокими затратами на обучение, которые требуют процедур спарсинга кадров до их ввода в модели. Текущие подходы к спарсингу, такие как прерывистый ключевой кадр или несвязанное добавление кадров, часто пропускают критичные моменты или ограничиваются возможностями предобученных моделей. В статье предлагается Temporal Sampling Policy Optimization (TSPO) — метод оптимизации спарсинга с помощью reinforcement learning. TSPO включает в себя тренируемый event-aware agent, который выбирает кадры с учетом корреляции событий. TSPO оптимизирует процесс выбора и генерации языка в единой структуре, используя эффективные механизмы награды. Также разработана конструкция данных для обучения с помощью выбора ключевых моментов в длинных видео. Эксперименты показали, что TSPO улучшает показатели по нескольким бенчмаркам в задаче длинноформа видео-понимания и доказывает трансферную способность работы с различными Video-MLLMs. Результаты доступны на GitHub.
Abstract
Multimodal Large Language Models (MLLMs) have demonstrated significant
progress in vision-language tasks, yet they still face challenges when
processing long-duration video inputs. The limitation arises from MLLMs'
context limit and training costs, necessitating sparse frame sampling before
feeding videos into MLLMs. Existing video MLLMs adopt training-free uniform
sampling or keyframe search, which may miss critical events or be constrained
by the pre-trained models' event understanding capabilities. Meanwhile,
building a training-based method remains challenging due to the unsupervised
and non-differentiable nature of sparse frame sampling. To address these
problems, we propose Temporal Sampling Policy Optimization (TSPO), advancing
MLLMs' long-form video-language understanding via reinforcement learning.
Specifically, we first propose a trainable event-aware temporal agent, which
captures event-query correlation for performing probabilistic keyframe
selection. Then, we propose the TSPO reinforcement learning paradigm, which
models keyframe selection and language generation as a joint decision-making
process, enabling end-to-end group relative optimization with efficient
rule-based rewards. Furthermore, for the TSPO's training, we propose a long
video training data construction pipeline with comprehensive temporal data and
video Needle-in-a-Haystack data. Finally, we incorporate rule-based answering
accuracy and temporal locating reward mechanisms to optimize the temporal
sampling policy. Comprehensive experiments show that our TSPO achieves
state-of-the-art performance across multiple long video understanding
benchmarks, and shows transferable ability across different cutting-edge
Video-MLLMs. Our code is available at https://github.com/Hui-design/TSPO
Ссылки и действия
Дополнительные ресурсы: