Invert4TVG: A Temporal Video Grounding Framework with Inversion Tasks for Enhanced Action Understanding

2508.07388v1 cs.AI 2025-08-13
Авторы:

Zhaoyu Chen, Hongnan Lin, Yongwei Nie, Fei Ma, Xuemiao Xu, Fei Yu, Chengjiang Long

Резюме на русском

#### Контекст В области интеллектуальных систем существует значительный интерес к задаче Temporal Video Grounding (TVG) — определению временных интервалов в видео, соответствующих текстовому запросу. Развитие этой области возникло в связи с ростом интереса к анализу видеоконтента, включая такие задачи, как активность, действия и умный поиск видео. Однако существующие методы TVG часто стремятся оптимизировать только метрики локализации, такие как Intersection-over-Union (IoU), что приводит к перенастройке моделей на метрики, но не на понимание семантики. Такое ограничение нарушает глубокое понимание видео и запроса, что является критическим для устойчивого и эффективного решения TVG. Данная работа нацелена на решение этой проблемы, обеспечивая более сбалансированный подход к локализации и семантическому пониманию. #### Метод Для решения вышеуказанной проблемы предложен фреймворк **Invert4TVG**, который использует **три ключевых инверсионных задачи**: 1. **Verb Completion**: Определение отсутствующих или замаскированных глаголов в текстовом запросе с использованием видео-сегментов. 2. **Action Recognition**: Задача распознавания действий, описанных в запросе, в видео. 3. **Video Description**: Создание текстовых описаний сегментов видео, которые эксплицитно включают ключевые действия, относящиеся к запросу. Инверсионные задачи интегрируются в фреймворк через **реформулированный фреймворк оптимизации через реинфорсмент (Reinforcement Learning, RL)**, в котором добываются реверсивные сигналы для балансировки улучшения локализации и семантического понимания. Это позволяет в рамках одного фреймворка повысить качество двух ключевых аспектов TVG — локализации и понимания смысла. #### Результаты Результаты экспериментов проводились на двух известных датасетах: Charades-STA и ActivityNet Captions. Модель Invert4TVG показала существенный прирост в метрике [email protected] на Charades-STA, достигая **7.1%** улучшения по сравнению с Time-R1. Это достигается благодаря узкой интеграции инверсионных задач в главную задачу TVG, которая позволяет не только улучшить локализацию, но и повысить понимание видео с точки зрения семантического контента. Этот подход позволяет улучшить производительность без дополнительных данных и позволяет системе более точно привязывать видео-сегмент к текстовому запросу. #### Значимость **Приложения** нового подхода могут быть использованы в различных областях, таких как умный поиск, рекомендации видео, системы умнычгого дома и обработка видео-контента в реальном времени. Новизгой нового подхода является способность одновременно улучшить две ключевые задачи — локализацию и семантическое понимание, что увели

Abstract

Temporal Video Grounding (TVG) seeks to localize video segments matching a given textual query. Current methods, while optimizing for high temporal Intersection-over-Union (IoU), often overfit to this metric, compromising semantic action understanding in the video and query, a critical factor for robust TVG. To address this, we introduce Inversion Tasks for TVG (Invert4TVG), a novel framework that enhances both localization accuracy and action understanding without additional data. Our approach leverages three inversion tasks derived from existing TVG annotations: (1) Verb Completion, predicting masked action verbs in queries from video segments; (2) Action Recognition, identifying query-described actions; and (3) Video Description, generating descriptions of video segments that explicitly embed query-relevant actions. These tasks, integrated with TVG via a reinforcement learning framework with well-designed reward functions, ensure balanced optimization of localization and semantics. Experiments show our method outperforms state-of-the-art approaches, achieving a 7.1\% improvement in [email protected] on Charades-STA for a 3B model compared to Time-R1. By inverting TVG to derive query-related actions from segments, our approach strengthens semantic understanding, significantly raising the ceiling of localization accuracy.

Ссылки и действия