Invert4TVG: A Temporal Video Grounding Framework with Inversion Tasks for Enhanced Action Understanding
2508.07388v1
cs.AI
2025-08-13
Авторы:
Zhaoyu Chen, Hongnan Lin, Yongwei Nie, Fei Ma, Xuemiao Xu, Fei Yu, Chengjiang Long
Резюме на русском
#### Контекст
В области интеллектуальных систем существует значительный интерес к задаче Temporal Video Grounding (TVG) — определению временных интервалов в видео, соответствующих текстовому запросу. Развитие этой области возникло в связи с ростом интереса к анализу видеоконтента, включая такие задачи, как активность, действия и умный поиск видео. Однако существующие методы TVG часто стремятся оптимизировать только метрики локализации, такие как Intersection-over-Union (IoU), что приводит к перенастройке моделей на метрики, но не на понимание семантики. Такое ограничение нарушает глубокое понимание видео и запроса, что является критическим для устойчивого и эффективного решения TVG. Данная работа нацелена на решение этой проблемы, обеспечивая более сбалансированный подход к локализации и семантическому пониманию.
#### Метод
Для решения вышеуказанной проблемы предложен фреймворк **Invert4TVG**, который использует **три ключевых инверсионных задачи**:
1. **Verb Completion**: Определение отсутствующих или замаскированных глаголов в текстовом запросе с использованием видео-сегментов.
2. **Action Recognition**: Задача распознавания действий, описанных в запросе, в видео.
3. **Video Description**: Создание текстовых описаний сегментов видео, которые эксплицитно включают ключевые действия, относящиеся к запросу.
Инверсионные задачи интегрируются в фреймворк через **реформулированный фреймворк оптимизации через реинфорсмент (Reinforcement Learning, RL)**, в котором добываются реверсивные сигналы для балансировки улучшения локализации и семантического понимания. Это позволяет в рамках одного фреймворка повысить качество двух ключевых аспектов TVG — локализации и понимания смысла.
#### Результаты
Результаты экспериментов проводились на двух известных датасетах: Charades-STA и ActivityNet Captions. Модель Invert4TVG показала существенный прирост в метрике [email protected] на Charades-STA, достигая **7.1%** улучшения по сравнению с Time-R1. Это достигается благодаря узкой интеграции инверсионных задач в главную задачу TVG, которая позволяет не только улучшить локализацию, но и повысить понимание видео с точки зрения семантического контента. Этот подход позволяет улучшить производительность без дополнительных данных и позволяет системе более точно привязывать видео-сегмент к текстовому запросу.
#### Значимость
**Приложения** нового подхода могут быть использованы в различных областях, таких как умный поиск, рекомендации видео, системы умнычгого дома и обработка видео-контента в реальном времени. Новизгой нового подхода является способность одновременно улучшить две ключевые задачи — локализацию и семантическое понимание, что увели
Abstract
Temporal Video Grounding (TVG) seeks to localize video segments matching a
given textual query. Current methods, while optimizing for high temporal
Intersection-over-Union (IoU), often overfit to this metric, compromising
semantic action understanding in the video and query, a critical factor for
robust TVG. To address this, we introduce Inversion Tasks for TVG (Invert4TVG),
a novel framework that enhances both localization accuracy and action
understanding without additional data. Our approach leverages three inversion
tasks derived from existing TVG annotations: (1) Verb Completion, predicting
masked action verbs in queries from video segments; (2) Action Recognition,
identifying query-described actions; and (3) Video Description, generating
descriptions of video segments that explicitly embed query-relevant actions.
These tasks, integrated with TVG via a reinforcement learning framework with
well-designed reward functions, ensure balanced optimization of localization
and semantics. Experiments show our method outperforms state-of-the-art
approaches, achieving a 7.1\% improvement in [email protected] on Charades-STA for a 3B
model compared to Time-R1. By inverting TVG to derive query-related actions
from segments, our approach strengthens semantic understanding, significantly
raising the ceiling of localization accuracy.
Ссылки и действия
Дополнительные ресурсы: