TAR-TVG: Enhancing VLMs with Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding

2508.07683v1 cs.CV, cs.AI 2025-08-13
Авторы:

Chaohong Guo, Xun Mo, Yongwei Nie, Xuemiao Xu, Chao Xu, Fei Yu, Chengjiang Long

Резюме на русском

## Контекст Temporal Video Grounding (TVG) — это критическая задача в области понимания длительных видео, которая предполагает точное определение видео-сегментов, соответствующих натуральным языковым запросам. Несмотря на то, что существующие подходы, основанные на различных моделях, показывают достижения в этой области, они либо не достаточно эффективны, либо не обеспечивают достаточную точность результатов. Это вызвано тем, что причинительные модели часто пропускают важные этапы рассуждений, что приводит к неточностям в темпоральных предсказаниях. Мотивация для данного исследования заключается в развитии более точной модели TVG, которая бы оптимально решала эту проблему. ## Метод Для решения этой проблемы мы предлагаем фреймворк TAR-TVG (Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding). Методология состоит в введении timestamp anchors (тайм-стамп-заместителей) в процесс рассуждений, чтобы обеспечить дополнительный механизм контроля качества. Эти заместители функционируют как интермедиарии в процессе вывода, принуждая модель выполнять последовательные шаги рассуждений, которые приводят к все более точным темпоральным оценкам. Для повышения эффективности, мы предлагаем трехэтапную стратегию обучения: начальное генеративно-распространяющее обучение (GRPO) для создания высококачественных трасс рассуждений, супервизированное оптимизационное тренирование (SFT) на сгенерированных данных, и, наконец, дополнительное генеративно-распространяющее обучение на улучшенной модели. ## Результаты В ходе экспериментов мы проверили TAR-TVG на различных датасетах, таких как ActivityNet Captions и Charades-STA. Наши результаты показывают, что TAR-TVG не только превышает текущие лидеры по точности результатов, но и обеспечивает интерпретируемые, выверяемые логические цепочки рассуждений. Мы также провели анализ того, как различные компоненты фреймворка влияют на качество результатов, включая вклад каждого из этапов обучения. ## Значимость Заключается в том, что TAR-TVG может быть применено в различных сценариях, включая автоматический текстовый описательный анализ видео, мониторинг видео-трансляций, и поиск информации в видео. Этот подход не только улучшает точность, но и обеспечивает прозрачность и возможность верификации работы модели, что является критическим для применения в реальных ситуациях. ## Выводы Мы предложили новую модель TVG, которая включает timestamp anchors в процесс рассуждений. Это позволяет повысить точность и обеспечить возможность проверки работы модели. Таким образом, TAR-TVG обеспечивает новый шаг в развитии методологий для точного темпорального видео-разминки. В дальнейшем мы планируем расширить мо

Abstract

Temporal Video Grounding (TVG) aims to precisely localize video segments corresponding to natural language queries, which is a critical capability for long-form video understanding. Although existing reinforcement learning approaches encourage models to generate reasoning chains before predictions, they fail to explicitly constrain the reasoning process to ensure the quality of the final temporal predictions. To address this limitation, we propose Timestamp Anchor-constrained Reasoning for Temporal Video Grounding (TAR-TVG), a novel framework that introduces timestamp anchors within the reasoning process to enforce explicit supervision to the thought content. These anchors serve as intermediate verification points. More importantly, we require each reasoning step to produce increasingly accurate temporal estimations, thereby ensuring that the reasoning process contributes meaningfully to the final prediction. To address the challenge of low-probability anchor generation in models (e.g., Qwen2.5-VL-3B), we develop an efficient self-distillation training strategy: (1) initial GRPO training to collect 30K high-quality reasoning traces containing multiple timestamp anchors, (2) supervised fine-tuning (SFT) on distilled data, and (3) final GRPO optimization on the SFT-enhanced model. This three-stage training strategy enables robust anchor generation while maintaining reasoning quality. Experiments show that our model achieves state-of-the-art performance while producing interpretable, verifiable reasoning chains with progressively refined temporal estimations.

Ссылки и действия