TAR-TVG: Enhancing VLMs with Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding
2508.07683v1
cs.CV, cs.AI
2025-08-13
Авторы:
Chaohong Guo, Xun Mo, Yongwei Nie, Xuemiao Xu, Chao Xu, Fei Yu, Chengjiang Long
Резюме на русском
## Контекст
Temporal Video Grounding (TVG) — это критическая задача в области понимания длительных видео, которая предполагает точное определение видео-сегментов, соответствующих натуральным языковым запросам. Несмотря на то, что существующие подходы, основанные на различных моделях, показывают достижения в этой области, они либо не достаточно эффективны, либо не обеспечивают достаточную точность результатов. Это вызвано тем, что причинительные модели часто пропускают важные этапы рассуждений, что приводит к неточностям в темпоральных предсказаниях. Мотивация для данного исследования заключается в развитии более точной модели TVG, которая бы оптимально решала эту проблему.
## Метод
Для решения этой проблемы мы предлагаем фреймворк TAR-TVG (Timestamp Anchor-Constrained Reasoning for Temporal Video Grounding). Методология состоит в введении timestamp anchors (тайм-стамп-заместителей) в процесс рассуждений, чтобы обеспечить дополнительный механизм контроля качества. Эти заместители функционируют как интермедиарии в процессе вывода, принуждая модель выполнять последовательные шаги рассуждений, которые приводят к все более точным темпоральным оценкам. Для повышения эффективности, мы предлагаем трехэтапную стратегию обучения: начальное генеративно-распространяющее обучение (GRPO) для создания высококачественных трасс рассуждений, супервизированное оптимизационное тренирование (SFT) на сгенерированных данных, и, наконец, дополнительное генеративно-распространяющее обучение на улучшенной модели.
## Результаты
В ходе экспериментов мы проверили TAR-TVG на различных датасетах, таких как ActivityNet Captions и Charades-STA. Наши результаты показывают, что TAR-TVG не только превышает текущие лидеры по точности результатов, но и обеспечивает интерпретируемые, выверяемые логические цепочки рассуждений. Мы также провели анализ того, как различные компоненты фреймворка влияют на качество результатов, включая вклад каждого из этапов обучения.
## Значимость
Заключается в том, что TAR-TVG может быть применено в различных сценариях, включая автоматический текстовый описательный анализ видео, мониторинг видео-трансляций, и поиск информации в видео. Этот подход не только улучшает точность, но и обеспечивает прозрачность и возможность верификации работы модели, что является критическим для применения в реальных ситуациях.
## Выводы
Мы предложили новую модель TVG, которая включает timestamp anchors в процесс рассуждений. Это позволяет повысить точность и обеспечить возможность проверки работы модели. Таким образом, TAR-TVG обеспечивает новый шаг в развитии методологий для точного темпорального видео-разминки. В дальнейшем мы планируем расширить мо
Abstract
Temporal Video Grounding (TVG) aims to precisely localize video segments
corresponding to natural language queries, which is a critical capability for
long-form video understanding. Although existing reinforcement learning
approaches encourage models to generate reasoning chains before predictions,
they fail to explicitly constrain the reasoning process to ensure the quality
of the final temporal predictions. To address this limitation, we propose
Timestamp Anchor-constrained Reasoning for Temporal Video Grounding (TAR-TVG),
a novel framework that introduces timestamp anchors within the reasoning
process to enforce explicit supervision to the thought content. These anchors
serve as intermediate verification points. More importantly, we require each
reasoning step to produce increasingly accurate temporal estimations, thereby
ensuring that the reasoning process contributes meaningfully to the final
prediction. To address the challenge of low-probability anchor generation in
models (e.g., Qwen2.5-VL-3B), we develop an efficient self-distillation
training strategy: (1) initial GRPO training to collect 30K high-quality
reasoning traces containing multiple timestamp anchors, (2) supervised
fine-tuning (SFT) on distilled data, and (3) final GRPO optimization on the
SFT-enhanced model. This three-stage training strategy enables robust anchor
generation while maintaining reasoning quality. Experiments show that our model
achieves state-of-the-art performance while producing interpretable, verifiable
reasoning chains with progressively refined temporal estimations.
Ссылки и действия
Дополнительные ресурсы: