Hierarchical Event Memory for Accurate and Low-latency Online Video Temporal Grounding
2508.04546v1
cs.CV
2025-08-09
Авторы:
Minghang Zheng, Yuxin Peng, Benyuan Sun, Yi Yang, Yang Liu
Резюме на русском
Задача онлайн-видео-темпорального граундинга (OnVTG) предполагает точное и быстрое определение событий, связанных с текстовым запросом, в непрерывном видеопотоке, при этом ограничиваясь только прошедшими кадрами. Традиционные подходы сталкиваются с проблемами неэффективной моделирования событий и нехваткой долгосрочной информации, что приводит к уменьшению точности и скорости работы. В статье предлагается новый подход, основанный на использовании иерархической памяти событий (Hierarchical Event Memory), которая позволяет сохранять информацию о событиях различной продолжительности. Также вводится веточка прогноза будущих событий, позволяющая предсказать возможность их возникновения в ближайшем будущем и точнее определять их начало. Это решение позволило достичь новых рекордных результатов на таких датасетах, как TACoS, ActivityNet Captions и MAD. Исходный код доступен по ссылке: https://github.com/minghangz/OnVTG.
Abstract
In this paper, we tackle the task of online video temporal grounding (OnVTG),
which requires the model to locate events related to a given text query within
a video stream. Unlike regular video temporal grounding, OnVTG requires the
model to make predictions without observing future frames. As online videos are
streaming inputs and can go on indefinitely, it is impractical and inefficient
to store all historical inputs. The existing OnVTG models employ memory to
store recent historical video frame features and predict scores indicating
whether the current frame corresponds to the start or end time of the target
event. However, these methods lack effective event modeling and cannot retain
long-term historical information, leading to low performance. To tackle these
challenges, we propose a hierarchical event memory for OnVTG. We propose an
event-based OnVTG framework that makes predictions based on event proposals
that model event-level information with various durations. To preserve
historically valuable event information, we introduce a hierarchical event
memory that retains historical events, allowing the model to access both recent
and long-term information. To enable the real-time prediction, we further
propose a future prediction branch that predicts whether the target event will
occur shortly and further regresses the start time of the event. We achieve
state-of-the-art performance on the TACoS, ActivityNet Captions, and MAD
datasets. Code is available at https://github.com/minghangz/OnVTG.
Ссылки и действия
Дополнительные ресурсы: