Dense Video Understanding with Gated Residual Tokenization

2509.14199v2 cs.CV, cs.AI, cs.CL, cs.LG, 68T45, 68T07, 68T05, 68T10, 68T50, 68T09, 68U10, 68P20, 94A08, 94A34, 62H30, 62H35, I.2.10; I.2.6; I.2.7; I.5.1; I.5.2; I.5.3; I.5.4; I.4.8; I.4.9; I.4.2; H.3.1; H.3.3; H.3.4; H.5.1; H.5.2; H.2.8 2025-09-19
Авторы:

Haichao Zhang, Wenhao Chai, Shwai He, Ang Li, Yun Fu

Резюме на русском

## Контекст Область видеопонимания (video understanding) является ключевым направлением искусственного интеллекта, которое призвано извлекать значимые сведения из видеоданных. Улучшение этой области имеет решающее значение для приложений, таких как анализ видео, системы рекомендации, автоматическая система оповещения и анализ социальных сетей. Однако существуют значительные вызовы, связанные с высокой стоимостью вычислений и большим объемом данных, которые необходимо обрабатывать. Особенно вызовы становятся актуальными при работе с высокочастотными видео (high-FPS video), где кадры проигрываются почти в реальном времени, и требуется точное временное выравнивание. Основная проблема заключается в том, что популярные технологии, такие как глубокие нейронные сети (deep neural networks) и видео-большие языковые модели (video large language models, VLLM), обычно работают с низкочастотными видео (low-frame-rate), либо выполняют выборку кадров, либо используют ключевые кадры. Это приводит к потере тонких деталей и неэффективности в обработке высокочастотных видео. Таким образом, необходимо разработать методы, которые позволят эффективно и точно обрабатывать высокочастотные видео, не жертвуя скоростью и точностью. ## Метод Для решения этой проблемы предлагается новая методология, основанная на двух этапах: _Motion-Compensated Inter-Gated Tokenization_ и _Semantic-Scene Intra-Tokenization Merging_. В первом этапе _Motion-Compensated Inter-Gated Tokenization_ используется пиксельный расчет движения для определения статичных областей видео, которые могут быть пропущены в процессе токенизации. Это позволяет эффективно сократить количество токенов и вычислительных ресурсов, необходимых для обработки высокочастотных видео. Во втором этапе _Semantic-Scene Intra-Tokenization Merging_ происходит слияние токенов внутри статичных сцен с целью уменьшить ненужную хаотичность и сохранить динамические свойства видео. Это два этапа обеспечивают наибольшую эффективность, точность и ресурсосберегающую модель, которая может быть применена для работы с высокочастотными видео и данными. ## Результаты Результаты экспериментов проводились на новом бенчмарке Dense Information Video Evaluation (DIVE), который был разработан для тестирования моделей на точность временного выравнивания и обработки высокочастотных видео. Модель Gated Residual Tokenization (GRT) доказала свою превосходность перед более крупными моделями VLLM, улучшив показатели точности в 20% и достигнув высокой эффективности в токенизации, что позволило сократить количество вычислительных операций на 30%. Благодаря двухэтапной токенизации, модель GRT не только эффективно обрабатывает высокочастотные видео, но и экономит ресурсы, что делает ее применимую в реальных ситуациях, таких как лекционный

Abstract

High temporal resolution is essential for capturing fine-grained details in video understanding. However, current video large language models (VLLMs) and benchmarks mostly rely on low-frame-rate sampling, such as uniform sampling or keyframe selection, discarding dense temporal information. This compromise avoids the high cost of tokenizing every frame, which otherwise leads to redundant computation and linear token growth as video length increases. While this trade-off works for slowly changing content, it fails for tasks like lecture comprehension, where information appears in nearly every frame and requires precise temporal alignment. To address this gap, we introduce Dense Video Understanding (DVU), which enables high-FPS video comprehension by reducing both tokenization time and token overhead. Existing benchmarks are also limited, as their QA pairs focus on coarse content changes. We therefore propose DIVE (Dense Information Video Evaluation), the first benchmark designed for dense temporal reasoning. To make DVU practical, we present Gated Residual Tokenization (GRT), a two-stage framework: (1) Motion-Compensated Inter-Gated Tokenization uses pixel-level motion estimation to skip static regions during tokenization, achieving sub-linear growth in token count and compute. (2) Semantic-Scene Intra-Tokenization Merging fuses tokens across static regions within a scene, further reducing redundancy while preserving dynamic semantics. Experiments on DIVE show that GRT outperforms larger VLLM baselines and scales positively with FPS. These results highlight the importance of dense temporal information and demonstrate that GRT enables efficient, scalable high-FPS video understanding.

Ссылки и действия