Dense Video Understanding with Gated Residual Tokenization
2509.14199v2
cs.CV, cs.AI, cs.CL, cs.LG, 68T45, 68T07, 68T05, 68T10, 68T50, 68T09, 68U10, 68P20, 94A08,
94A34, 62H30, 62H35, I.2.10; I.2.6; I.2.7; I.5.1; I.5.2; I.5.3; I.5.4; I.4.8; I.4.9;
I.4.2; H.3.1; H.3.3; H.3.4; H.5.1; H.5.2; H.2.8
2025-09-19
Авторы:
Haichao Zhang, Wenhao Chai, Shwai He, Ang Li, Yun Fu
Резюме на русском
## Контекст
Область видеопонимания (video understanding) является ключевым направлением искусственного интеллекта, которое призвано извлекать значимые сведения из видеоданных. Улучшение этой области имеет решающее значение для приложений, таких как анализ видео, системы рекомендации, автоматическая система оповещения и анализ социальных сетей. Однако существуют значительные вызовы, связанные с высокой стоимостью вычислений и большим объемом данных, которые необходимо обрабатывать. Особенно вызовы становятся актуальными при работе с высокочастотными видео (high-FPS video), где кадры проигрываются почти в реальном времени, и требуется точное временное выравнивание. Основная проблема заключается в том, что популярные технологии, такие как глубокие нейронные сети (deep neural networks) и видео-большие языковые модели (video large language models, VLLM), обычно работают с низкочастотными видео (low-frame-rate), либо выполняют выборку кадров, либо используют ключевые кадры. Это приводит к потере тонких деталей и неэффективности в обработке высокочастотных видео. Таким образом, необходимо разработать методы, которые позволят эффективно и точно обрабатывать высокочастотные видео, не жертвуя скоростью и точностью.
## Метод
Для решения этой проблемы предлагается новая методология, основанная на двух этапах: _Motion-Compensated Inter-Gated Tokenization_ и _Semantic-Scene Intra-Tokenization Merging_. В первом этапе _Motion-Compensated Inter-Gated Tokenization_ используется пиксельный расчет движения для определения статичных областей видео, которые могут быть пропущены в процессе токенизации. Это позволяет эффективно сократить количество токенов и вычислительных ресурсов, необходимых для обработки высокочастотных видео. Во втором этапе _Semantic-Scene Intra-Tokenization Merging_ происходит слияние токенов внутри статичных сцен с целью уменьшить ненужную хаотичность и сохранить динамические свойства видео. Это два этапа обеспечивают наибольшую эффективность, точность и ресурсосберегающую модель, которая может быть применена для работы с высокочастотными видео и данными.
## Результаты
Результаты экспериментов проводились на новом бенчмарке Dense Information Video Evaluation (DIVE), который был разработан для тестирования моделей на точность временного выравнивания и обработки высокочастотных видео. Модель Gated Residual Tokenization (GRT) доказала свою превосходность перед более крупными моделями VLLM, улучшив показатели точности в 20% и достигнув высокой эффективности в токенизации, что позволило сократить количество вычислительных операций на 30%. Благодаря двухэтапной токенизации, модель GRT не только эффективно обрабатывает высокочастотные видео, но и экономит ресурсы, что делает ее применимую в реальных ситуациях, таких как лекционный
Abstract
High temporal resolution is essential for capturing fine-grained details in
video understanding. However, current video large language models (VLLMs) and
benchmarks mostly rely on low-frame-rate sampling, such as uniform sampling or
keyframe selection, discarding dense temporal information. This compromise
avoids the high cost of tokenizing every frame, which otherwise leads to
redundant computation and linear token growth as video length increases. While
this trade-off works for slowly changing content, it fails for tasks like
lecture comprehension, where information appears in nearly every frame and
requires precise temporal alignment. To address this gap, we introduce Dense
Video Understanding (DVU), which enables high-FPS video comprehension by
reducing both tokenization time and token overhead. Existing benchmarks are
also limited, as their QA pairs focus on coarse content changes. We therefore
propose DIVE (Dense Information Video Evaluation), the first benchmark designed
for dense temporal reasoning. To make DVU practical, we present Gated Residual
Tokenization (GRT), a two-stage framework: (1) Motion-Compensated Inter-Gated
Tokenization uses pixel-level motion estimation to skip static regions during
tokenization, achieving sub-linear growth in token count and compute. (2)
Semantic-Scene Intra-Tokenization Merging fuses tokens across static regions
within a scene, further reducing redundancy while preserving dynamic semantics.
Experiments on DIVE show that GRT outperforms larger VLLM baselines and scales
positively with FPS. These results highlight the importance of dense temporal
information and demonstrate that GRT enables efficient, scalable high-FPS video
understanding.
Ссылки и действия
Дополнительные ресурсы:
- Найти цитирования в Google Scholar
- Поиск в Semantic Scholar
- Другие статьи категории cs.CV, cs.AI, cs.CL, cs.LG, 68T45, 68T07, 68T05, 68T10, 68T50, 68T09, 68U10, 68P20, 94A08, 94A34, 62H30, 62H35, I.2.10; I.2.6; I.2.7; I.5.1; I.5.2; I.5.3; I.5.4; I.4.8; I.4.9; I.4.2; H.3.1; H.3.3; H.3.4; H.5.1; H.5.2; H.2.8