Авторы:
Haichao Zhang, Wenhao Chai, Shwai He, Ang Li, Yun Fu
## Контекст
Область видеопонимания (video understanding) является ключевым направлением искусственного интеллекта, которое призвано извлекать значимые сведения из видеоданных. Улучшение этой области имеет решающее значение для приложений, таких как анализ видео, системы рекомендации, автоматическая система оповещения и анализ социальных сетей. Однако существуют значительные вызовы, связанные с высокой стоимостью вычислений и большим объемом данных, которые необходимо обрабатывать. Особенно вызовы становятся актуальными при работе с высокочастотными видео (high-FPS video), где кадры проигрываются почти в реальном времени, и требуется точное временное выравнивание. Основная проблема заключается в том, что популярные технологии, такие как глубокие нейронные сети (deep neural networks) и видео-большие языковые модели (video large language models, VLLM), обычно работают с низкочастотными видео (low-frame-rate), либо выполняют выборку кадров, либо используют ключевые кадры. Это приводит к потере тонких деталей и неэффективности в обработке высокочастотных видео. Таким образом, необходимо разработать методы, которые позволят эффективно и точно обрабатывать высокочастотные видео, не жертвуя скоростью и точностью.
## Метод
Для решения этой проблемы предлагается новая методология, основанная на двух этапах: _Motion-Compensated Inter-Gated Tokenization_ и _Semantic-Scene Intra-Tokenization Merging_. В первом этапе _Motion-Compensated Inter-Gated Tokenization_ используется пиксельный расчет движения для определения статичных областей видео, которые могут быть пропущены в процессе токенизации. Это позволяет эффективно сократить количество токенов и вычислительных ресурсов, необходимых для обработки высокочастотных видео. Во втором этапе _Semantic-Scene Intra-Tokenization Merging_ происходит слияние токенов внутри статичных сцен с целью уменьшить ненужную хаотичность и сохранить динамические свойства видео. Это два этапа обеспечивают наибольшую эффективность, точность и ресурсосберегающую модель, которая может быть применена для работы с высокочастотными видео и данными.
## Результаты
Результаты экспериментов проводились на новом бенчмарке Dense Information Video Evaluation (DIVE), который был разработан для тестирования моделей на точность временного выравнивания и обработки высокочастотных видео. Модель Gated Residual Tokenization (GRT) доказала свою превосходность перед более крупными моделями VLLM, улучшив показатели точности в 20% и достигнув высокой эффективности в токенизации, что позволило сократить количество вычислительных операций на 30%. Благодаря двухэтапной токенизации, модель GRT не только эффективно обрабатывает высокочастотные видео, но и экономит ресурсы, что делает ее применимую в реальных ситуациях, таких как лекционный
ID: 2509.14199v2
cs.CV, cs.AI, cs.CL, cs.LG, 68T45, 68T07, 68T05, 68T10, 68T50, 68T09, 68U10, 68P20, 94A08,
94A34, 62H30, 62H35, I.2.10; I.2.6; I.2.7; I.5.1; I.5.2; I.5.3; I.5.4; I.4.8; I.4.9;
I.4.2; H.3.1; H.3.3; H.3.4; H.5.1; H.5.2; H.2.8