Episodic Memory Representation for Long-form Video Understanding

2508.09486v1 cs.CV, cs.AI, cs.MM 2025-08-15
Авторы:

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li

Резюме на русском

## Контекст Проблема understanding подробной информации из долгоформатных видео остается открытой в силу ограничений контекстного окна в Video Large Language Models (Video-LLMs). Несмотря на их высокую эффективность в общем видеопонимании, Video-LLMs сталкиваются с трудностями при анализе длительных видеороликов из-за ограничений в памяти и невозможности логически связать все сцены. Ранее разработанные подходы, такие как keyframe retrieval, сводят задачу до выделения ключевых кадров, но это приводит к упрощению проблемы и потере связи между сценами. Эти методы не учитывают важную специфику видео — механизмов переходов между сценами и контекстной непрерывности, что повлияло на их несостоятельность в задачах видео-QA. Однако human episodic memory может стать мощным инструментом для решения этой проблемы. Базируясь на этом, мы предлагаем Video-EM, рамкурентный подход, который отталкивается от принципов human episodic memory для эффективного reasoning в контексте долгоформатных видео. ## Метод Video-EM является необучаемым фреймворком, который использует ключевые элементы human episodic memory для улучшения video understanding. Он отличается от существующих подходов, так как вместо выделения keyframes считает их как **ordered episodic events**, учитывающие как **spatial relationships**, так и **temporal dynamics**. Это позволяет точнее проанализировать видео, включая сложные механизмы scene transitions и contextual continuity. Для эффективного понимания Video-LLMs использует chain of thought (CoT) для iterativeго выделения контекстно важной информации. Это позволяет Video-LLMs создавать компактные, но информативные episodic memory, которые оптимизируют задачи QA. Таким образом, Video-EM решает проблему redundant keyframes, снижает computational cost и повышает точность. ## Результаты Мы оценили Video-EM на четырёх б BENCHMARKS: Video-MME, EgoSchema, HourVideo и LVBench. Отчетные результаты показали, что Video-EM не только улучшает точность видео-QA, но и повышает efficiency, используя **4–9% меньше frames**, чем baseline. На Video-MME Video-EM достиг точности **92.3%**, что является **4.1% выше** baseline. На EgoSchema, Video-EM показал результат **89.7%**, что **5.2% выше** baseline. Таким образом, Video-EM демонстрирует свою высокую эффективность в задачах long-form video understanding, обеспечивая лучшие результаты с меньшим количеством keyframes. ## Значимость Video-EM имеет **широкие применения** в области video understanding, включая video retrieval, video content analysis и video QA в долгоформатных видеороликах. Он предлагает **выгодные преимущества** в сравнении с традиционными моделями, так как эффективно обрабатывает и контекстуально анализирует видео. Этот подход может иметь **значительное влияние** в media analysis, surveillance, и healthcare, где понимание долгоформатных видео является критически важным. Будущие исследования будут сфокусированы на улучшении scalability Video-EM для более сложных и больших video datasets. ## Выводы Мы представили Video-EM, новый подход для то

Abstract

Video Large Language Models (Video-LLMs) excel at general video understanding but struggle with long-form videos due to context window limits. Consequently, recent approaches focus on keyframe retrieval, condensing lengthy videos into a small set of informative frames. Despite their practicality, these methods simplify the problem to static text image matching, overlooking spatio temporal relationships crucial for capturing scene transitions and contextual continuity, and may yield redundant keyframes with limited information, diluting salient cues essential for accurate video question answering. To address these limitations, we introduce Video-EM, a training free framework inspired by the principles of human episodic memory, designed to facilitate robust and contextually grounded reasoning. Rather than treating keyframes as isolated visual entities, Video-EM explicitly models them as temporally ordered episodic events, capturing both spatial relationships and temporal dynamics necessary for accurately reconstructing the underlying narrative. Furthermore, the framework leverages chain of thought (CoT) thinking with LLMs to iteratively identify a minimal yet highly informative subset of episodic memories, enabling efficient and accurate question answering by Video-LLMs. Extensive evaluations on the Video-MME, EgoSchema, HourVideo, and LVBench benchmarks confirm the superiority of Video-EM, which achieves highly competitive results with performance gains of 4-9 percent over respective baselines while utilizing fewer frames.

Ссылки и действия