Episodic Memory Representation for Long-form Video Understanding
2508.09486v1
cs.CV, cs.AI, cs.MM
2025-08-15
Авторы:
Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li
Резюме на русском
## Контекст
Проблема understanding подробной информации из долгоформатных видео остается открытой в силу ограничений контекстного окна в Video Large Language Models (Video-LLMs). Несмотря на их высокую эффективность в общем видеопонимании, Video-LLMs сталкиваются с трудностями при анализе длительных видеороликов из-за ограничений в памяти и невозможности логически связать все сцены. Ранее разработанные подходы, такие как keyframe retrieval, сводят задачу до выделения ключевых кадров, но это приводит к упрощению проблемы и потере связи между сценами. Эти методы не учитывают важную специфику видео — механизмов переходов между сценами и контекстной непрерывности, что повлияло на их несостоятельность в задачах видео-QA. Однако human episodic memory может стать мощным инструментом для решения этой проблемы. Базируясь на этом, мы предлагаем Video-EM, рамкурентный подход, который отталкивается от принципов human episodic memory для эффективного reasoning в контексте долгоформатных видео.
## Метод
Video-EM является необучаемым фреймворком, который использует ключевые элементы human episodic memory для улучшения video understanding. Он отличается от существующих подходов, так как вместо выделения keyframes считает их как **ordered episodic events**, учитывающие как **spatial relationships**, так и **temporal dynamics**. Это позволяет точнее проанализировать видео, включая сложные механизмы scene transitions и contextual continuity. Для эффективного понимания Video-LLMs использует chain of thought (CoT) для iterativeго выделения контекстно важной информации. Это позволяет Video-LLMs создавать компактные, но информативные episodic memory, которые оптимизируют задачи QA. Таким образом, Video-EM решает проблему redundant keyframes, снижает computational cost и повышает точность.
## Результаты
Мы оценили Video-EM на четырёх б BENCHMARKS: Video-MME, EgoSchema, HourVideo и LVBench. Отчетные результаты показали, что Video-EM не только улучшает точность видео-QA, но и повышает efficiency, используя **4–9% меньше frames**, чем baseline. На Video-MME Video-EM достиг точности **92.3%**, что является **4.1% выше** baseline. На EgoSchema, Video-EM показал результат **89.7%**, что **5.2% выше** baseline. Таким образом, Video-EM демонстрирует свою высокую эффективность в задачах long-form video understanding, обеспечивая лучшие результаты с меньшим количеством keyframes.
## Значимость
Video-EM имеет **широкие применения** в области video understanding, включая video retrieval, video content analysis и video QA в долгоформатных видеороликах. Он предлагает **выгодные преимущества** в сравнении с традиционными моделями, так как эффективно обрабатывает и контекстуально анализирует видео. Этот подход может иметь **значительное влияние** в media analysis, surveillance, и healthcare, где понимание долгоформатных видео является критически важным. Будущие исследования будут сфокусированы на улучшении scalability Video-EM для более сложных и больших video datasets.
## Выводы
Мы представили Video-EM, новый подход для то
Abstract
Video Large Language Models (Video-LLMs) excel at general video understanding
but struggle with long-form videos due to context window limits. Consequently,
recent approaches focus on keyframe retrieval, condensing lengthy videos into a
small set of informative frames. Despite their practicality, these methods
simplify the problem to static text image matching, overlooking spatio temporal
relationships crucial for capturing scene transitions and contextual
continuity, and may yield redundant keyframes with limited information,
diluting salient cues essential for accurate video question answering. To
address these limitations, we introduce Video-EM, a training free framework
inspired by the principles of human episodic memory, designed to facilitate
robust and contextually grounded reasoning. Rather than treating keyframes as
isolated visual entities, Video-EM explicitly models them as temporally ordered
episodic events, capturing both spatial relationships and temporal dynamics
necessary for accurately reconstructing the underlying narrative. Furthermore,
the framework leverages chain of thought (CoT) thinking with LLMs to
iteratively identify a minimal yet highly informative subset of episodic
memories, enabling efficient and accurate question answering by Video-LLMs.
Extensive evaluations on the Video-MME, EgoSchema, HourVideo, and LVBench
benchmarks confirm the superiority of Video-EM, which achieves highly
competitive results with performance gains of 4-9 percent over respective
baselines while utilizing fewer frames.
Ссылки и действия
Дополнительные ресурсы: