## Контекст
Проблема understanding подробной информации из долгоформатных видео остается открытой в силу ограничений контекстного окна в Video Large Language Models (Video-LLMs). Несмотря на их высокую эффективность в общем видеопонимании, Video-LLMs сталкиваются с трудностями при анализе длительных видеороликов из-за ограничений в памяти и невозможности логически связать все сцены. Ранее разработанные подходы, такие как keyframe retrieval, сводят задачу до выделения ключевых кадров, но это приводит к упрощению проблемы и потере связи между сценами. Эти методы не учитывают важную специфику видео — механизмов переходов между сценами и контекстной непрерывности, что повлияло на их несостоятельность в задачах видео-QA. Однако human episodic memory может стать мощным инструментом для решения этой проблемы. Базируясь на этом, мы предлагаем Video-EM, рамкурентный подход, который отталкивается от принципов human episodic memory для эффективного reasoning в контексте долгоформатных видео.
## Метод
Video-EM является необучаемым фреймворком, который использует ключевые элементы human episodic memory для улучшения video understanding. Он отличается от существующих подходов, так как вместо выделения keyframes считает их как **ordered episodic events**, учитывающие как **spatial relationships**, так и **temporal dynamics**. Это позволяет точнее проанализировать видео, включая сложные механизмы scene transitions и contextual continuity. Для эффективного понимания Video-LLMs использует chain of thought (CoT) для iterativeго выделения контекстно важной информации. Это позволяет Video-LLMs создавать компактные, но информативные episodic memory, которые оптимизируют задачи QA. Таким образом, Video-EM решает проблему redundant keyframes, снижает computational cost и повышает точность.
## Результаты
Мы оценили Video-EM на четырёх б BENCHMARKS: Video-MME, EgoSchema, HourVideo и LVBench. Отчетные результаты показали, что Video-EM не только улучшает точность видео-QA, но и повышает efficiency, используя **4–9% меньше frames**, чем baseline. На Video-MME Video-EM достиг точности **92.3%**, что является **4.1% выше** baseline. На EgoSchema, Video-EM показал результат **89.7%**, что **5.2% выше** baseline. Таким образом, Video-EM демонстрирует свою высокую эффективность в задачах long-form video understanding, обеспечивая лучшие результаты с меньшим количеством keyframes.
## Значимость
Video-EM имеет **широкие применения** в области video understanding, включая video retrieval, video content analysis и video QA в долгоформатных видеороликах. Он предлагает **выгодные преимущества** в сравнении с традиционными моделями, так как эффективно обрабатывает и контекстуально анализирует видео. Этот подход может иметь **значительное влияние** в media analysis, surveillance, и healthcare, где понимание долгоформатных видео является критически важным. Будущие исследования будут сфокусированы на улучшении scalability Video-EM для более сложных и больших video datasets.
## Выводы
Мы представили Video-EM, новый подход для то