VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding

2508.06869v1 cs.CV, cs.AI, I.2.10 2025-08-14
Авторы:

Jianxiang He, Shaoguang Wang, Weiyu Guo, Meisheng Hong, Jungang Li, Yijie Xu, Ziyang Chen, Hui Xiong

Резюме на русском

#### Контекст В последние годы повышается интерес к многомодальным большим языковым моделям (MLLMs), которые могут обрабатывать и анализировать многоступенчатый поток данных с различных источников, включая текст, видео и аудио. Одной из ключевых задач в этой области является **long video understanding**, которая представляет собой вызов для MLLMs из-за огромного объема данных и сложности временного порядка. Для упрощения этой задачи, широко применяется метод ключевого кадра (keyframe), который пытается выбрать наиболее основательные кадры видео, отвечающие заданному текстовому запросу. Однако существуют существенные проблемы, такие как недостаточная мультимодальная связность между текстовым запросом и видео, а также недостаточная логическая семантическая интеграция для точного вывода. Эти проблемы наделяют ключевую задачу в поиске ключевых кадров сложностью, которая необходима для точного понимания длительных видео. Мы предлагаем **Visual Subtitle Integration (VSI)**, метод, который интегрирует подкасты, временные метки и сценные границы для повышения эффективности поиска ключевых кадров. #### Метод Метод **VSI** основывается на двух основных потоках поиска: **Video Search Stream** и **Subtitle Match Stream**. **Video Search Stream** использует видеокадры, чтобы найти самые важные кадры в целях понимания видео, в то время как **Subtitle Match Stream** синхронизирует текстовые подкасты с видео, чтобы улучшить соответствие текста и видео. Для каждого слоя поиска, мы используем **cross-modal attention mechanism**, который помогает объединить информацию из разных модальностей (видео и текст), чтобы повысить точность в выделении ключевых кадров. Кроме того, мы используем **boundary alignment**, чтобы добавить контекст сцен в поисковую процедуру. Это позволяет улучшить семантическую интеграцию и повысить точность поиска ключевых кадров. #### Результаты Мы проводим эксперименты на LongVideoBench, популярной базе данных для тестирования эффективности поиска ключевых кадров в длительных видео. Наш **VSI** показывает выдающиеся результаты, достигая **40.00% key frame localization accuracy** на текстовом подмножестве LongVideoBench и **68.48% accuracy** на задачах видео-QA. Это превосходит существующие бейзлайны на **20.35%** и **15.79%**, соответственно. Благодаря двойному поисковому механизму, наш метод демонстрирует высокую точность и общую ценность, особенно в среднем и длинном диапазоне видео. Эти результаты подтверждают то, что VSI является решением, обеспечивающим робастность и универсальность в задаче понимания длительных видео. #### Значимость Наш **VSI** имеет широкое применение в различных областях, таких как мультимедиа-анализ, видео-поиск, мониторинг видеоконтента и легковесное анализ

Abstract

Long video understanding presents a significant challenge to multimodal large language models (MLLMs) primarily due to the immense data scale. A critical and widely adopted strategy for making this task computationally tractable is keyframe retrieval, which seeks to identify a sparse set of video frames that are most salient to a given textual query. However, the efficacy of this approach is hindered by weak multimodal alignment between textual queries and visual content and fails to capture the complex temporal semantic information required for precise reasoning. To address this, we propose Visual-Subtitle Integeration(VSI), a multimodal keyframe search method that integrates subtitles, timestamps, and scene boundaries into a unified multimodal search process. The proposed method captures the visual information of video frames as well as the complementary textual information through a dual-stream search mechanism by Video Search Stream as well as Subtitle Match Stream, respectively, and improves the keyframe search accuracy through the interaction of the two search streams. Experimental results show that VSI achieve 40.00% key frame localization accuracy on the text-relevant subset of LongVideoBench and 68.48% accuracy on downstream long Video-QA tasks, surpassing competitive baselines by 20.35% and 15.79%, respectively. Furthermore, on the LongVideoBench, VSI achieved state-of-the-art(SOTA) in medium-to-long video-QA tasks, demonstrating the robustness and generalizability of the proposed multimodal search strategy.

Ссылки и действия

Связанные статьи

SIFThinker: Spatially-Aware Image Focus for Visual Reasoning

## Контекст Существующие multimodal large language models (MLLMs) сталкиваются с значительными ограничениями в решении с...

2025-08-12