Do Video Language Models Really Know Where to Look? Diagnosing Attention Failures in Video Language Models

2509.01167v1 cs.CV, cs.CL, cs.LG 2025-09-05

Авторы:

Hyunjong Ok, Jaeho Lee

Резюме на русском

#### Контекст В последние годы внимание научного сообщества было привлечено к развитию многомодальных больших языковых моделей (MLLMs), которые способны обрабатывать не только текстовые данные, но и видео. Эти модели предлагают эффективные решения для задач видео-понимания, таких как классификация, поиск и описание видео. Однако использование таких моделей часто связано с высокой стоимостью вычислений, поскольку они обрабатывают все кадры видео. Чтобы уменьшить затраты, используются методы, ограничивающие обработку только ключевыми кадрами. Однако возникает вопрос о точности выбора этих кадров. Несмотря на распространенность предложенных стратегий, неясно, насколько эффективно они позволяют моделям определить именно те кадры, которые действительно необходимо обработать. #### Метод Чтобы изучить этот вопрос, авторы применяют модели SigLIP для выбора ключевых кадров. Они проводят эксперименты, сравнивая выборки кадров, полученные этими моделями, с теми, что могут быть выбраны с использованием других подходов. Эксперименты проводятся на разных наборах данных, включая те, которые содержат сложные сценарии и задачи. Для оценки качества выбора авторы используют метрики, оценивающие точность и полноту понимания видео. Также в исследовании применяются методы визуализации, позволяющие проанализировать, как модели решают, где следует обратить внимание. #### Результаты За счет экспериментов выявляется, что популярные модели SigLIP страдают от серьезных ограничений в способности выбирать наиболее информативные кадры. Авторы обнаружили, что модели часто пропускают ключевые моменты, которые важны для понимания заданного текстового запроса в контексте видео. Эти пропуски приводят к понижению точности решения задач. Также было обнаружено, что модели не всегда способны корректно интерпретировать контекст, что приводит к неточностям в выборе кадров. #### Значимость Результаты показывают, что технологии современных моделей видео-понимания нуждаются в улучшении. Особенно это касается стратегий выбора ключевых кадров. Если будут разработаны более эффективные стратегии, это позволит моделям обрабатывать видео более эффективно и с меньшими ресурсами. Такие улучшения могут иметь значительное применение в различных областях, таких как анализ массовых видеоданных в социальных сетях, мониторинг безопасности и медицинский анализ. #### Выводы Выводы исследования сводятся к необходимости развития новых методов для выбора ключевых кадров в моделях видео-понимания. Авторы предлагают свои рекомендации для будущих исследований, в том числе использова

Abstract

Recent advances in multimodal large language models (MLLMs) have led to much progress in video understanding tasks. To avoid the heavy computational cost of processing all frames, these models typically rely on keyframe sampling methods guided by vision-language encoders (\textit{e.g.,} SigLIP). However, it remains unclear whether such encoders can truly identify the most informative frames. In this work, we provide several empirical pieces of evidence revealing that popular vision encoders critically suffer from their limited capability to identify where the MLLM should look inside the video to handle the given textual query appropriately. Our findings suggest that the development of better keyframe identification techniques may be necessary for efficient video MLLMs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Do Video Language Models Really Know Where to Look? Diagnosing Attention Failures in Video Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Optical Context Compression Is Just (Bad) Autoencoding

What Shape Is Optimal for Masks in Text Removal?

Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic...

EchoAgent: Guideline-Centric Reasoning Agent for Echocardiography Measurement an...

O3SLM: Open Weight, Open Data, and Open Vocabulary Sketch-Language Model

Навигация