Do Video Language Models Really Know Where to Look? Diagnosing Attention Failures in Video Language Models
2509.01167v1
cs.CV, cs.CL, cs.LG
2025-09-05
Авторы:
Hyunjong Ok, Jaeho Lee
Резюме на русском
#### Контекст
В последние годы внимание научного сообщества было привлечено к развитию многомодальных больших языковых моделей (MLLMs), которые способны обрабатывать не только текстовые данные, но и видео. Эти модели предлагают эффективные решения для задач видео-понимания, таких как классификация, поиск и описание видео. Однако использование таких моделей часто связано с высокой стоимостью вычислений, поскольку они обрабатывают все кадры видео. Чтобы уменьшить затраты, используются методы, ограничивающие обработку только ключевыми кадрами. Однако возникает вопрос о точности выбора этих кадров. Несмотря на распространенность предложенных стратегий, неясно, насколько эффективно они позволяют моделям определить именно те кадры, которые действительно необходимо обработать.
#### Метод
Чтобы изучить этот вопрос, авторы применяют модели SigLIP для выбора ключевых кадров. Они проводят эксперименты, сравнивая выборки кадров, полученные этими моделями, с теми, что могут быть выбраны с использованием других подходов. Эксперименты проводятся на разных наборах данных, включая те, которые содержат сложные сценарии и задачи. Для оценки качества выбора авторы используют метрики, оценивающие точность и полноту понимания видео. Также в исследовании применяются методы визуализации, позволяющие проанализировать, как модели решают, где следует обратить внимание.
#### Результаты
За счет экспериментов выявляется, что популярные модели SigLIP страдают от серьезных ограничений в способности выбирать наиболее информативные кадры. Авторы обнаружили, что модели часто пропускают ключевые моменты, которые важны для понимания заданного текстового запроса в контексте видео. Эти пропуски приводят к понижению точности решения задач. Также было обнаружено, что модели не всегда способны корректно интерпретировать контекст, что приводит к неточностям в выборе кадров.
#### Значимость
Результаты показывают, что технологии современных моделей видео-понимания нуждаются в улучшении. Особенно это касается стратегий выбора ключевых кадров. Если будут разработаны более эффективные стратегии, это позволит моделям обрабатывать видео более эффективно и с меньшими ресурсами. Такие улучшения могут иметь значительное применение в различных областях, таких как анализ массовых видеоданных в социальных сетях, мониторинг безопасности и медицинский анализ.
#### Выводы
Выводы исследования сводятся к необходимости развития новых методов для выбора ключевых кадров в моделях видео-понимания. Авторы предлагают свои рекомендации для будущих исследований, в том числе использова
Abstract
Recent advances in multimodal large language models (MLLMs) have led to much
progress in video understanding tasks. To avoid the heavy computational cost of
processing all frames, these models typically rely on keyframe sampling methods
guided by vision-language encoders (\textit{e.g.,} SigLIP). However, it remains
unclear whether such encoders can truly identify the most informative frames.
In this work, we provide several empirical pieces of evidence revealing that
popular vision encoders critically suffer from their limited capability to
identify where the MLLM should look inside the video to handle the given
textual query appropriately. Our findings suggest that the development of
better keyframe identification techniques may be necessary for efficient video
MLLMs.
Ссылки и действия
Дополнительные ресурсы: