Frame Sampling Strategies Matter: A Benchmark for small vision language models

2509.14769v1 cs.CV, cs.CL 2025-09-20

Авторы:

Marija Brkic, Anas Filali Razzouki, Yannis Tevissen, Khalil Guetari, Mounim A. El Yacoubi

Резюме на русском

## Контекст Видео-виджет-языковые модели (Vision-Language Models, VLMs) становятся важной частью развития искусственного интеллекта, особенно в области видеоанализа и видео-QA (вопрос-ответ). Однако, проблема в том, что существующие бенчмарки для оценки этих моделей часто не учитывают влияние различных стратегий разбиения видео на кадры (frame-sampling strategies). Это привело к неточным оценкам и биасам в оценке моделей. Наша мотивация заключается в создании качественного и универсального протокола для эффективной и небиазной оценки видео-VLMs. ## Метод Мы разработали протокол, основанный на точной кадровой детерминации (frame-accurate methodology). Это позволяет сравнивать модели в условиях одинакового разбиения видео на кадры. Мы использовали несколько современных видео-VLMs и протестировали их на новом бенчмарке, ориентированном на задачи видео-QA. Для этих тестов мы разработали специальные датасеты, которые позволяют учитывать различные аспекты кадровой стратегии, включая порядок, частоту и выбор кадров. ## Результаты Мы провели различные эксперименты, сравнивая несколько моделей на наших датасетах. Наши результаты показали, что стратегия frame-sampling значительно влияет на показатели моделей. Например, модели, которые показали высокую точность на одной стратегии, могут плохо справиться на другой. Мы также обнаружили, что некоторые модели очень чувствительны к тому, как кадры выбираются, что демонстрирует значительную зависимость от конкретных характеристик видео. ## Значимость Этот бенчмарк имеет большое значение для области видео-VLMs, так как он предоставляет более точную оценку моделей, учитывая влияние frame-sampling. Это позволяет разработчикам и исследователям сосредоточиться на улучшении моделей, а не только на приспособлении к определенным стратегиям. Благодаря открытому коду, мы позволили сообществу проводить независимые эксперименты и делать выводы без нежелательных биаз. ## Выводы Наши результаты подтверждают значительный биаз, возникающий из-за различных стратегий frame-sampling. Мы продемонстрировали, что некоторые модели видео-VLMs существенно зависят от выбора кадров, что требует уделить больше внимания этому аспекту в будущих исследованиях. Мы также призываем к разработке стандартизированных и универсальных стратегий для разбиения видео на кадры, чтобы обеспечить более справедливую и точную оценку моделей в будущем.

Abstract

Comparing vision language models on videos is particularly complex, as the performances is jointly determined by the model's visual representation capacity and the frame-sampling strategy used to construct the input. Current video benchmarks are suspected to suffer from substantial frame-sampling bias, as models are evaluated with different frame selection strategies. In this work, we propose the first frame-accurate benchmark of state-of-the-art small VLMs for video question-answering, evaluated under controlled frame-sampling strategies. Our results confirm the suspected bias and highlight both data-specific and task-specific behaviors of SVLMs under different frame-sampling techniques. By open-sourcing our benchmarking code, we provide the community with a reproducible and unbiased protocol for evaluating video VLMs and emphasize the need for standardized frame-sampling strategies tailored to each benchmarking dataset in future research.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Frame Sampling Strategies Matter: A Benchmark for small vision language models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация