Frame Sampling Strategies Matter: A Benchmark for small vision language models
2509.14769v1
cs.CV, cs.CL
2025-09-20
Авторы:
Marija Brkic, Anas Filali Razzouki, Yannis Tevissen, Khalil Guetari, Mounim A. El Yacoubi
Резюме на русском
## Контекст
Видео-виджет-языковые модели (Vision-Language Models, VLMs) становятся важной частью развития искусственного интеллекта, особенно в области видеоанализа и видео-QA (вопрос-ответ). Однако, проблема в том, что существующие бенчмарки для оценки этих моделей часто не учитывают влияние различных стратегий разбиения видео на кадры (frame-sampling strategies). Это привело к неточным оценкам и биасам в оценке моделей. Наша мотивация заключается в создании качественного и универсального протокола для эффективной и небиазной оценки видео-VLMs.
## Метод
Мы разработали протокол, основанный на точной кадровой детерминации (frame-accurate methodology). Это позволяет сравнивать модели в условиях одинакового разбиения видео на кадры. Мы использовали несколько современных видео-VLMs и протестировали их на новом бенчмарке, ориентированном на задачи видео-QA. Для этих тестов мы разработали специальные датасеты, которые позволяют учитывать различные аспекты кадровой стратегии, включая порядок, частоту и выбор кадров.
## Результаты
Мы провели различные эксперименты, сравнивая несколько моделей на наших датасетах. Наши результаты показали, что стратегия frame-sampling значительно влияет на показатели моделей. Например, модели, которые показали высокую точность на одной стратегии, могут плохо справиться на другой. Мы также обнаружили, что некоторые модели очень чувствительны к тому, как кадры выбираются, что демонстрирует значительную зависимость от конкретных характеристик видео.
## Значимость
Этот бенчмарк имеет большое значение для области видео-VLMs, так как он предоставляет более точную оценку моделей, учитывая влияние frame-sampling. Это позволяет разработчикам и исследователям сосредоточиться на улучшении моделей, а не только на приспособлении к определенным стратегиям. Благодаря открытому коду, мы позволили сообществу проводить независимые эксперименты и делать выводы без нежелательных биаз.
## Выводы
Наши результаты подтверждают значительный биаз, возникающий из-за различных стратегий frame-sampling. Мы продемонстрировали, что некоторые модели видео-VLMs существенно зависят от выбора кадров, что требует уделить больше внимания этому аспекту в будущих исследованиях. Мы также призываем к разработке стандартизированных и универсальных стратегий для разбиения видео на кадры, чтобы обеспечить более справедливую и точную оценку моделей в будущем.
Abstract
Comparing vision language models on videos is particularly complex, as the
performances is jointly determined by the model's visual representation
capacity and the frame-sampling strategy used to construct the input. Current
video benchmarks are suspected to suffer from substantial frame-sampling bias,
as models are evaluated with different frame selection strategies. In this
work, we propose the first frame-accurate benchmark of state-of-the-art small
VLMs for video question-answering, evaluated under controlled frame-sampling
strategies. Our results confirm the suspected bias and highlight both
data-specific and task-specific behaviors of SVLMs under different
frame-sampling techniques. By open-sourcing our benchmarking code, we provide
the community with a reproducible and unbiased protocol for evaluating video
VLMs and emphasize the need for standardized frame-sampling strategies tailored
to each benchmarking dataset in future research.
Ссылки и действия
Дополнительные ресурсы: