Video Understanding by Design: How Datasets Shape Architectures and Insights

2509.09151v1 cs.CV, cs.AI, cs.LG 2025-09-13
Авторы:

Lei Wang, Piotr Koniusz, Yongsheng Gao

Резюме на русском

## Контекст Видеопонимание — одна из наиболее активных и важных областей искусственного интеллекта. Оно находит применение в различных сферах, включая анализ поведения, безопасность, медицинский мониторинг и многие другие. Однако проблема в том, что видео — это высокомерных, громоздкий и сложный формат данных, который представляет собой серию изображений, сопровождаемых последовательностью событий во времени. Это делает его сложным для обработки и анализа. Существующие методы по видеопониманию часто страдают от недостатка тренировочных данных, несогласованности в качестве данных и ограниченности в задачах, которые они могут решать. Одним из ключевых факторов, ограничивающим прогресс в этой области, является отсутствие широкой системы знаний об эффективности использования данных и выбора моделей. Эта статья предлагает подробный анализ того, как выбор данных и их структура влияют на развитие архитектуры моделей в видеопонимании. ## Метод Методология, примененная в этой статье, основывается на подробном анализе существующих данных и архитектур моделей в видеопонимании. Авторы рассматривают различные аспекты, влияющие на развитие моделей, включая: 1. **Многовидность данных**: Анализ видеоданных включает в себя различные структуры данных, такие как изображения, текст, звук и другие модальности. Авторы исследуют, как эти различные модальности влияют на развитие моделей. 2. **Сложность движения**: Авторы исследуют, как различные типы движения в видео (такие как движение рук, головы или тела) влияют на то, как модели обучаются. 3. **Временная динамика**: Авторы рассматривают, каким образом различные временные масштабы в видео (скорость движения, продолжительность действий) влияют на выбор архитектур моделей. 4. **Иерархическая структура данных**: Авторы исследуют, как различные уровни детализации в видео (такие как кадры, сцены и сценарии) влияют на архитектуру моделей. 5. **Многомодальность**: Авторы исследуют, как различные модальности (такие как видео, звук и текст) влияют на развитие моделей, а также как они могут быть объединены для повышения эффективности. ## Результаты Авторы проводили подробный анализ существующих данных и архитектур моделей в видеопонимании, включая такие модели, как двухпоточные модели, 3D-модели CNN, секвенсовые модели, трансформеры и многомодальные фундаментальные модели. Они показали, как различные модели реагируют на сложности данных и как они эволюционировали в ответ на эти сложности. На основе этого анализа, авторы предложили несколько практических рекомендаций для выбора мо

Abstract

Video understanding has advanced rapidly, fueled by increasingly complex datasets and powerful architectures. Yet existing surveys largely classify models by task or family, overlooking the structural pressures through which datasets guide architectural evolution. This survey is the first to adopt a dataset-driven perspective, showing how motion complexity, temporal span, hierarchical composition, and multimodal richness impose inductive biases that models should encode. We reinterpret milestones, from two-stream and 3D CNNs to sequential, transformer, and multimodal foundation models, as concrete responses to these dataset-driven pressures. Building on this synthesis, we offer practical guidance for aligning model design with dataset invariances while balancing scalability and task demands. By unifying datasets, inductive biases, and architectures into a coherent framework, this survey provides both a comprehensive retrospective and a prescriptive roadmap for advancing general-purpose video understanding.

Ссылки и действия