Investigating Traffic Accident Detection Using Multimodal Large Language Models
2509.19096v2
cs.CV, cs.SE
2025-09-25
Авторы:
Ilhan Skender, Kailin Tong, Selim Solmaz, Daniel Watzenig
Резюме на русском
## Контекст
Транспортная безопасность является критически важной проблемой в мировом масштабе, требующей эффективных и оперативных мер для снижения рисков и оказания помощи жертвам. Одним из ключевых аспектов транспортной безопасности является систематическая и точная детекция аварийных ситуаций в режиме реального времени. Инфраструктурные видеокамеры, развернутые во всемирных городах, предлагают широкие возможности для автоматизированного мониторинга и детекции аварий. Однако существующие подходы часто требуют обширных массивов меток данных для обучения моделей, что ограничивает их применение в реальных условиях.
В данной работе рассматривается мощность многомодальных больших языковых моделей (MLLMs) для детекции и описания трафических аварий, используя изображения с инфраструктурных камер. Этот подход снижает необходимость в больших датасетах с метками, обеспечивая более гибкий и эффективный метод для решения проблемы транспортной безопасности.
## Метод
Для эффективного использования MLLMs был разработан процесс оценки и модификации входных данных, чтобы оптимизировать вывод модели. Были использованы следующие технические решения:
1. **Модель YOLO** — для детекции объектов на изображениях в режиме реального времени.
2. **Deep SORT** — для последовательного отслеживания объектов на серии кадров.
3. **Segment Anything (SAM)** — для точного изолирования объектов внутри кадров.
Эти инструменты были интегрированы в процесс подготовки входных данных для моделей MLLMs, чтобы улучшить точность и объяснимость результатов.
Были проведены эксперименты с помощью симулированного DeepAccident датасета из CARLA, который предлагает реалистичные сценарии транспортных происшествий. Модели Gemini 1.5, 2.0, Gemma 3 и Pixtral были оценены на способности к точной детекции и описанию транспортных аварий без дополнительного файн-тюнинга.
## Результаты
Экспериментальные исследования показали, что Pixtral показала наилучшие результаты, достигнув F1-скора 71% и реколл 83%. Модели Gemini 1.5 и 2.0 продемонстрировали высокую точность с помощью усовершенствованных запросов, хотя Gemini 1.5 потеряла в F1-скоре и реколлекции. Gemma 3 продемонстрировала более устойчивую и балансированную производительность с минимальными колебаниями.
Эти результаты указывают на потенциал MLLMs для улучшения автоматизированных систем мониторинга транспорта, особенно когда интегрируются с современными техническими подходами.
## Значимость
Результаты работы могут быть применены в различных сферах, включая автоматизированные системы мониторин
Abstract
Traffic safety remains a critical global concern, with timely and accurate
accident detection essential for hazard reduction and rapid emergency response.
Infrastructure-based vision sensors offer scalable and efficient solutions for
continuous real-time monitoring, facilitating automated detection of accidents
directly from captured images. This research investigates the zero-shot
capabilities of multimodal large language models (MLLMs) for detecting and
describing traffic accidents using images from infrastructure cameras, thus
minimizing reliance on extensive labeled datasets. Main contributions include:
(1) Evaluation of MLLMs using the simulated DeepAccident dataset from CARLA,
explicitly addressing the scarcity of diverse, realistic, infrastructure-based
accident data through controlled simulations; (2) Comparative performance
analysis between Gemini 1.5 and 2.0, Gemma 3 and Pixtral models in accident
identification and descriptive capabilities without prior fine-tuning; and (3)
Integration of advanced visual analytics, specifically YOLO for object
detection, Deep SORT for multi-object tracking, and Segment Anything (SAM) for
instance segmentation, into enhanced prompts to improve model accuracy and
explainability. Key numerical results show Pixtral as the top performer with an
F1-score of 71% and 83% recall, while Gemini models gained precision with
enhanced prompts (e.g., Gemini 1.5 rose to 90%) but suffered notable F1 and
recall losses. Gemma 3 offered the most balanced performance with minimal
metric fluctuation. These findings demonstrate the substantial potential of
integrating MLLMs with advanced visual analytics techniques, enhancing their
applicability in real-world automated traffic monitoring systems.
Ссылки и действия
Дополнительные ресурсы: