Investigating Traffic Accident Detection Using Multimodal Large Language Models

2509.19096v2 cs.CV, cs.SE 2025-09-25

Авторы:

Ilhan Skender, Kailin Tong, Selim Solmaz, Daniel Watzenig

Резюме на русском

## Контекст Транспортная безопасность является критически важной проблемой в мировом масштабе, требующей эффективных и оперативных мер для снижения рисков и оказания помощи жертвам. Одним из ключевых аспектов транспортной безопасности является систематическая и точная детекция аварийных ситуаций в режиме реального времени. Инфраструктурные видеокамеры, развернутые во всемирных городах, предлагают широкие возможности для автоматизированного мониторинга и детекции аварий. Однако существующие подходы часто требуют обширных массивов меток данных для обучения моделей, что ограничивает их применение в реальных условиях. В данной работе рассматривается мощность многомодальных больших языковых моделей (MLLMs) для детекции и описания трафических аварий, используя изображения с инфраструктурных камер. Этот подход снижает необходимость в больших датасетах с метками, обеспечивая более гибкий и эффективный метод для решения проблемы транспортной безопасности. ## Метод Для эффективного использования MLLMs был разработан процесс оценки и модификации входных данных, чтобы оптимизировать вывод модели. Были использованы следующие технические решения: 1. **Модель YOLO** — для детекции объектов на изображениях в режиме реального времени. 2. **Deep SORT** — для последовательного отслеживания объектов на серии кадров. 3. **Segment Anything (SAM)** — для точного изолирования объектов внутри кадров. Эти инструменты были интегрированы в процесс подготовки входных данных для моделей MLLMs, чтобы улучшить точность и объяснимость результатов. Были проведены эксперименты с помощью симулированного DeepAccident датасета из CARLA, который предлагает реалистичные сценарии транспортных происшествий. Модели Gemini 1.5, 2.0, Gemma 3 и Pixtral были оценены на способности к точной детекции и описанию транспортных аварий без дополнительного файн-тюнинга. ## Результаты Экспериментальные исследования показали, что Pixtral показала наилучшие результаты, достигнув F1-скора 71% и реколл 83%. Модели Gemini 1.5 и 2.0 продемонстрировали высокую точность с помощью усовершенствованных запросов, хотя Gemini 1.5 потеряла в F1-скоре и реколлекции. Gemma 3 продемонстрировала более устойчивую и балансированную производительность с минимальными колебаниями. Эти результаты указывают на потенциал MLLMs для улучшения автоматизированных систем мониторинга транспорта, особенно когда интегрируются с современными техническими подходами. ## Значимость Результаты работы могут быть применены в различных сферах, включая автоматизированные системы мониторин

Abstract

Traffic safety remains a critical global concern, with timely and accurate accident detection essential for hazard reduction and rapid emergency response. Infrastructure-based vision sensors offer scalable and efficient solutions for continuous real-time monitoring, facilitating automated detection of accidents directly from captured images. This research investigates the zero-shot capabilities of multimodal large language models (MLLMs) for detecting and describing traffic accidents using images from infrastructure cameras, thus minimizing reliance on extensive labeled datasets. Main contributions include: (1) Evaluation of MLLMs using the simulated DeepAccident dataset from CARLA, explicitly addressing the scarcity of diverse, realistic, infrastructure-based accident data through controlled simulations; (2) Comparative performance analysis between Gemini 1.5 and 2.0, Gemma 3 and Pixtral models in accident identification and descriptive capabilities without prior fine-tuning; and (3) Integration of advanced visual analytics, specifically YOLO for object detection, Deep SORT for multi-object tracking, and Segment Anything (SAM) for instance segmentation, into enhanced prompts to improve model accuracy and explainability. Key numerical results show Pixtral as the top performer with an F1-score of 71% and 83% recall, while Gemini models gained precision with enhanced prompts (e.g., Gemini 1.5 rose to 90%) but suffered notable F1 and recall losses. Gemma 3 offered the most balanced performance with minimal metric fluctuation. These findings demonstrate the substantial potential of integrating MLLMs with advanced visual analytics techniques, enhancing their applicability in real-world automated traffic monitoring systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Investigating Traffic Accident Detection Using Multimodal Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Retrieval-Augmented Generation Approach to Extracting Algorithmic Logic from N...

SWAN -- Enabling Fast and Mobile Histopathology Image Annotation through Swipeab...

Cross-Breed Pig Identification Using Auricular Vein Pattern Recognition: A Machi...

ARI3D: A Software for Interactive Quantification of Regions in X-Ray CT 3D Image...

Навигация