SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

2508.06763v1 cs.CV, cs.AI 2025-08-14

Авторы:

Zihao Sheng, Zilin Huang, Yen-Jung Chen, Yansong Qu, Yuhao Luo, Yue Leng, Sikai Chen

Резюме на русском

## Контекст Многомодальные большие языковые модели (MLLMs) показали свою эффективность в различных визуально-языковых задачах, включая понимание трафика. Однако существующие модели часто ограничиваются широкой интерпретацией всей картины или видео, недостаточно учитывая тонкие детали изображений или локальные компоненты сцены. Это затрудняет применение в сложных сценариях аварийного трафика. Для развития технологий, способных обеспечивать более тонкую интерактивность в таких сценариях, требуется развитие новых подходов, которые бы позволили моделям более точно инте pretерпеть и анализировать сложные трафические сцены на уровне пикселей. ## Метод Мы предлагаем SafePLUG, новую архитектуру, которая обеспечивает MLLMs возможность работы на уровне пикселей, а также включает в себя возможность темпоральной гранулярности. Модель обеспечивает способность к работе в регионах визуальных проводах (интересов), реализуя возможности для точного вопроса-ответа, а также возможность автоматической сегментации пикселей по языковым инструкциям. Благодаря этим возможностям, модель способна обнаруживать и анализировать случаи взаимодействия подробных объектов в сцене, а также распознавать временные события в трафиках. Мы также создали новую датасет для трафика, содержащую мультимодальные вопросы-ответы, пиксельно-уровневые заметки, а также отметки времени для событий. ## Результаты Выполнены ряд экспериментов, подтвердивших высокую эффективность SafePLUG в различных задачах, включая региональное вопрос-ответ, пиксель-уровневую сегментацию, локализацию временных событий и понимание сцен в целом. Модель показала свою высокую точность при работе с мультимодальными данными и детальной работой с пикселями, что способствует повышению точности понимания сложных трафических сцен и повышению безопасности на дороге. ## Значимость Модель SafePLUG может иметь широкое применение в системах "умного" транспорта, включая анализ видео трафика, помощь водителям, а также в системах со смарт-транспортом. Основное преимущество модели заключается в том, что она позволяет обрабатывать видео трафика на уровне пикселей, что повышает точность распознавания объектов и взаимодействий в сцене. Это может положительно сказаться на развитии систем автоматического управления транспортом, улучшении безопасности на дорогах и повышении ситуационной осведомленности водителей. ## Выводы SafePLUG достигает высокой точности в ряде задач понимания трафика, включая региональное вопрос-ответ, пиксе

Abstract

Multimodal large language models (MLLMs) have achieved remarkable progress across a range of vision-language tasks and demonstrate strong potential for traffic accident understanding. However, existing MLLMs in this domain primarily focus on coarse-grained image-level or video-level comprehension and often struggle to handle fine-grained visual details or localized scene components, limiting their applicability in complex accident scenarios. To address these limitations, we propose SafePLUG, a novel framework that empowers MLLMs with both Pixel-Level Understanding and temporal Grounding for comprehensive traffic accident analysis. SafePLUG supports both arbitrary-shaped visual prompts for region-aware question answering and pixel-level segmentation based on language instructions, while also enabling the recognition of temporally anchored events in traffic accident scenarios. To advance the development of MLLMs for traffic accident understanding, we curate a new dataset containing multimodal question-answer pairs centered on diverse accident scenarios, with detailed pixel-level annotations and temporal event boundaries. Experimental results show that SafePLUG achieves strong performance on multiple tasks, including region-based question answering, pixel-level segmentation, temporal event localization, and accident event understanding. These capabilities lay a foundation for fine-grained understanding of complex traffic scenes, with the potential to improve driving safety and enhance situational awareness in smart transportation systems. The code, dataset, and model checkpoints will be made publicly available at: https://zihaosheng.github.io/SafePLUG

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация