Multi-Agent Visual-Language Reasoning for Comprehensive Highway Scene Understanding

2508.17205v1 cs.CV, cs.AI, cs.CL, eess.IV 2025-08-27
Авторы:

Yunxiang Yang, Ningning Xu, Jidong J. Yang

Резюме на русском

#### Контекст Дорожная среда представляет собой сложный синергетический процесс, в котором сочетаются физические, светлые и технологические аспекты. Одна из самых важных задач в области транспорта — достичь предельной полноты понимания дорожной среды с помощью анализа видеоданных. Эта задача включает в себя различные задачи, такие как классификация погодных условий, оценка влажности полотна дороги и потоковый трафик. Однако существуют значительные ограничения в точности, эффективности и ресурсоемкость существующих систем. Многие системы используют монолитные архитектуры, которые неэффективно обрабатывают разнообразные данные. Необходима новая подходящая многоагентная система, которая сможет решать несколько задач одновременно, обеспечивающая быстродействие и высокую точность. #### Метод Мы предлагаем многоагентный фреймворк для многозадачного понимания дорожной среды, основанный на стратегии "смеси экспертов". Этот фреймворк использует большую генерическую модель зрения и языка (VLM), такую как GPT-4o, для контекстуализации с помощью данных о специальных темах. Эти конкретные задачи, выраженные в виде цепочки мыслей (CoT-промптов), используются для управления меньшей, но эффективной моделью VLM (например, Qwen2.5-VL-7B). Эта модель выполняет рассуждение в небольших видеопотоках и может взаимодействовать с другими модальностями, такими как видео и датчики дорожного окружения. Многоагентная система может работать с несколькими задачами, включая классификацию погодных условий, оценку влажности полотна дороги и обнаружение транспортной загруженности. Такая система обеспечивает высокую точность и эффективность, при этом решая несколько задач сразу. #### Результаты Мы проводили ряд экспериментов, используя три специализированных набора данных, которые соответствуют вышеупомянутым задачам. Для паведмент-витрины мы использовали многомодальные данные, включающие видео и данные с дорожных датчиков. Экспериментальные результаты показали, что наш фреймворк показывает высокую точность в различных ситуациях, включая технические условия, такие как дожди и снег. Наши результаты показали, что наша многоагентная система значительно превосходит существующие методы, обеспечивая более точный и эффективный анализ дорожной среды. #### Значимость Наш фреймворк может применяться в различных сферах, таких как отдаленное мониторинговое трафиковое управление, системы автоматического обнаружения дорожных условий и технологии поддержки решений. Он предлагает существенные преимущества,

Abstract

This paper introduces a multi-agent framework for comprehensive highway scene understanding, designed around a mixture-of-experts strategy. In this framework, a large generic vision-language model (VLM), such as GPT-4o, is contextualized with domain knowledge to generates task-specific chain-of-thought (CoT) prompts. These fine-grained prompts are then used to guide a smaller, efficient VLM (e.g., Qwen2.5-VL-7B) in reasoning over short videos, along with complementary modalities as applicable. The framework simultaneously addresses multiple critical perception tasks, including weather classification, pavement wetness assessment, and traffic congestion detection, achieving robust multi-task reasoning while balancing accuracy and computational efficiency. To support empirical validation, we curated three specialized datasets aligned with these tasks. Notably, the pavement wetness dataset is multimodal, combining video streams with road weather sensor data, highlighting the benefits of multimodal reasoning. Experimental results demonstrate consistently strong performance across diverse traffic and environmental conditions. From a deployment perspective, the framework can be readily integrated with existing traffic camera systems and strategically applied to high-risk rural locations, such as sharp curves, flood-prone lowlands, or icy bridges. By continuously monitoring the targeted sites, the system enhances situational awareness and delivers timely alerts, even in resource-constrained environments.

Ссылки и действия

Связанные статьи

MindVL: Towards Efficient and Effective Training of Multimodal Large Language Mo...

#### Контекст Современное развитие искусственного интеллекта способствует появлению моделей, обладающих многомодальными...

2025-09-17

Structured Prompting and Multi-Agent Knowledge Distillation for Traffic Video In...

#### Контекст Интеллектуальные транспортные системы (ITS) и автономное вождение требуют эффективного понимания городски...

2025-08-21