Multi-Agent Visual-Language Reasoning for Comprehensive Highway Scene Understanding
2508.17205v1
cs.CV, cs.AI, cs.CL, eess.IV
2025-08-27
Авторы:
Yunxiang Yang, Ningning Xu, Jidong J. Yang
Резюме на русском
#### Контекст
Дорожная среда представляет собой сложный синергетический процесс, в котором сочетаются физические, светлые и технологические аспекты. Одна из самых важных задач в области транспорта — достичь предельной полноты понимания дорожной среды с помощью анализа видеоданных. Эта задача включает в себя различные задачи, такие как классификация погодных условий, оценка влажности полотна дороги и потоковый трафик. Однако существуют значительные ограничения в точности, эффективности и ресурсоемкость существующих систем. Многие системы используют монолитные архитектуры, которые неэффективно обрабатывают разнообразные данные. Необходима новая подходящая многоагентная система, которая сможет решать несколько задач одновременно, обеспечивающая быстродействие и высокую точность.
#### Метод
Мы предлагаем многоагентный фреймворк для многозадачного понимания дорожной среды, основанный на стратегии "смеси экспертов". Этот фреймворк использует большую генерическую модель зрения и языка (VLM), такую как GPT-4o, для контекстуализации с помощью данных о специальных темах. Эти конкретные задачи, выраженные в виде цепочки мыслей (CoT-промптов), используются для управления меньшей, но эффективной моделью VLM (например, Qwen2.5-VL-7B). Эта модель выполняет рассуждение в небольших видеопотоках и может взаимодействовать с другими модальностями, такими как видео и датчики дорожного окружения. Многоагентная система может работать с несколькими задачами, включая классификацию погодных условий, оценку влажности полотна дороги и обнаружение транспортной загруженности. Такая система обеспечивает высокую точность и эффективность, при этом решая несколько задач сразу.
#### Результаты
Мы проводили ряд экспериментов, используя три специализированных набора данных, которые соответствуют вышеупомянутым задачам. Для паведмент-витрины мы использовали многомодальные данные, включающие видео и данные с дорожных датчиков. Экспериментальные результаты показали, что наш фреймворк показывает высокую точность в различных ситуациях, включая технические условия, такие как дожди и снег. Наши результаты показали, что наша многоагентная система значительно превосходит существующие методы, обеспечивая более точный и эффективный анализ дорожной среды.
#### Значимость
Наш фреймворк может применяться в различных сферах, таких как отдаленное мониторинговое трафиковое управление, системы автоматического обнаружения дорожных условий и технологии поддержки решений. Он предлагает существенные преимущества,
Abstract
This paper introduces a multi-agent framework for comprehensive highway scene
understanding, designed around a mixture-of-experts strategy. In this
framework, a large generic vision-language model (VLM), such as GPT-4o, is
contextualized with domain knowledge to generates task-specific
chain-of-thought (CoT) prompts. These fine-grained prompts are then used to
guide a smaller, efficient VLM (e.g., Qwen2.5-VL-7B) in reasoning over short
videos, along with complementary modalities as applicable. The framework
simultaneously addresses multiple critical perception tasks, including weather
classification, pavement wetness assessment, and traffic congestion detection,
achieving robust multi-task reasoning while balancing accuracy and
computational efficiency. To support empirical validation, we curated three
specialized datasets aligned with these tasks. Notably, the pavement wetness
dataset is multimodal, combining video streams with road weather sensor data,
highlighting the benefits of multimodal reasoning. Experimental results
demonstrate consistently strong performance across diverse traffic and
environmental conditions. From a deployment perspective, the framework can be
readily integrated with existing traffic camera systems and strategically
applied to high-risk rural locations, such as sharp curves, flood-prone
lowlands, or icy bridges. By continuously monitoring the targeted sites, the
system enhances situational awareness and delivers timely alerts, even in
resource-constrained environments.