Structured Prompting and Multi-Agent Knowledge Distillation for Traffic Video Interpretation and Risk Inference

2508.13439v1 cs.CV, cs.AI, cs.CL, eess.IV 2025-08-21
Авторы:

Yunxiang Yang, Ningning Xu, Jidong J. Yang

Резюме на русском

#### Контекст Интеллектуальные транспортные системы (ITS) и автономное вождение требуют эффективного понимания городских и автострадных сцен, а также точного выявления рисков в дорожном трафике. Однако существующие подходы часто сталкиваются с проблемами в области масштабируемости, гибкости и достоверности анализа в условиях сложной и динамичной среды. Эти ограничения приводят к недостаточной точности и неспособности работать в реальном времени. Многие существующие модели не могут обрабатывать видео с низким разрешением или генерировать подробные, контекстуально обоснованные оценки риска. Требуется разработка новых архитектур, которые бы способствовали улучшению точности и эффективности таких систем. #### Метод Мы предлагаем развитый подход, основанный на идее **Structured Prompting** и **Multi-Agent Knowledge Distillation**. Данная модель использует две большие Vision-Language Models (VLMs): GPT-4o и o3-mini. Используя **Chain-of-Thought (CoT)**, эти модели создают разноплановые и подробные выводы, которые в дальнейшем используются для подготовки знаний (pseudo-annotations). Эти аннотации используются для файн-тюнинга меньшего модели, оптимизированной под ресурсы. Результирующая модель, VISTA (Vision for Intelligent Scene and Traffic Analysis), получает мощные результаты в гибридной задаче видео-обработки и риск-инференции, несмотря на то, что имеет многократно меньшую параметрическую структуру. Это позволяет оптимизировать модель для работы на ресурс-ограниченных устройствах, таких как роутеры и смартфоны. #### Результаты В ходе экспериментов мы сравнивали нашу модель VISTA с другими моделями, используя стандартные метрики качества в области видео-описаний, такие как BLEU-4, METEOR, ROUGE-L и CIDEr. Наши результаты показали, что VISTA существенно превосходит своих тестовых моделей по этим метрикам, несмотря на значительное сокращение количества параметров. Мы также проводили эксперименты в среде реального трафика, где видео с низким разрешением были обработаны VISTA с помощью алгоритмов риск-инференции. Эти результаты показали, что VISTA удается генерировать достоверные оценки риска и сформировать контекстуально обоснованные описания трафика, даже при ограниченных возможностях вычислительных ресурсов. #### Значимость Наш подход имеет широкие возможности для применения в различных областях, включая ITS, автономное вождение и системы безопасности транспорта. Визуальный мониторинг трафика, построенный на VISTA, может быть использован для анализа транспортных проблем, оценки рисков и управления дорожной съемкой. Его мощность заключается в том, что он сочетает в себе высокую точность с низкими

Abstract

Comprehensive highway scene understanding and robust traffic risk inference are vital for advancing Intelligent Transportation Systems (ITS) and autonomous driving. Traditional approaches often struggle with scalability and generalization, particularly under the complex and dynamic conditions of real-world environments. To address these challenges, we introduce a novel structured prompting and knowledge distillation framework that enables automatic generation of high-quality traffic scene annotations and contextual risk assessments. Our framework orchestrates two large Vision-Language Models (VLMs): GPT-4o and o3-mini, using a structured Chain-of-Thought (CoT) strategy to produce rich, multi-perspective outputs. These outputs serve as knowledge-enriched pseudo-annotations for supervised fine-tuning of a much smaller student VLM. The resulting compact 3B-scale model, named VISTA (Vision for Intelligent Scene and Traffic Analysis), is capable of understanding low-resolution traffic videos and generating semantically faithful, risk-aware captions. Despite its significantly reduced parameter count, VISTA achieves strong performance across established captioning metrics (BLEU-4, METEOR, ROUGE-L, and CIDEr) when benchmarked against its teacher models. This demonstrates that effective knowledge distillation and structured multi-agent supervision can empower lightweight VLMs to capture complex reasoning capabilities. The compact architecture of VISTA facilitates efficient deployment on edge devices, enabling real-time risk monitoring without requiring extensive infrastructure upgrades.

Ссылки и действия

Связанные статьи

MindVL: Towards Efficient and Effective Training of Multimodal Large Language Mo...

#### Контекст Современное развитие искусственного интеллекта способствует появлению моделей, обладающих многомодальными...

2025-09-17

Multi-Agent Visual-Language Reasoning for Comprehensive Highway Scene Understand...

#### Контекст Дорожная среда представляет собой сложный синергетический процесс, в котором сочетаются физические, светл...

2025-08-27