Structured Prompting and Multi-Agent Knowledge Distillation for Traffic Video Interpretation and Risk Inference
2508.13439v1
cs.CV, cs.AI, cs.CL, eess.IV
2025-08-21
Авторы:
Yunxiang Yang, Ningning Xu, Jidong J. Yang
Резюме на русском
#### Контекст
Интеллектуальные транспортные системы (ITS) и автономное вождение требуют эффективного понимания городских и автострадных сцен, а также точного выявления рисков в дорожном трафике. Однако существующие подходы часто сталкиваются с проблемами в области масштабируемости, гибкости и достоверности анализа в условиях сложной и динамичной среды. Эти ограничения приводят к недостаточной точности и неспособности работать в реальном времени. Многие существующие модели не могут обрабатывать видео с низким разрешением или генерировать подробные, контекстуально обоснованные оценки риска. Требуется разработка новых архитектур, которые бы способствовали улучшению точности и эффективности таких систем.
#### Метод
Мы предлагаем развитый подход, основанный на идее **Structured Prompting** и **Multi-Agent Knowledge Distillation**. Данная модель использует две большие Vision-Language Models (VLMs): GPT-4o и o3-mini. Используя **Chain-of-Thought (CoT)**, эти модели создают разноплановые и подробные выводы, которые в дальнейшем используются для подготовки знаний (pseudo-annotations). Эти аннотации используются для файн-тюнинга меньшего модели, оптимизированной под ресурсы. Результирующая модель, VISTA (Vision for Intelligent Scene and Traffic Analysis), получает мощные результаты в гибридной задаче видео-обработки и риск-инференции, несмотря на то, что имеет многократно меньшую параметрическую структуру. Это позволяет оптимизировать модель для работы на ресурс-ограниченных устройствах, таких как роутеры и смартфоны.
#### Результаты
В ходе экспериментов мы сравнивали нашу модель VISTA с другими моделями, используя стандартные метрики качества в области видео-описаний, такие как BLEU-4, METEOR, ROUGE-L и CIDEr. Наши результаты показали, что VISTA существенно превосходит своих тестовых моделей по этим метрикам, несмотря на значительное сокращение количества параметров. Мы также проводили эксперименты в среде реального трафика, где видео с низким разрешением были обработаны VISTA с помощью алгоритмов риск-инференции. Эти результаты показали, что VISTA удается генерировать достоверные оценки риска и сформировать контекстуально обоснованные описания трафика, даже при ограниченных возможностях вычислительных ресурсов.
#### Значимость
Наш подход имеет широкие возможности для применения в различных областях, включая ITS, автономное вождение и системы безопасности транспорта. Визуальный мониторинг трафика, построенный на VISTA, может быть использован для анализа транспортных проблем, оценки рисков и управления дорожной съемкой. Его мощность заключается в том, что он сочетает в себе высокую точность с низкими
Abstract
Comprehensive highway scene understanding and robust traffic risk inference
are vital for advancing Intelligent Transportation Systems (ITS) and autonomous
driving. Traditional approaches often struggle with scalability and
generalization, particularly under the complex and dynamic conditions of
real-world environments. To address these challenges, we introduce a novel
structured prompting and knowledge distillation framework that enables
automatic generation of high-quality traffic scene annotations and contextual
risk assessments. Our framework orchestrates two large Vision-Language Models
(VLMs): GPT-4o and o3-mini, using a structured Chain-of-Thought (CoT) strategy
to produce rich, multi-perspective outputs. These outputs serve as
knowledge-enriched pseudo-annotations for supervised fine-tuning of a much
smaller student VLM. The resulting compact 3B-scale model, named VISTA (Vision
for Intelligent Scene and Traffic Analysis), is capable of understanding
low-resolution traffic videos and generating semantically faithful, risk-aware
captions. Despite its significantly reduced parameter count, VISTA achieves
strong performance across established captioning metrics (BLEU-4, METEOR,
ROUGE-L, and CIDEr) when benchmarked against its teacher models. This
demonstrates that effective knowledge distillation and structured multi-agent
supervision can empower lightweight VLMs to capture complex reasoning
capabilities. The compact architecture of VISTA facilitates efficient
deployment on edge devices, enabling real-time risk monitoring without
requiring extensive infrastructure upgrades.