The System Description of CPS Team for Track on Driving with Language of CVPR 2024 Autonomous Grand Challenge

2509.11071v1 cs.CV, cs.AI, cs.CL 2025-09-17

Авторы:

Jinghan Peng, Jingwen Wang, Xing Yu, Dehui Du

Резюме на русском

## Контекст В последние годы наблюдается значительный рост интереса к интеграции языка и видения в автоматизированные системы, особенно в контексте автономного вождения. Это связано с тем, что водители часто принимают решения на основе как визуальной информации, так и языковых команд или описаний. Однако объединение этих двух сфер представляет серьезные вызовы, включая необходимость обработки больших объемов данных, аккуратной интеграции языковых моделей с результатами визуального анализа, а также вопросы точности и надежности решений. Трек Driving with Language в CVPR 2024 Autonomous Grand Challenge предлагает разработчикам систем автономного вождения решать задачи на основе языка, описывающих действия, динамику и сценарии на дороге. Недостаток специализированных данных и сложность моделей, объединяющих многомодальные данные, оставляет много пространства для развития и инноваций. Наша команда, CPS, выделила эту область как ключевую для исследований и приложила усилия к развитию моделей, которые могут эффективно обрабатывать такие задачи. ## Метод Мы разработали систему на основе моделей языка и видения, ориентированную на задачи, которые появляются при вождении с учетом языковых команд. Наша архитектура основывается на LLaVA (Large Language and Vision Assistant), широко известной за свою способность объединять визуальные сенсоры и текстовые модели. Для улучшения модели мы применили методы fine-tuning, включая LoRA (Low-Rank Adaptation) и DoRA (Decoupled LoRA). Эти методы позволили адаптировать модель к конкретным задачам, улучшив ее общую точность и универсальность. Более того, мы интегрировали открытые технологии depth estimation для добавления глубины в изображения, что помогло модели сопоставить визуальные данные с пространственным контекстом. Для обработки задач с несколькими вариантами ответов (multiple-choice) и логически заданных вопросов (yes/no), мы применяли Chain-of-Thought (CoT) reasoning. Это позволило модели организовывать логику решения задачи поэтапно, улучшая качество вывода и связность. ## Результаты Мы проводили эксперименты на датасете DriveLM-nuScenes, оптимизировав модель для различных сценариев, включая действия водителя, обнаружение объектов и реакции на ситуации на дороге. Наша модель показала самые высокие результаты на предварительной этапе, достигнув точности 0.7799 на валидационной выборке. Это стало причиной того, что наша система заняла первое место в рейтинге. Эти результаты доказывают эффективность нашего подхода в объединении визуальных и языковых моделей в контексте автономного вождения. ## Значимость Наш подход имеет широкие применения в области автономных систем вождения, включая обеспечение безопасно

Abstract

This report outlines our approach using vision language model systems for the Driving with Language track of the CVPR 2024 Autonomous Grand Challenge. We have exclusively utilized the DriveLM-nuScenes dataset for training our models. Our systems are built on the LLaVA models, which we enhanced through fine-tuning with the LoRA and DoRA methods. Additionally, we have integrated depth information from open-source depth estimation models to enrich the training and inference processes. For inference, particularly with multiple-choice and yes/no questions, we adopted a Chain-of-Thought reasoning approach to improve the accuracy of the results. This comprehensive methodology enabled us to achieve a top score of 0.7799 on the validation set leaderboard, ranking 1st on the leaderboard.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

The System Description of CPS Team for Track on Driving with Language of CVPR 2024 Autonomous Grand Challenge

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Traini...

NAS-LoRA: Empowering Parameter-Efficient Fine-Tuning for Visual Foundation Model...

Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Stream...

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcem...

Навигация