The System Description of CPS Team for Track on Driving with Language of CVPR 2024 Autonomous Grand Challenge
2509.11071v1
cs.CV, cs.AI, cs.CL
2025-09-17
Авторы:
Jinghan Peng, Jingwen Wang, Xing Yu, Dehui Du
Резюме на русском
## Контекст
В последние годы наблюдается значительный рост интереса к интеграции языка и видения в автоматизированные системы, особенно в контексте автономного вождения. Это связано с тем, что водители часто принимают решения на основе как визуальной информации, так и языковых команд или описаний. Однако объединение этих двух сфер представляет серьезные вызовы, включая необходимость обработки больших объемов данных, аккуратной интеграции языковых моделей с результатами визуального анализа, а также вопросы точности и надежности решений.
Трек Driving with Language в CVPR 2024 Autonomous Grand Challenge предлагает разработчикам систем автономного вождения решать задачи на основе языка, описывающих действия, динамику и сценарии на дороге. Недостаток специализированных данных и сложность моделей, объединяющих многомодальные данные, оставляет много пространства для развития и инноваций. Наша команда, CPS, выделила эту область как ключевую для исследований и приложила усилия к развитию моделей, которые могут эффективно обрабатывать такие задачи.
## Метод
Мы разработали систему на основе моделей языка и видения, ориентированную на задачи, которые появляются при вождении с учетом языковых команд. Наша архитектура основывается на LLaVA (Large Language and Vision Assistant), широко известной за свою способность объединять визуальные сенсоры и текстовые модели. Для улучшения модели мы применили методы fine-tuning, включая LoRA (Low-Rank Adaptation) и DoRA (Decoupled LoRA). Эти методы позволили адаптировать модель к конкретным задачам, улучшив ее общую точность и универсальность.
Более того, мы интегрировали открытые технологии depth estimation для добавления глубины в изображения, что помогло модели сопоставить визуальные данные с пространственным контекстом. Для обработки задач с несколькими вариантами ответов (multiple-choice) и логически заданных вопросов (yes/no), мы применяли Chain-of-Thought (CoT) reasoning. Это позволило модели организовывать логику решения задачи поэтапно, улучшая качество вывода и связность.
## Результаты
Мы проводили эксперименты на датасете DriveLM-nuScenes, оптимизировав модель для различных сценариев, включая действия водителя, обнаружение объектов и реакции на ситуации на дороге. Наша модель показала самые высокие результаты на предварительной этапе, достигнув точности 0.7799 на валидационной выборке. Это стало причиной того, что наша система заняла первое место в рейтинге. Эти результаты доказывают эффективность нашего подхода в объединении визуальных и языковых моделей в контексте автономного вождения.
## Значимость
Наш подход имеет широкие применения в области автономных систем вождения, включая обеспечение безопасно
Abstract
This report outlines our approach using vision language model systems for the
Driving with Language track of the CVPR 2024 Autonomous Grand Challenge. We
have exclusively utilized the DriveLM-nuScenes dataset for training our models.
Our systems are built on the LLaVA models, which we enhanced through
fine-tuning with the LoRA and DoRA methods. Additionally, we have integrated
depth information from open-source depth estimation models to enrich the
training and inference processes. For inference, particularly with
multiple-choice and yes/no questions, we adopted a Chain-of-Thought reasoning
approach to improve the accuracy of the results. This comprehensive methodology
enabled us to achieve a top score of 0.7799 on the validation set leaderboard,
ranking 1st on the leaderboard.
Ссылки и действия
Дополнительные ресурсы: