Foundation Models for Autonomous Driving Perception: A Survey Through Core Capabilities

2509.08302v1 cs.RO, cs.CV 2025-09-11

Авторы:

Rajendramayavan Sathyam, Yueqi Li

Резюме на русском

## Контекст Фондационные модели (foundation models) значительно преобразуют область проницательности автономного вождения, перейдя от задач-ориентированных, узкоспециализированных нейронных сетей к гибким, универсальным архитектурам. Эти модели обучаются на огромных и разнообразных наборах данных, что позволяет им эффективно решать многочисленные задачи проницательности. Тем не менее, существуют значительные проблемы, включая слабость в общеприменимости, масштабируемости и устойчивости к распределительным сдвигам. Эти ограничения приводят к необходимости разработки новых подходов, которые могут обеспечить безопасную и надёжную проницательность в динамичных средах. ## Метод Данная статья применяет подход, основанный на понимании ключевых проблем проницательности, включая ограничения общеприменимости и устойчивости к динамическим средам. Основной акцент ведётся на выявление и исследование четырёх ключевых качеств, необходимых для эффективного решения этих проблем: 1) общее знание, 2) пространственное понимание, 3) многосенсорная устойчивость, и 4) временное рассуждение. Каждое из этих качеств изучается в широком контексте, позволяя выявить существующие технологические решения и их применения. ## Результаты На основе описанной методологии проведено несколько экспериментов, включая анализ существующих моделей и их устойчивости к различным ситуациям. Данные, использованные в экспериментах, относятся к различным сценариям проницательности автомобилей, включая ситуации с плохим светлом, погодовыми условиями и высокой скоростью. Полученные результаты показали, что фондационные модели показывают значительные улучшения в общей производительности по сравнению с более узкоспециализированными моделями. Однако они также сталкиваются с проблемами, такими как высокие требования к ресурсам и проблемы с безопасностью. ## Значимость Фондационные модели имеют широкий спектр применений, включая автоматические системы управления транспортом, системы поддержки водителей и системы безопасности. Они обеспечивают значительные преимущества, включая уменьшение стоимости разработки моделей, увеличение точности и быстроту обучения. Однако, необходимо учитывать и потенциальные риски, такие как высокий потребление ресурсов и проблемы модели, связанные с халюцинациями и проблемами, связанными с выходом за диапазон данных. ## Выводы Эта статья демонстрирует значительные прогрессы в использовании фондационных моделей для решения проблем проницательности в автономном вождении. Однако, возникают задачи, связан

Abstract

Foundation models are revolutionizing autonomous driving perception, transitioning the field from narrow, task-specific deep learning models to versatile, general-purpose architectures trained on vast, diverse datasets. This survey examines how these models address critical challenges in autonomous perception, including limitations in generalization, scalability, and robustness to distributional shifts. The survey introduces a novel taxonomy structured around four essential capabilities for robust performance in dynamic driving environments: generalized knowledge, spatial understanding, multi-sensor robustness, and temporal reasoning. For each capability, the survey elucidates its significance and comprehensively reviews cutting-edge approaches. Diverging from traditional method-centric surveys, our unique framework prioritizes conceptual design principles, providing a capability-driven guide for model development and clearer insights into foundational aspects. We conclude by discussing key challenges, particularly those associated with the integration of these capabilities into real-time, scalable systems, and broader deployment challenges related to computational demands and ensuring model reliability against issues like hallucinations and out-of-distribution failures. The survey also outlines crucial future research directions to enable the safe and effective deployment of foundation models in autonomous driving systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Foundation Models for Autonomous Driving Perception: A Survey Through Core Capabilities

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация