Foundation Models for Autonomous Driving Perception: A Survey Through Core Capabilities
2509.08302v1
cs.RO, cs.CV
2025-09-11
Авторы:
Rajendramayavan Sathyam, Yueqi Li
Резюме на русском
## Контекст
Фондационные модели (foundation models) значительно преобразуют область проницательности автономного вождения, перейдя от задач-ориентированных, узкоспециализированных нейронных сетей к гибким, универсальным архитектурам. Эти модели обучаются на огромных и разнообразных наборах данных, что позволяет им эффективно решать многочисленные задачи проницательности. Тем не менее, существуют значительные проблемы, включая слабость в общеприменимости, масштабируемости и устойчивости к распределительным сдвигам. Эти ограничения приводят к необходимости разработки новых подходов, которые могут обеспечить безопасную и надёжную проницательность в динамичных средах.
## Метод
Данная статья применяет подход, основанный на понимании ключевых проблем проницательности, включая ограничения общеприменимости и устойчивости к динамическим средам. Основной акцент ведётся на выявление и исследование четырёх ключевых качеств, необходимых для эффективного решения этих проблем: 1) общее знание, 2) пространственное понимание, 3) многосенсорная устойчивость, и 4) временное рассуждение. Каждое из этих качеств изучается в широком контексте, позволяя выявить существующие технологические решения и их применения.
## Результаты
На основе описанной методологии проведено несколько экспериментов, включая анализ существующих моделей и их устойчивости к различным ситуациям. Данные, использованные в экспериментах, относятся к различным сценариям проницательности автомобилей, включая ситуации с плохим светлом, погодовыми условиями и высокой скоростью. Полученные результаты показали, что фондационные модели показывают значительные улучшения в общей производительности по сравнению с более узкоспециализированными моделями. Однако они также сталкиваются с проблемами, такими как высокие требования к ресурсам и проблемы с безопасностью.
## Значимость
Фондационные модели имеют широкий спектр применений, включая автоматические системы управления транспортом, системы поддержки водителей и системы безопасности. Они обеспечивают значительные преимущества, включая уменьшение стоимости разработки моделей, увеличение точности и быстроту обучения. Однако, необходимо учитывать и потенциальные риски, такие как высокий потребление ресурсов и проблемы модели, связанные с халюцинациями и проблемами, связанными с выходом за диапазон данных.
## Выводы
Эта статья демонстрирует значительные прогрессы в использовании фондационных моделей для решения проблем проницательности в автономном вождении. Однако, возникают задачи, связан
Abstract
Foundation models are revolutionizing autonomous driving perception,
transitioning the field from narrow, task-specific deep learning models to
versatile, general-purpose architectures trained on vast, diverse datasets.
This survey examines how these models address critical challenges in autonomous
perception, including limitations in generalization, scalability, and
robustness to distributional shifts. The survey introduces a novel taxonomy
structured around four essential capabilities for robust performance in dynamic
driving environments: generalized knowledge, spatial understanding,
multi-sensor robustness, and temporal reasoning. For each capability, the
survey elucidates its significance and comprehensively reviews cutting-edge
approaches. Diverging from traditional method-centric surveys, our unique
framework prioritizes conceptual design principles, providing a
capability-driven guide for model development and clearer insights into
foundational aspects. We conclude by discussing key challenges, particularly
those associated with the integration of these capabilities into real-time,
scalable systems, and broader deployment challenges related to computational
demands and ensuring model reliability against issues like hallucinations and
out-of-distribution failures. The survey also outlines crucial future research
directions to enable the safe and effective deployment of foundation models in
autonomous driving systems.
Ссылки и действия
Дополнительные ресурсы: