Interpretable Decision-Making for End-to-End Autonomous Driving
2508.18898v1
cs.CV, cs.AI, cs.LG, cs.RO
2025-08-28
Авторы:
Mona Mirzaie, Bodo Rosenhahn
Резюме на русском
## Контекст
Автоматизированная система управления автомобилями является ключевым элементом развития дорожного транспорта. Однако для распространенного применения таких систем необходимо обеспечить доверие к их решениям. Это особенно важно в современных городских условиях, где необходимо адекватное восприятие сложных сценариев. Несмотря на продвижение технологий, особенно в области глубокого обучения, не всегда возможно понять, что влияет на решения моделей. Это проблема становится еще более актуальной при использовании неглубоких моделей, которые не всегда могут выделять ключевые области в изображении, отвечающие за прогнозирование движения. Наша модель стремится решить эту проблему, обеспечивая лучшую прозрачность в автоматизированных системах управления.
## Метод
Мы предложили новую архитектуру нейронной сети, нацеленную на улучшение интерпретируемости решений в автономном вождении. Наша модель основывается на глубоких нейронных сетях с применением специальных функций потерь, которые поощряют спарсинг и локализованные активации фич. Это позволяет модели определять именно те области изображения, которые подпитывают прогноз движения. Мы также внедрили методы абляционных исследований, чтобы определить, как различные этапы модели влияют на интерпретируемость и на целевые показатели производительности. Наши эксперименты проводились на бенчмарке CARLA, что дало возможность оценить модель в сложных городских условиях.
## Результаты
Мы провели обширные эксперименты, включая абляционные исследования, которые показали, что наша модель более эффективно выделяет значимые области изображения, что в свою очередь повышает надежность и безопасность автономного вождения. Наша модель показала самые низкие показатели нарушений правил дорожного движения и самую высокую степень прохождения маршрутов в среднем, что демонстрирует ее превосходство по сравнению с другими моделями на CARLA Leaderboard. Благодаря использованию только одного монитора, что важно для реального применения, высокая прозрачность наших решений стала достижением, которое дополнительно повысило безопасность на дорогах.
## Значимость
Наша модель может быть применена в автономных системах управления, где важно понимать причины прогнозируемых решений. Она предоставляет новые возможности для глубокого понимания и доверия к моделям, что может быть применено в дорожной безопасности и управлении транспортом. Этот подход может иметь потенциал для улучшения доверия к AI в сфере автоматизированного вождения, что может привести к ее более широкому применению в реальной жизни.
## Выводы
Мы предложили модель, которая обеспечивает лучшую про
Abstract
Trustworthy AI is mandatory for the broad deployment of autonomous vehicles.
Although end-to-end approaches derive control commands directly from raw data,
interpreting these decisions remains challenging, especially in complex urban
scenarios. This is mainly attributed to very deep neural networks with
non-linear decision boundaries, making it challenging to grasp the logic behind
AI-driven decisions. This paper presents a method to enhance interpretability
while optimizing control commands in autonomous driving. To address this, we
propose loss functions that promote the interpretability of our model by
generating sparse and localized feature maps. The feature activations allow us
to explain which image regions contribute to the predicted control command. We
conduct comprehensive ablation studies on the feature extraction step and
validate our method on the CARLA benchmarks. We also demonstrate that our
approach improves interpretability, which correlates with reducing infractions,
yielding a safer, high-performance driving model. Notably, our monocular,
non-ensemble model surpasses the top-performing approaches from the CARLA
Leaderboard by achieving lower infraction scores and the highest route
completion rate, all while ensuring interpretability.