SKGE-SWIN: End-To-End Autonomous Vehicle Waypoint Prediction and Navigation Using Skip Stage Swin Transformer
2508.20762v1
cs.CV, cs.AI, cs.LG, cs.RO
2025-08-29
Авторы:
Fachri Najm Noer Kartiman, Rasim, Yaya Wihardi, Nurul Hasanah, Oskar Natan, Bambang Wahono, Taufik Ibnu Salim
Резюме на русском
## Контекст
Исследование автономного управления транспортными средствами занимает важное место в росте технологий пробега. Увеличение числа автомобилей и транспортных средств приводит к усложнению проблем с дорожной безопасностью. Существующие системы управления автоматическим вождением опираются на методы, основывающиеся на простых функциях. Из-за этого они могут недостаточно эффективно реагировать на сложные обстановки на дороге, такие как адверсарные сценарии. Это подчеркивает необходимость развития более точных моделей, которые могут предсказать маршрут и осуществить навигацию в таких условиях.
## Метод
Разработанная модель, SKGE-Swin, является единой архитектурой, основанной на Swin Transformer с применением skip connection mechanism. Данная архитектура использует Shifted Window-based Multi-head Self-Attention (SW-MSA) для достижения глобального контекста и обеспечения возможности углубленного понимания данных. Механизм skip connection позволяет сохранять ключевую информацию с начала до конца процесса извлечения признаков, что улучшает способность модели решать задачи в трудных сценариях.
## Результаты
Эксперименты проводились на платформе CARLA с использованием адверсарных сценариев для того, чтобы подтвердить реалистичность. Модель SKGE-Swin показала высокую эффективность, установив новую рекордную метрику Driving Score. Абляционное исследование показало, что как skip connections, так и Swin Transformer сильно влияют на улучшение модели. Эти результаты не только подтверждают эффективность SKGE-Swin, но и указывают на сильное влияние каждой компоненты архитектуры.
## Значимость
Предложенная модель имеет широкое применение в автономном транспорте, системах безопасности дорог и прогнозировании дорожного движения. Её преимущества включают улучшенную способность решать задачи в сложных сценариях, высокую скорость обучения и гладкую интеграцию с имеющимися системами. Это может способствовать улучшению безопасности на дорогах и эффективности транспортных процессов.
## Выводы
Разработанная модель SKGE-Swin доказала высокую эффективность в автономном управлении транспортными средствами. Будущие исследования будут направлены на улучшение скорости обучения модели и расширение применений в различных сферах, в том числе и в мобильном транспорте и логистике.
Abstract
Focusing on the development of an end-to-end autonomous vehicle model with
pixel-to-pixel context awareness, this research proposes the SKGE-Swin
architecture. This architecture utilizes the Swin Transformer with a skip-stage
mechanism to broaden feature representation globally and at various network
levels. This approach enables the model to extract information from distant
pixels by leveraging the Swin Transformer's Shifted Window-based Multi-head
Self-Attention (SW-MSA) mechanism and to retain critical information from the
initial to the final stages of feature extraction, thereby enhancing its
capability to comprehend complex patterns in the vehicle's surroundings. The
model is evaluated on the CARLA platform using adversarial scenarios to
simulate real-world conditions. Experimental results demonstrate that the
SKGE-Swin architecture achieves a superior Driving Score compared to previous
methods. Furthermore, an ablation study will be conducted to evaluate the
contribution of each architectural component, including the influence of skip
connections and the use of the Swin Transformer, in improving model
performance.