Efficient Virtuoso: A Latent Diffusion Transformer Model for Goal-Conditioned Trajectory Planning

2509.03658v1 cs.RO, cs.AI, cs.LG 2025-09-05
Авторы:

Antonio Guillen-Perez

Резюме на русском

#### Контекст Автоматизированная планировка маршрутов является ключевым компонентом систем автономного управления транспортом. Одной из основных задач является генерация разнообразных и реалистичных дистрибуций будущих маршрутов, чтобы обеспечить безопасность и эффективность движения. Несмотря на прогресс в генеративных моделях, существуют трудности в достижении высокой точности, высокой эффективности и контроля над траекториями. Этот аспект является критическим для создания надежных систем планирования для автономных транспортных средств. #### Метод Мы предлагаем **Efficient Virtuoso** — усовершенствованную модель на основе трансформера, работающую в низкоразмерном латентном пространстве. Модель использует уникальную двухэтапную нормализацию для подготовки данных. В первом этапе масштабируются траектории, чтобы сохранить их геометрический аспект, а затем вторично нормализуется латентное пространство PCA для обеспечения стабильности обучения. В ходе денойсинга в этом низкоразмерном пространстве используется простая MLP-денойзер, которая принимает в качестве входа контекст сцены, обрабатываемый мощным Transformer-based StateEncoder. #### Результаты Проведенные эксперименты показали, что Efficient Virtuoso достигает состояния лидера на Waymo Open Motion Dataset, показывая минимальную ошибку по декарсиану (minADE) равную 0,25. Аблационные исследования подтвердили важность различных аспектов конструкции модели. Особое внимание было уделено репрезентации целей (goal representation). Было выявлено, что единственное место назначения (endpoint goal) может устранить стратегическую неоднозначность, но для точного и высококачественного эмулирования траекторий, подобных людскому вождению, необходим более широкий, многошаговый спарский маршрут. #### Значимость Предложенная модель обладает широкими возможностями применения в области автоматизированного управления транспортом. Она обеспечивает высокую эффективность и гибкость в генерации траекторий, что может улучшить безопасность и эффективность движения автомобилей. Благодаря своей структуре, модель может быть легко адаптирована к различным условиям движения и сценариям. Это делает ее полезной для реализации в системах самоводившихся машин и системах поддержки решений для водителей. #### Выводы Мы представили Efficient Virtuoso — мощную и эффективную модель для планирования траекторий, которая достигла высоких результатов на сложных данных о маршрутах. Наши результаты раскрывают важность точной репрезентации целей для повышения точности выполнения. Будущие исследования будут сфокусированы на расширении модели для более

Abstract

The ability to generate a diverse and plausible distribution of future trajectories is a critical capability for autonomous vehicle planning systems. While recent generative models have shown promise, achieving high fidelity, computational efficiency, and precise control remains a significant challenge. In this paper, we present the \textbf{Efficient Virtuoso}, a conditional latent diffusion model for goal-conditioned trajectory planning. Our approach introduces a novel two-stage normalization pipeline that first scales trajectories to preserve their geometric aspect ratio and then normalizes the resulting PCA latent space to ensure a stable training target. The denoising process is performed efficiently in this low-dimensional latent space by a simple MLP denoiser, which is conditioned on a rich scene context fused by a powerful Transformer-based StateEncoder. We demonstrate that our method achieves state-of-the-art performance on the Waymo Open Motion Dataset, reaching a \textbf{minADE of 0.25}. Furthermore, through a rigorous ablation study on goal representation, we provide a key insight: while a single endpoint goal can resolve strategic ambiguity, a richer, multi-step sparse route is essential for enabling the precise, high-fidelity tactical execution that mirrors nuanced human driving behavior.

Ссылки и действия