Drive As You Like: Strategy-Level Motion Planning Based on A Multi-Head Diffusion Model
2508.16947v1
cs.RO, cs.AI
2025-08-27
Авторы:
Fan Ding, Xuewen Luo, Hwa Hui Tew, Ruturaj Reddy, Xikun Wang, Junn Yong Loo
Резюме на русском
#### Контекст
В последние годы в области мобильных роботов и автоматизированных транспортных систем прогресс поднимает требования к моделям планирования движения. Исследования концентрируются на повышении качества траекторий, которые должны быть как высококачественными, так и устойчивыми в процессе реальных задач. Однако многие существующие модели после обучения фиксируют свою политику, что приводит к последовательности решений, но связывает их с ограниченной гибкостью. Таким образом, необходимо развитие моделей, которые могут адаптироваться к разным ситуациям, отражая желания пользователей и отзывчивость к динамичным условиям.
#### Метод
Предлагаемая модель «М-диффузионный планировщик траекторий» (M-diffusion planner) основывается на подходе диффузионных моделей с несколькими задачами (multi-head). Задачами здесь являются вывод траекторий, отвечающих различным политикам. В первом этапе обучения все задачи используют общие веса для обучения высококачественных траекторий. Далее, используя характеристики процесса диффузии, метод Group Relative Policy Optimization (GRPO) вносит гибкость в поведение модели, позволяя ей отвечать разным сценариям. На этапе инференса внедряется большой языковой модель (LLM), которая выбирает подходящую политику в зависимости от поставленных условий.
#### Результаты
Для оценки предложенного подхода проведены замкнутые циклы симуляций и открытые эксперименты. Модель подверглась анализу на установленном наборе данных, и ее поведение было сравнено с другими альтернативными методами. Эксперименты показали, что предложенная модель сохраняет высокую точность планирования (SOTA в nuPlan val14 benchmark) и значительно улучшает разнообразие траекторий, демонстрируя удовлетворительное соответствие желаниям пользователей.
#### Значимость
Предложенный подход может быть применен в различных сценариях, включая автоматизированные транспортные системы, вождение роботов и другие области, требующие гибкого планирования движения. Он позволяет динамически адаптироваться к задачам, оптимизируя политики в реальном времени. Такая гибкость делает модель более универсальной и эффективной в среднесрочной и долгосрочной перспективе.
#### Выводы
Исследования показали, что M-diffusion planner достигает SOTA в планировании движения, обеспечивая качественно высокие траектории и разнообразие поведения. Будущие исследования будут сконцентрированы на расширении модели для обработки более сложных сценариев, включая проблемы с разными уровнями доверия и дополнительными внешними контекстами.
Abstract
Recent advances in motion planning for autonomous driving have led to models
capable of generating high-quality trajectories. However, most existing
planners tend to fix their policy after supervised training, leading to
consistent but rigid driving behaviors. This limits their ability to reflect
human preferences or adapt to dynamic, instruction-driven demands. In this
work, we propose a diffusion-based multi-head trajectory planner(M-diffusion
planner). During the early training stage, all output heads share weights to
learn to generate high-quality trajectories. Leveraging the probabilistic
nature of diffusion models, we then apply Group Relative Policy Optimization
(GRPO) to fine-tune the pre-trained model for diverse policy-specific
behaviors. At inference time, we incorporate a large language model (LLM) to
guide strategy selection, enabling dynamic, instruction-aware planning without
switching models. Closed-loop simulation demonstrates that our post-trained
planner retains strong planning capability while achieving state-of-the-art
(SOTA) performance on the nuPlan val14 benchmark. Open-loop results further
show that the generated trajectories exhibit clear diversity, effectively
satisfying multi-modal driving behavior requirements. The code and related
experiments will be released upon acceptance of the paper.
Ссылки и действия
Дополнительные ресурсы: