Tree-Guided Diffusion Planner

2508.21800v1 cs.AI, cs.RO 2025-09-02
Авторы:

Hyeonseong Jeon, Cheolhong Min, Jaesik Park

Резюме на русском

#### Контекст Планирование с применением предварительно обученных моделей размытия (diffusion) является перспективным подходом для решения задач управления с подсказками во время выполнения. Однако стандартные методы градиентного управления часто достигают оптимальных результатов только при выполнении условия простоты и сглаженности векторов вознаграждений. Эти методы становятся менее эффективными при работе с реальными задачами, в которых присутствуют нелинейные и несглаженные функции вознаграждений, ограничения, не уловимые через производные, и многоцелевое планирование. Существующие подходы, основанные на супервизированном обучении, требуют специальной подготовки моделей для каждой задачи, что ограничивает их гибкость и возможность нулевого-шага обучения. Мы предлагаем Tree-Guided Diffusion Planner (TDP) — рамку для нулевого-шагного планирования во время выполнения, которая эффективно комбинирует разнообразие и точность в создании планов на основе структурированного поиска по дереву. #### Метод TDP основывается на двухуровневом процессе размытия (diffusion): (1) для того чтобы обеспечить широкую эксплорацию, мы используем гибкое генерирование родительских траекторий с помощью необученных частиц, которые корректно отражают разнообразие возможных действий; (2) для уточнения отдельных подтраекторий применяется быстрое очищение (denoising), учитывающее задачи и цели. Этот подход позволяет узкогранично использовать информацию о градиентах, но при этом охватывать гораздо большую область решений, чем с помощью стандартных градиентных методов. TDP оперирует только предварительно обученными моделями размытия и тестируемыми сигналами вознаграждений, обеспечивая гибкость и нулевой-шаг обучение. #### Результаты Мы проверили TDP на трех различных задачах: прохождении лабиринта с поиском золота, движении робот-рука для сбора блоков, и многоцелевом планировании в задаче AntMaze. На всех задачах TDP показал выигрыш в производительности по сравнению с текущими лучшими решениями. Особенно выдающиеся результаты были получены на задаче AntMaze, где TDP эффективно решает задачу многоцелевого планирования, что демонстрирует устойчивость и гибкость подхода. #### Значимость TDP может быть применен в различных областях, где требуется гибкое и эффективное управление в ходе выполнения задач. Он предлагает преимущества в сравнении с традиционными градиентными методами, такими как увеличенная гибкость в тестировании, нулевой-шагный вариант, а также эффективность в работе с нелинейными и многоцелевыми задачами. Мы считаем, что наш подход может существенно продвинуть границы иссле

Abstract

Planning with pretrained diffusion models has emerged as a promising approach for solving test-time guided control problems. However, standard gradient guidance typically performs optimally under convex and differentiable reward landscapes, showing substantially reduced effectiveness in real-world scenarios involving non-convex objectives, non-differentiable constraints, and multi-reward structures. Furthermore, recent supervised planning approaches require task-specific training or value estimators, which limits test-time flexibility and zero-shot generalization. We propose a Tree-guided Diffusion Planner (TDP), a zero-shot test-time planning framework that balances exploration and exploitation through structured trajectory generation. We frame test-time planning as a tree search problem using a bi-level sampling process: (1) diverse parent trajectories are produced via training-free particle guidance to encourage broad exploration, and (2) sub-trajectories are refined through fast conditional denoising guided by task objectives. TDP addresses the limitations of gradient guidance by exploring diverse trajectory regions and harnessing gradient information across this expanded solution space using only pretrained models and test-time reward signals. We evaluate TDP on three diverse tasks: maze gold-picking, robot arm block manipulation, and AntMaze multi-goal exploration. TDP consistently outperforms state-of-the-art approaches on all tasks. The project page can be found at: tree-diffusion-planner.github.io.

Ссылки и действия