Real-Time Iteration Scheme for Diffusion Policy
2508.05396v1
cs.RO, cs.AI
2025-08-09
Авторы:
Yufei Duan, Hang Yin, Danica Kragic
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Диффузионные политики (Diffusion Policies) представляют собой мощный класс методов обучения с подкреплением, демонстрирующий выдающиеся результаты в задачах роботизированной манипуляции. Эти методы основаны на диффузионных моделях, которые генерируют последовательности действий путем итеративного денойзинга (удаления шума) из случайного начального состояния. Однако практическое применение диффузионных политик в реальном времени сталкивается с двумя критическими ограничениями.
Первое и основное ограничение - это значительное время инференса, вызванное необходимостью выполнения большого количества итераций денойзинга (обычно 10-100 шагов) для генерации каждой последовательности действий. Этот процесс требует существенных вычислительных ресурсов, что делает затруднительным применение методов в сценариях с жесткими требованиями к латентности, таких как динамичные задачи захвата или манипуляции с быстро движущимися объектами.
Второе ограничение связано с особенностью применения диффузионных политик в робототехнике: модель должна сгенерировать "чанк" (порцию) последовательных действий, после чего робот исполняет эти действия полностью, прежде чем будет возможно следующее предсказание. Это ограничение критично для простых задач с коротким временем цикла, где задержка между восприятием и действием должна быть минимальной.
Существующие подходы к ускорению диффузионных политик в основном фокусируются на дистилляции моделей в более быстрые архитектуры или полной замене структуры политики. Однако такие методы требуют дополнительного дорогостоящего обучения, что становится особенно проблематичным для крупных моделей с миллионами параметров, распространенных в современной робототехнике. Отсутствие методов, позволяющих ускорить инференс без переобучения модели, создает значительный пробел между теоретическими возможностями диффузионных политик и их практическим применением в реальных системах.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Авторы предлагают новаторский подход, вдохновленный методом Real-Time Iteration (RTI) из области оптимального управления. RTI-схема традиционно используется для ускорения процессов оптимизации путем использования решений с предыдущих временных шагов как начальных приближений для последующих итераций. В контексте диффузионных политик это означает использование траектории денойзинга с предыдущего временного шага как "теплого старта" для текущего предсказания действия.
Ключевой инновацией является адаптация RTI для дискретных действий, типичных для роботизированной манипуляции, таких как двоичные команды захвата. Для этого разработан метод масштабирования (scaling-based method), который эффективно обрабатывает дискретные действия в континуальной схеме денойзинга. Метод преобразует дискретные значения в непрерывные переменные с последующим масштабированием, сохраняя при этом дифференцируемость процесса.
Архитектура предложенной системы состоит из нескольких ключевых компонентов. Во-первых, реализован механизм сохранения скрытых состояний между временными шагами, что позволяет использовать информацию о предыдущих денойзинг-траекториях. Во-вторых, разработан адаптивный алгоритм определения оптимального начального шага денойзинга на основе теоретического анализа условий сжатия (contractivity conditions).
Теоретический вклад работы включает строгий аналог условий сжатия для диффузионного процесса. Эти условия позволяют оценить минимальное количество итераций денойзинга, необходимое для достижения заданной точности, что критично для оптимального баланса между скоростью и качеством. Условия сжатия выводятся через анализ спектральных свойств оператора денойзинга и обеспечивают математически обоснованный способ выбора параметров алгоритма.
Предложенная схема интегрируется в существующие предобученные диффузионные модели без необходимости их переобучения или изменения архитектуры. Это достигается через модификацию только процедуры инференса, оставляя обученные веса модели неизменными. Такой подход особенно важен для крупных моделей, где повторное обучение может потребовать значительных вычислительных ресурсов.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для оценки эффективности предложенного мет
Abstract
Diffusion Policies have demonstrated impressive performance in robotic
manipulation tasks. However, their long inference time, resulting from an
extensive iterative denoising process, and the need to execute an action chunk
before the next prediction to maintain consistent actions limit their
applicability to latency-critical tasks or simple tasks with a short cycle
time. While recent methods explored distillation or alternative policy
structures to accelerate inference, these often demand additional training,
which can be resource-intensive for large robotic models. In this paper, we
introduce a novel approach inspired by the Real-Time Iteration (RTI) Scheme, a
method from optimal control that accelerates optimization by leveraging
solutions from previous time steps as initial guesses for subsequent
iterations. We explore the application of this scheme in diffusion inference
and propose a scaling-based method to effectively handle discrete actions, such
as grasping, in robotic manipulation. The proposed scheme significantly reduces
runtime computational costs without the need for distillation or policy
redesign. This enables a seamless integration into many pre-trained
diffusion-based models, in particular, to resource-demanding large models. We
also provide theoretical conditions for the contractivity which could be useful
for estimating the initial denoising step. Quantitative results from extensive
simulation experiments show a substantial reduction in inference time, with
comparable overall performance compared with Diffusion Policy using full-step
denoising. Our project page with additional resources is available at:
https://rti-dp.github.io/.
Ссылки и действия
Дополнительные ресурсы: