Real-Time Iteration Scheme for Diffusion Policy

2508.05396v1 cs.RO, cs.AI 2025-08-09
Авторы:

Yufei Duan, Hang Yin, Danica Kragic

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Диффузионные политики (Diffusion Policies) представляют собой мощный класс методов обучения с подкреплением, демонстрирующий выдающиеся результаты в задачах роботизированной манипуляции. Эти методы основаны на диффузионных моделях, которые генерируют последовательности действий путем итеративного денойзинга (удаления шума) из случайного начального состояния. Однако практическое применение диффузионных политик в реальном времени сталкивается с двумя критическими ограничениями. Первое и основное ограничение - это значительное время инференса, вызванное необходимостью выполнения большого количества итераций денойзинга (обычно 10-100 шагов) для генерации каждой последовательности действий. Этот процесс требует существенных вычислительных ресурсов, что делает затруднительным применение методов в сценариях с жесткими требованиями к латентности, таких как динамичные задачи захвата или манипуляции с быстро движущимися объектами. Второе ограничение связано с особенностью применения диффузионных политик в робототехнике: модель должна сгенерировать "чанк" (порцию) последовательных действий, после чего робот исполняет эти действия полностью, прежде чем будет возможно следующее предсказание. Это ограничение критично для простых задач с коротким временем цикла, где задержка между восприятием и действием должна быть минимальной. Существующие подходы к ускорению диффузионных политик в основном фокусируются на дистилляции моделей в более быстрые архитектуры или полной замене структуры политики. Однако такие методы требуют дополнительного дорогостоящего обучения, что становится особенно проблематичным для крупных моделей с миллионами параметров, распространенных в современной робототехнике. Отсутствие методов, позволяющих ускорить инференс без переобучения модели, создает значительный пробел между теоретическими возможностями диффузионных политик и их практическим применением в реальных системах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новаторский подход, вдохновленный методом Real-Time Iteration (RTI) из области оптимального управления. RTI-схема традиционно используется для ускорения процессов оптимизации путем использования решений с предыдущих временных шагов как начальных приближений для последующих итераций. В контексте диффузионных политик это означает использование траектории денойзинга с предыдущего временного шага как "теплого старта" для текущего предсказания действия. Ключевой инновацией является адаптация RTI для дискретных действий, типичных для роботизированной манипуляции, таких как двоичные команды захвата. Для этого разработан метод масштабирования (scaling-based method), который эффективно обрабатывает дискретные действия в континуальной схеме денойзинга. Метод преобразует дискретные значения в непрерывные переменные с последующим масштабированием, сохраняя при этом дифференцируемость процесса. Архитектура предложенной системы состоит из нескольких ключевых компонентов. Во-первых, реализован механизм сохранения скрытых состояний между временными шагами, что позволяет использовать информацию о предыдущих денойзинг-траекториях. Во-вторых, разработан адаптивный алгоритм определения оптимального начального шага денойзинга на основе теоретического анализа условий сжатия (contractivity conditions). Теоретический вклад работы включает строгий аналог условий сжатия для диффузионного процесса. Эти условия позволяют оценить минимальное количество итераций денойзинга, необходимое для достижения заданной точности, что критично для оптимального баланса между скоростью и качеством. Условия сжатия выводятся через анализ спектральных свойств оператора денойзинга и обеспечивают математически обоснованный способ выбора параметров алгоритма. Предложенная схема интегрируется в существующие предобученные диффузионные модели без необходимости их переобучения или изменения архитектуры. Это достигается через модификацию только процедуры инференса, оставляя обученные веса модели неизменными. Такой подход особенно важен для крупных моделей, где повторное обучение может потребовать значительных вычислительных ресурсов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного мет

Abstract

Diffusion Policies have demonstrated impressive performance in robotic manipulation tasks. However, their long inference time, resulting from an extensive iterative denoising process, and the need to execute an action chunk before the next prediction to maintain consistent actions limit their applicability to latency-critical tasks or simple tasks with a short cycle time. While recent methods explored distillation or alternative policy structures to accelerate inference, these often demand additional training, which can be resource-intensive for large robotic models. In this paper, we introduce a novel approach inspired by the Real-Time Iteration (RTI) Scheme, a method from optimal control that accelerates optimization by leveraging solutions from previous time steps as initial guesses for subsequent iterations. We explore the application of this scheme in diffusion inference and propose a scaling-based method to effectively handle discrete actions, such as grasping, in robotic manipulation. The proposed scheme significantly reduces runtime computational costs without the need for distillation or policy redesign. This enables a seamless integration into many pre-trained diffusion-based models, in particular, to resource-demanding large models. We also provide theoretical conditions for the contractivity which could be useful for estimating the initial denoising step. Quantitative results from extensive simulation experiments show a substantial reduction in inference time, with comparable overall performance compared with Diffusion Policy using full-step denoising. Our project page with additional resources is available at: https://rti-dp.github.io/.

Ссылки и действия