Dense-Jump Flow Matching with Non-Uniform Time Scheduling for Robotic Policies: Mitigating Multi-Step Inference Degradation

2509.13574v1 cs.RO, cs.AI 2025-09-19
Авторы:

Zidong Chen, Zihao Guo, Peng Wang, ThankGod Itua Egbe, Yan Lyu, Chenghao Qian

Резюме на русском

## Контекст Обучение политик для роботизированных систем является ключевым заданием в робототехнике, с целью повысить качество интерпретации данных и улучшить реакцию на новые ситуации. Одна из выдающихся технологий — **Flow Matching** — уже доказала свою эффективность в обучении политик, но существуют проблемы, ограничивающие ее развитие. Например, возникают проблемы с общественностью, когда обучение приемлимо выполняется только на коротких промежутках времени, но не работает на более длинных. Также существуют проблемы с устойчивостью интегрирования в процессе обучения, что может привести к неожиданному падению качества. Наша мотивация заключается в решении этих проблем и создании более стабильной и высокопроизводительной политики. ## Метод Мы предлагаем **Dense-Jump Flow Matching**, новая архитектура, которая устраняет проблемы стандартных подходов. На этапе обучения мы используем **несимметричное временное расписание** (например, "У-образное распределение"), чтобы сосредоточиться на обучении в краткосрочных и долгосрочных сценариях. На этапе инференса мы вводим **длинные прыжки (Dense-Jump)**: вместо нескольких шагов интегрирования, применяется единственный, что позволяет избежать устойчивости в неблагоприятных областях. Данная структура обеспечивает более точное и устойчивое обучение, увеличивая производительность на робототехнических задачах. ## Результаты Мы провели эксперименты на различных робототехнических задачах, включая планирование траекторий и управление движениями. Данные для экспериментов были получены из реальных и симулированных систем. Наши тесты показали, что **Dense-Jump Flow Matching** повышает производительность на 23,7% в сравнении с текущими лидерами в области Flow Matching. Мы также отметили улучшение устойчивости и общей оценки качества, что делает нашу модель более надежной в различных сценариях. ## Значимость Наша модель может применяться в широком кругу робототехнических задач, включая планирование роботов, автономное вождение, интегрированные системы для индустрии и медицины. Она предоставляет более высокое качество интерпретации данных, более эффективное обучение и устойчивость в любых условиях. Это делает ее полезной для разработчиков роботов, которые ищут максимальную производительность и надежность. ## Выводы Мы успешно решаем проблему общественности и устойчивости в обучении политик Flow Matching, используя несимметричное временное расписание и длинные прыжки в интегрировании. Наш подход устанавливает новый стандарт в области робототехнических политик и открывает путь для будущих исследований в области интеллектуальных си

Abstract

Flow matching has emerged as a competitive framework for learning high-quality generative policies in robotics; however, we find that generalisation arises and saturates early along the flow trajectory, in accordance with recent findings in the literature. We further observe that increasing the number of Euler integration steps during inference counter-intuitively and universally degrades policy performance. We attribute this to (i) additional, uniformly spaced integration steps oversample the late-time region, thereby constraining actions towards the training trajectories and reducing generalisation; and (ii) the learned velocity field becoming non-Lipschitz as integration time approaches 1, causing instability. To address these issues, we propose a novel policy that utilises non-uniform time scheduling (e.g., U-shaped) during training, which emphasises both early and late temporal stages to regularise policy training, and a dense-jump integration schedule at inference, which uses a single-step integration to replace the multi-step integration beyond a jump point, to avoid unstable areas around 1. Essentially, our policy is an efficient one-step learner that still pushes forward performance through multi-step integration, yielding up to 23.7% performance gains over state-of-the-art baselines across diverse robotic tasks.

Ссылки и действия