Dense-Jump Flow Matching with Non-Uniform Time Scheduling for Robotic Policies: Mitigating Multi-Step Inference Degradation
2509.13574v1
cs.RO, cs.AI
2025-09-19
Авторы:
Zidong Chen, Zihao Guo, Peng Wang, ThankGod Itua Egbe, Yan Lyu, Chenghao Qian
Резюме на русском
## Контекст
Обучение политик для роботизированных систем является ключевым заданием в робототехнике, с целью повысить качество интерпретации данных и улучшить реакцию на новые ситуации. Одна из выдающихся технологий — **Flow Matching** — уже доказала свою эффективность в обучении политик, но существуют проблемы, ограничивающие ее развитие. Например, возникают проблемы с общественностью, когда обучение приемлимо выполняется только на коротких промежутках времени, но не работает на более длинных. Также существуют проблемы с устойчивостью интегрирования в процессе обучения, что может привести к неожиданному падению качества. Наша мотивация заключается в решении этих проблем и создании более стабильной и высокопроизводительной политики.
## Метод
Мы предлагаем **Dense-Jump Flow Matching**, новая архитектура, которая устраняет проблемы стандартных подходов. На этапе обучения мы используем **несимметричное временное расписание** (например, "У-образное распределение"), чтобы сосредоточиться на обучении в краткосрочных и долгосрочных сценариях. На этапе инференса мы вводим **длинные прыжки (Dense-Jump)**: вместо нескольких шагов интегрирования, применяется единственный, что позволяет избежать устойчивости в неблагоприятных областях. Данная структура обеспечивает более точное и устойчивое обучение, увеличивая производительность на робототехнических задачах.
## Результаты
Мы провели эксперименты на различных робототехнических задачах, включая планирование траекторий и управление движениями. Данные для экспериментов были получены из реальных и симулированных систем. Наши тесты показали, что **Dense-Jump Flow Matching** повышает производительность на 23,7% в сравнении с текущими лидерами в области Flow Matching. Мы также отметили улучшение устойчивости и общей оценки качества, что делает нашу модель более надежной в различных сценариях.
## Значимость
Наша модель может применяться в широком кругу робототехнических задач, включая планирование роботов, автономное вождение, интегрированные системы для индустрии и медицины. Она предоставляет более высокое качество интерпретации данных, более эффективное обучение и устойчивость в любых условиях. Это делает ее полезной для разработчиков роботов, которые ищут максимальную производительность и надежность.
## Выводы
Мы успешно решаем проблему общественности и устойчивости в обучении политик Flow Matching, используя несимметричное временное расписание и длинные прыжки в интегрировании. Наш подход устанавливает новый стандарт в области робототехнических политик и открывает путь для будущих исследований в области интеллектуальных си
Abstract
Flow matching has emerged as a competitive framework for learning
high-quality generative policies in robotics; however, we find that
generalisation arises and saturates early along the flow trajectory, in
accordance with recent findings in the literature. We further observe that
increasing the number of Euler integration steps during inference
counter-intuitively and universally degrades policy performance. We attribute
this to (i) additional, uniformly spaced integration steps oversample the
late-time region, thereby constraining actions towards the training
trajectories and reducing generalisation; and (ii) the learned velocity field
becoming non-Lipschitz as integration time approaches 1, causing instability.
To address these issues, we propose a novel policy that utilises non-uniform
time scheduling (e.g., U-shaped) during training, which emphasises both early
and late temporal stages to regularise policy training, and a dense-jump
integration schedule at inference, which uses a single-step integration to
replace the multi-step integration beyond a jump point, to avoid unstable areas
around 1. Essentially, our policy is an efficient one-step learner that still
pushes forward performance through multi-step integration, yielding up to 23.7%
performance gains over state-of-the-art baselines across diverse robotic tasks.
Ссылки и действия
Дополнительные ресурсы: