Joint Flow Trajectory Optimization For Feasible Robot Motion Generation from Video Demonstrations

2509.20703v1 cs.RO, cs.AI, cs.CV 2025-09-26
Авторы:

Xiaoxiang Dong, Matthew Johnson-Roberson, Weiming Zhi

Резюме на русском

#### Контекст Узконаправленные методы, такие как телеоперация или кинезительное обучение, часто требуют дополнительных ресурсов или ручных усилий для обучения роботу выполнять задачи. Недавние развития в области machine learning позволяют использовать видео-демонстрации для обучения роботам. Однако, поскольку роботы-манипуляторы имеют другую анатомию и работоспособность в сравнении с людьми, необходимо разработать методы, которые могут соответствовать демонстрации, но при этом учитывать ограничения робота. Существуют проблемы с представлением ограничений, такими как невозможность выполнения некоторых движений в реальности, а также сложность в интерпретации и учете всех мод элементарных движений в демонстрациях. Из-за этих ограничений, целесообразно использовать новые подходы для оптимизации траекторий и позиций жесткости, которые могут обрабатывать данные демонстраций более эффективно. #### Метод Мы предлагаем **Joint Flow Trajectory Optimization (JFTO)** — кадровый метод оптимизации траекторий жестов, который применяется к задачам робот-манипулятора. Метод базируется на парадигме Learning-from-Demonstration (LfD), но в отличие от прямого копирования рукопашных движений, он рассматривает демонстрации как целевые объекты, направляющие робота в выборе подходящей жесткости и движений, необходимых для выполнения задачи. JFTO работает с тремя целями: (i) выбор эффективной жесткости и позиции робота, (ii) создание траектории, которая соответствует демонстрации, и (iii) учет ограничений робота, таких как коллизии и другие ограничения робота. Для моделирования разнообразия данных демонстраций мы расширяем подход **flow matching** в пространстве $\SE(3)$, что позволяет учитывать вероятности траекторий объектов и избегать mode collapse. Мы интегрируем все три цели в одну разностную функцию потерь, чтобы оптимизировать траектории в едином пространстве. #### Результаты Мы проводим эксперименты в симуляционной среде и реальном мире, используя разнообразные ситуации манипуляции. Полученные результаты показывают, что JFTO может работать в тесной связи с данными демонстраций и учитывать все ограничения в задаче. В реальном мире, мы используем набор данных, содержащий видео-демонстрации для задач, в которых нужно переместить предмет в указанном направлении. Метод JFTO показал высокую точность в поиске подходящих жесткостей и траекторий, а также сохранял высокую стабильность во время выполнения задачи. Особенно мощность JFTO проявляется в сложных сценариях, где требуется учет разнообразия движений и постоянного воздействия на ограничения робота. #### Значи

Abstract

Learning from human video demonstrations offers a scalable alternative to teleoperation or kinesthetic teaching, but poses challenges for robot manipulators due to embodiment differences and joint feasibility constraints. We address this problem by proposing the Joint Flow Trajectory Optimization (JFTO) framework for grasp pose generation and object trajectory imitation under the video-based Learning-from-Demonstration (LfD) paradigm. Rather than directly imitating human hand motions, our method treats demonstrations as object-centric guides, balancing three objectives: (i) selecting a feasible grasp pose, (ii) generating object trajectories consistent with demonstrated motions, and (iii) ensuring collision-free execution within robot kinematics. To capture the multimodal nature of demonstrations, we extend flow matching to $\SE(3)$ for probabilistic modeling of object trajectories, enabling density-aware imitation that avoids mode collapse. The resulting optimization integrates grasp similarity, trajectory likelihood, and collision penalties into a unified differentiable objective. We validate our approach in both simulation and real-world experiments across diverse real-world manipulation tasks.

Ссылки и действия