Joint Flow Trajectory Optimization For Feasible Robot Motion Generation from Video Demonstrations
2509.20703v1
cs.RO, cs.AI, cs.CV
2025-09-26
Авторы:
Xiaoxiang Dong, Matthew Johnson-Roberson, Weiming Zhi
Резюме на русском
#### Контекст
Узконаправленные методы, такие как телеоперация или кинезительное обучение, часто требуют дополнительных ресурсов или ручных усилий для обучения роботу выполнять задачи. Недавние развития в области machine learning позволяют использовать видео-демонстрации для обучения роботам. Однако, поскольку роботы-манипуляторы имеют другую анатомию и работоспособность в сравнении с людьми, необходимо разработать методы, которые могут соответствовать демонстрации, но при этом учитывать ограничения робота. Существуют проблемы с представлением ограничений, такими как невозможность выполнения некоторых движений в реальности, а также сложность в интерпретации и учете всех мод элементарных движений в демонстрациях. Из-за этих ограничений, целесообразно использовать новые подходы для оптимизации траекторий и позиций жесткости, которые могут обрабатывать данные демонстраций более эффективно.
#### Метод
Мы предлагаем **Joint Flow Trajectory Optimization (JFTO)** — кадровый метод оптимизации траекторий жестов, который применяется к задачам робот-манипулятора. Метод базируется на парадигме Learning-from-Demonstration (LfD), но в отличие от прямого копирования рукопашных движений, он рассматривает демонстрации как целевые объекты, направляющие робота в выборе подходящей жесткости и движений, необходимых для выполнения задачи. JFTO работает с тремя целями: (i) выбор эффективной жесткости и позиции робота, (ii) создание траектории, которая соответствует демонстрации, и (iii) учет ограничений робота, таких как коллизии и другие ограничения робота. Для моделирования разнообразия данных демонстраций мы расширяем подход **flow matching** в пространстве $\SE(3)$, что позволяет учитывать вероятности траекторий объектов и избегать mode collapse. Мы интегрируем все три цели в одну разностную функцию потерь, чтобы оптимизировать траектории в едином пространстве.
#### Результаты
Мы проводим эксперименты в симуляционной среде и реальном мире, используя разнообразные ситуации манипуляции. Полученные результаты показывают, что JFTO может работать в тесной связи с данными демонстраций и учитывать все ограничения в задаче. В реальном мире, мы используем набор данных, содержащий видео-демонстрации для задач, в которых нужно переместить предмет в указанном направлении. Метод JFTO показал высокую точность в поиске подходящих жесткостей и траекторий, а также сохранял высокую стабильность во время выполнения задачи. Особенно мощность JFTO проявляется в сложных сценариях, где требуется учет разнообразия движений и постоянного воздействия на ограничения робота.
#### Значи
Abstract
Learning from human video demonstrations offers a scalable alternative to
teleoperation or kinesthetic teaching, but poses challenges for robot
manipulators due to embodiment differences and joint feasibility constraints.
We address this problem by proposing the Joint Flow Trajectory Optimization
(JFTO) framework for grasp pose generation and object trajectory imitation
under the video-based Learning-from-Demonstration (LfD) paradigm. Rather than
directly imitating human hand motions, our method treats demonstrations as
object-centric guides, balancing three objectives: (i) selecting a feasible
grasp pose, (ii) generating object trajectories consistent with demonstrated
motions, and (iii) ensuring collision-free execution within robot kinematics.
To capture the multimodal nature of demonstrations, we extend flow matching to
$\SE(3)$ for probabilistic modeling of object trajectories, enabling
density-aware imitation that avoids mode collapse. The resulting optimization
integrates grasp similarity, trajectory likelihood, and collision penalties
into a unified differentiable objective. We validate our approach in both
simulation and real-world experiments across diverse real-world manipulation
tasks.
Ссылки и действия
Дополнительные ресурсы: