FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation
2509.19102v1
cs.RO, cs.AI, cs.CV
2025-09-25
Авторы:
Hongli Xu, Lei Zhang, Xiaoyue Hu, Boyang Zhong, Kaixin Bai, Zoltán-Csaba Márton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang
Резюме на русском
## Контекст
Проблема заключается в том, что general-purpose robotic skills, натренированные с использованием end-to-end демонстраций, часто приводят к task-specific политикам, которые не могут генерализоваться за пределы выделенного тренировочного набора данных. Это ограничивает эффективность и общую пригодность robotic manipulation-based frameworks. Требуется решение, которое позволит формировать задачи, ориентированные на поведение, но не зависящие от конкретных конфигураций объектов или сценариев. Такой подход может улучшить generalization, позволить повторно использовать политики и обеспечить простоту в learning и deployment.
## Метод
FunCanon предлагает фрагментировать long-horizon manipulation tasks в последовательности акторов, видов действий и объектов. Это позволяет сосредоточиться на поведенческих primitives, а не на конкретных task-specific действиях. Далее, FunCanon применяет functional object canonicalization для functional alignment и trajectory transfer. Здесь, affordance cues из больших vision-language моделей используются для того, чтобы модифицировать и mapping objects в shared functional frames. Это обеспечивает pose-aware и category-general policies, которые учитывают object affordances и poses. Для получения данных для этого подхода используется object-centric и action-centric diffusion policy FuncDiffuser.
## Результаты
В ходе экспериментов, использовавшихся данных включились виртуальные и real-world бенчмарки с manipulation tasks. FunCanon продемонстрировал category-level generalization, cross-task behavior reuse и robust sim2real deployment. Это подтверждает, что functional canonicalization дает сильный inductive bias для scalable imitation learning в сложных manipulation domains. На проектной странице https://sites.google.com/view/funcanon доступны демонстрации и дополнительные материалы.
## Значимость
Решение может быть использовано в области robotic manipulation для обеспечения generalization и scalability. Оно позволяет повторно использовать поведенческие primitives в разных сценариях, упрощая learning и deployment. Такой подход может быть применен в различных сферах, таких как manufacturing, logistics и роботизированные households.
## Выводы
В ходе исследования был предложен FunCanon, подход, который фрагментирует manipulation tasks в primitives, используя functional canonicalization для pose-aware и category-general policies. Это позволяет решать задачи с высокой generalization и cross-task behavior reuse. Будущие исследования могут быть направлены на улучшение diffusion policy для более лучшего deployment в real-world environments.
Abstract
General-purpose robotic skills from end-to-end demonstrations often leads to
task-specific policies that fail to generalize beyond the training
distribution. Therefore, we introduce FunCanon, a framework that converts
long-horizon manipulation tasks into sequences of action chunks, each defined
by an actor, verb, and object. These chunks focus policy learning on the
actions themselves, rather than isolated tasks, enabling compositionality and
reuse. To make policies pose-aware and category-general, we perform functional
object canonicalization for functional alignment and automatic manipulation
trajectory transfer, mapping objects into shared functional frames using
affordance cues from large vision language models. An object centric and action
centric diffusion policy FuncDiffuser trained on this aligned data naturally
respects object affordances and poses, simplifying learning and improving
generalization ability. Experiments on simulated and real-world benchmarks
demonstrate category-level generalization, cross-task behavior reuse, and
robust sim2real deployment, showing that functional canonicalization provides a
strong inductive bias for scalable imitation learning in complex manipulation
domains. Details of the demo and supplemental material are available on our
project website https://sites.google.com/view/funcanon.
Ссылки и действия
Дополнительные ресурсы: