FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation

2509.19102v1 cs.RO, cs.AI, cs.CV 2025-09-25

Авторы:

Hongli Xu, Lei Zhang, Xiaoyue Hu, Boyang Zhong, Kaixin Bai, Zoltán-Csaba Márton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang

Резюме на русском

## Контекст Проблема заключается в том, что general-purpose robotic skills, натренированные с использованием end-to-end демонстраций, часто приводят к task-specific политикам, которые не могут генерализоваться за пределы выделенного тренировочного набора данных. Это ограничивает эффективность и общую пригодность robotic manipulation-based frameworks. Требуется решение, которое позволит формировать задачи, ориентированные на поведение, но не зависящие от конкретных конфигураций объектов или сценариев. Такой подход может улучшить generalization, позволить повторно использовать политики и обеспечить простоту в learning и deployment. ## Метод FunCanon предлагает фрагментировать long-horizon manipulation tasks в последовательности акторов, видов действий и объектов. Это позволяет сосредоточиться на поведенческих primitives, а не на конкретных task-specific действиях. Далее, FunCanon применяет functional object canonicalization для functional alignment и trajectory transfer. Здесь, affordance cues из больших vision-language моделей используются для того, чтобы модифицировать и mapping objects в shared functional frames. Это обеспечивает pose-aware и category-general policies, которые учитывают object affordances и poses. Для получения данных для этого подхода используется object-centric и action-centric diffusion policy FuncDiffuser. ## Результаты В ходе экспериментов, использовавшихся данных включились виртуальные и real-world бенчмарки с manipulation tasks. FunCanon продемонстрировал category-level generalization, cross-task behavior reuse и robust sim2real deployment. Это подтверждает, что functional canonicalization дает сильный inductive bias для scalable imitation learning в сложных manipulation domains. На проектной странице https://sites.google.com/view/funcanon доступны демонстрации и дополнительные материалы. ## Значимость Решение может быть использовано в области robotic manipulation для обеспечения generalization и scalability. Оно позволяет повторно использовать поведенческие primitives в разных сценариях, упрощая learning и deployment. Такой подход может быть применен в различных сферах, таких как manufacturing, logistics и роботизированные households. ## Выводы В ходе исследования был предложен FunCanon, подход, который фрагментирует manipulation tasks в primitives, используя functional canonicalization для pose-aware и category-general policies. Это позволяет решать задачи с высокой generalization и cross-task behavior reuse. Будущие исследования могут быть направлены на улучшение diffusion policy для более лучшего deployment в real-world environments.

Abstract

General-purpose robotic skills from end-to-end demonstrations often leads to task-specific policies that fail to generalize beyond the training distribution. Therefore, we introduce FunCanon, a framework that converts long-horizon manipulation tasks into sequences of action chunks, each defined by an actor, verb, and object. These chunks focus policy learning on the actions themselves, rather than isolated tasks, enabling compositionality and reuse. To make policies pose-aware and category-general, we perform functional object canonicalization for functional alignment and automatic manipulation trajectory transfer, mapping objects into shared functional frames using affordance cues from large vision language models. An object centric and action centric diffusion policy FuncDiffuser trained on this aligned data naturally respects object affordances and poses, simplifying learning and improving generalization ability. Experiments on simulated and real-world benchmarks demonstrate category-level generalization, cross-task behavior reuse, and robust sim2real deployment, showing that functional canonicalization provides a strong inductive bias for scalable imitation learning in complex manipulation domains. Details of the demo and supplemental material are available on our project website https://sites.google.com/view/funcanon.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Distracted Robot: How Visual Clutter Undermine Robotic Manipulation

Obstruction reasoning for robotic grasping

RealAppliance: Let High-fidelity Appliance Assets Controllable and Workable as A...

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied ...

Stable Multi-Drone GNSS Tracking System for Marine Robots

Навигация