O$^3$Afford: One-Shot 3D Object-to-Object Affordance Grounding for Generalizable Robotic Manipulation
2509.06233v1
cs.RO, cs.CV
2025-09-10
Авторы:
Tongxuan Tian, Xuhui Kang, Yen-Ling Kuo
Резюме на русском
## Контекст
Гранд статья! Она посвящена важной проблеме в области робототехники — осуществлению гранд функциональных свойств объектов (affordances) в трёхмерном пространстве. Это ключевой элемент для успешного взаимодействия роботов с окружающим миром, так как позволяет установить связь между чувственным восприятием и действиями. Несмотря на прогресс в рамках проекта роботов-инспекторов, многие существующие подходы ограничиваются предсказанием affordance для отдельных объектов, при этом менее уделяют внимания взаимодействиям между парами объектов, которые являются главной частью реального мира. Эта работа фокусируется на развитии нового подхода для обучения знаний о взаимодействиях объектов с помощью малого объёма данных, чтобы добиться устойчивости и широкой обобщаемости.
## Метод
В этой работе предлагается новая архитектура, объединяющая несколько технологий для решения проблемы одношагового аппрециации 3D-объектов. Во-первых, используется семантический контекст, полученный из базисных моделей видения, чтобы охватить широкий круг семантических характеристик объектов. Во-вторых, происходит использование геометрического представления, используя трехмерные точечные множества (point cloud) для точного понимания формы и положения объектов. Эти компоненты объединяются в единую многозадачную архитектуру, которая обучается на основе методов с небольшим количеством примеров (few-shot learning). Более того, взаимодействие с большими языковыми моделями (LLM) позволяет расширить возможности объёма используемой информации, позволяя роботу лучше понимать и выполнять задачи, основанные на логике взаимодействия.
## Результаты
В ходе экспериментов были проведены испытания на нескольких стандартных наборах данных, включающих трёхмерные модели различных объектов. Результаты показали, что новая модель O$^3$Afford оказывается значительно эффективнее существующих подходов в ситуациях, когда необходимо предсказать взаимодействия между парами объектов. Она демонстрирует высокую точность в предсказании свойств объектов и их интеракций, в то же время показывает устойчивость при обучении на небольших объёмах данных. Кроме того, интеграция с LLM демонстрирует улучшение в принятии решений и логической целостности в командах робота.
## Значимость
Предлагаемый подход имеет широкие перспективы в задачах робототехники, особенно в сферах, требующих точного понимания взаимодействий между объектами, например, в сферах домохозяйств и производственных процессов. Этот подход позволяет значительно расширить в
Abstract
Grounding object affordance is fundamental to robotic manipulation as it
establishes the critical link between perception and action among interacting
objects. However, prior works predominantly focus on predicting single-object
affordance, overlooking the fact that most real-world interactions involve
relationships between pairs of objects. In this work, we address the challenge
of object-to-object affordance grounding under limited data contraints.
Inspired by recent advances in few-shot learning with 2D vision foundation
models, we propose a novel one-shot 3D object-to-object affordance learning
approach for robotic manipulation. Semantic features from vision foundation
models combined with point cloud representation for geometric understanding
enable our one-shot learning pipeline to generalize effectively to novel
objects and categories. We further integrate our 3D affordance representation
with large language models (LLMs) for robotics manipulation, significantly
enhancing LLMs' capability to comprehend and reason about object interactions
when generating task-specific constraint functions. Our experiments on 3D
object-to-object affordance grounding and robotic manipulation demonstrate that
our O$^3$Afford significantly outperforms existing baselines in terms of both
accuracy and generalization capability.
Ссылки и действия
Дополнительные ресурсы: