Egocentric Instruction-oriented Affordance Prediction via Large Multimodal Model

2508.17922v1 cs.RO, cs.CV 2025-08-27
Авторы:

Bokai Ji, Jie Gu, Xiaokang Ma, Chu Tang, Jingmin Chen, Guangxia Li

Резюме на русском

## Контекст Интеллектуальные роботы, работающие в средах с новыми объектами, должны распознавать и использовать информацию о взаимодействиях с объектами. Одной из ключевых компонент этой возможности является понятие "affordance", то есть возможность объекта для определенных действий. Довольно часто этот аспект игнорируется в существующих моделях, в которых действия производятся без учета контекста или инструкций. Это приводит к ограниченной точности и релевантности при принятии решений. Мы утверждаем, что affordance должно быть зависимым от задачи и инструкций, чтобы обеспечить более точную и практичную обработку объектов. Эта идея мотивирует нас создать новую модель, которая бы способствовала более точному и динамическому пониманию affordance в контексте различных задач и условий. ## Метод Мы предлагаем новую модель, основывающуюся на "search against verifiers" (SAV), для обучения large multimodal models (LMMs) с целью выполнения инструкционно-зависимого affordance prediction. Модель работает по принципу последовательного поиска и проверки. LMM последовательно предсказывает регион и направление manipulation, а затем эти предсказания тестируются в соответствии с имеющимся контекстом и инструкциями. Затем LMM использует полученные ответы для уточнения своих предсказаний. Данный подход позволяет модели учитывать контекст и инструкции, чтобы сформировать более точные и релевантные предсказания. Мы используем прототипную среду с 15 000 сценами, где каждый объект задается вместе с определенной инструкцией и соответствующим affordance. ## Результаты Мы проверили нашу модель на новой dataset, содержащей 15 000 объектов-инструкции-affordance тройки, с выполнением широкого спектра экспериментов для оценки точности и надежности. Модель показала высокую точность в предсказании affordance в зависимости от контекста и инструкций. Например, для одного и того же объекта, но с разными инструкциями, модель предсказывала разные регионы и направления manipulation. Это демонстрирует способность модели учитывать контекст и инструкции, что является ключевым отличием от большинства предыдущих моделей. Также, мы провели валидацию на различных объектах и сценах, чтобы продемонстрировать широкую применяемость нашего подхода. ## Значимость Наш подход имеет многочисленные применения в областях, где роботы должны взаимодействовать с объектами в реальном мире, например, в сфере умных домов, автоматизированного производства и medical robotics. Одним из основных преимуществ является то, что модель может быть использована для точного предсказания affordance в разных сценариях, включая новые объекты и инструкции, без предварительной обучения на этих сценариях. Благодаря это

Abstract

Affordance is crucial for intelligent robots in the context of object manipulation. In this paper, we argue that affordance should be task-/instruction-dependent, which is overlooked by many previous works. That is, different instructions can lead to different manipulation regions and directions even for the same object. According to this observation, we present a new dataset comprising fifteen thousand object-instruction-affordance triplets. All scenes in the dataset are from an egocentric viewpoint, designed to approximate the perspective of a human-like robot. Furthermore, we investigate how to enable large multimodal models (LMMs) to serve as affordance predictors by implementing a ``search against verifiers'' pipeline. An LMM is asked to progressively predict affordances, with the output at each step being verified by itself during the iterative process, imitating a reasoning process. Experiments show that our method not only unlocks new instruction-oriented affordance prediction capabilities, but also achieves outstanding performance broadly.

Ссылки и действия