Affordance-R1: Reinforcement Learning for Generalizable Affordance Reasoning in Multimodal Large Language Model

2508.06206v2 cs.RO, cs.CV 2025-08-12
Авторы:

Hanqing Wang, Shaoyang Wang, Yiming Zhong, Zemin Yang, Jiamin Wang, Zhiqing Cui, Jiahao Yuan, Yifan Han, Mingyu Liu, Yuexin Ma

Резюме на русском

## Контекст Область исследования, известная как **affordance grounding**, ориентирована на определение конкретных областей объектов, связанных с действиями, которые могут быть выполнены роботом. Она играет ключевую роль в таких направлениях, как **human-robot interaction**, **human-object interaction**, **embodied manipulation** и **embodied perception**. Несмотря на значительные успехи, существующие модели часто не учитывают общие принципы, которые могут быть субъективными для разных объектов. Это приводит к ограниченной генерализации между доменами (OOD) и слабым выполнению четкой, логической рассуждения. Мотивацией для разработки Affordance-R1 является устранение этих ограничений, обеспечив модель, которая умеет четко рассуждать и одновременно обеспечивать широкий круг областей применения. ## Метод Affordance-R1 представляет собой новую архитектуру, объединяющую **Chain-of-Thought (CoT)** и **Group Relative Policy Optimization (GRPO)** в рамках парадигмы reinforcement learning. Модель использует сложную систему наград, включающую **format reward**, **perception reward** и **cognition reward**, чтобы оптимизировать поведение робота в задачах связанных с affordance. В отличие от предшествующих моделей, Affordance-R1 отказывается от явных данных для основного обучения, вместо этого основываясь на **reinforcement learning**. Дополнительно, для поддержки модели был разработан **ReasonAff** — высококачественный датасет, нацеленный на поддержку интеллектуального логического роботового поведения. ## Результаты Используя датасет ReasonAff, Affordance-R1 прошла ряд экспериментов, показав впечатляющие результаты. Модель показала **zero-shot generalization** на новых сценариях и объектах, доказав способность к логической рассуждению. Эксперименты показали, что Affordance-R1 изменяет свое поведение в зависимости от характеристик объекта и его положения, указывая на сильные возможности применения в реальном мире. Было также продемонстрировано, что Affordance-R1 не только обеспечивает генерализацию, но и устанавливает новые стандарты в области affordance reasoning. ## Значимость Модель Affordance-R1 открывает новые возможности для **human-robot interaction**, **embodied perception** и **embodied manipulation**. Один из ключевых преимуществ заключается в способности к **zero-shot generalization**, что позволяет модели применяться в разных сценариях без дополнительного обучения. Благодаря интеграции CoT и GRPO, Affordance-R1 демонстрирует новый уровень логических возможностей, открывая новые пути для **робототехники**, **виртуальных ассистентов** и **интеллектуальных систем**. ## Выводы Affordance-R1 устанавливает новые стандарты в области affordance grounding, демонстрируя впечатляющую генерализацию и логические возможности. На будущем, разработчики планируют расширить модель, включив в нее более сложные сценарии и объекты, чтобы еще лучше расширить поле применения.

Abstract

Affordance grounding focuses on predicting the specific regions of objects that are associated with the actions to be performed by robots. It plays a vital role in the fields of human-robot interaction, human-object interaction, embodied manipulation, and embodied perception. Existing models often neglect the affordance shared among different objects because they lack the Chain-of-Thought(CoT) reasoning abilities, limiting their out-of-domain (OOD) generalization and explicit reasoning capabilities. To address these challenges, we propose Affordance-R1, the first unified affordance grounding framework that integrates cognitive CoT guided Group Relative Policy Optimization (GRPO) within a reinforcement learning paradigm. Specifically, we designed a sophisticated affordance function, which contains format, perception, and cognition rewards to effectively guide optimization directions. Furthermore, we constructed a high-quality affordance-centric reasoning dataset, ReasonAff, to support training. Trained exclusively via reinforcement learning with GRPO and without explicit reasoning data, Affordance-R1 achieves robust zero-shot generalization and exhibits emergent test-time reasoning capabilities. Comprehensive experiments demonstrate that our model outperforms well-established methods and exhibits open-world generalization. To the best of our knowledge, Affordance-R1 is the first to integrate GRPO-based RL with reasoning into affordance reasoning. The code of our method and our dataset is released on https://github.com/hq-King/Affordance-R1.

Ссылки и действия