## Контекст
Область исследования, известная как **affordance grounding**, ориентирована на определение конкретных областей объектов, связанных с действиями, которые могут быть выполнены роботом. Она играет ключевую роль в таких направлениях, как **human-robot interaction**, **human-object interaction**, **embodied manipulation** и **embodied perception**. Несмотря на значительные успехи, существующие модели часто не учитывают общие принципы, которые могут быть субъективными для разных объектов. Это приводит к ограниченной генерализации между доменами (OOD) и слабым выполнению четкой, логической рассуждения. Мотивацией для разработки Affordance-R1 является устранение этих ограничений, обеспечив модель, которая умеет четко рассуждать и одновременно обеспечивать широкий круг областей применения.
## Метод
Affordance-R1 представляет собой новую архитектуру, объединяющую **Chain-of-Thought (CoT)** и **Group Relative Policy Optimization (GRPO)** в рамках парадигмы reinforcement learning. Модель использует сложную систему наград, включающую **format reward**, **perception reward** и **cognition reward**, чтобы оптимизировать поведение робота в задачах связанных с affordance. В отличие от предшествующих моделей, Affordance-R1 отказывается от явных данных для основного обучения, вместо этого основываясь на **reinforcement learning**. Дополнительно, для поддержки модели был разработан **ReasonAff** — высококачественный датасет, нацеленный на поддержку интеллектуального логического роботового поведения.
## Результаты
Используя датасет ReasonAff, Affordance-R1 прошла ряд экспериментов, показав впечатляющие результаты. Модель показала **zero-shot generalization** на новых сценариях и объектах, доказав способность к логической рассуждению. Эксперименты показали, что Affordance-R1 изменяет свое поведение в зависимости от характеристик объекта и его положения, указывая на сильные возможности применения в реальном мире. Было также продемонстрировано, что Affordance-R1 не только обеспечивает генерализацию, но и устанавливает новые стандарты в области affordance reasoning.
## Значимость
Модель Affordance-R1 открывает новые возможности для **human-robot interaction**, **embodied perception** и **embodied manipulation**. Один из ключевых преимуществ заключается в способности к **zero-shot generalization**, что позволяет модели применяться в разных сценариях без дополнительного обучения. Благодаря интеграции CoT и GRPO, Affordance-R1 демонстрирует новый уровень логических возможностей, открывая новые пути для **робототехники**, **виртуальных ассистентов** и **интеллектуальных систем**.
## Выводы
Affordance-R1 устанавливает новые стандарты в области affordance grounding, демонстрируя впечатляющую генерализацию и логические возможности. На будущем, разработчики планируют расширить модель, включив в нее более сложные сценарии и объекты, чтобы еще лучше расширить поле применения.