Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action

2509.19571v1 cs.RO, cs.CV 2025-09-26

Авторы:

Sacha Morin, Kumaraditya Gupta, Mahtab Sandhu, Charlie Gauthier, Francesco Argenziano, Kirsty Ellis, Liam Paull

Резюме на русском

## Контекст Исполнение открытых естественно-языковых запросов является центральной проблемой в робототехнике. Несмотря на успехи в имитационном обучении и видения-языка-действия (VLA) моделях, эти подходы сталкиваются с трудностями при работе с сложными инструкциями и неизвестными сценах. Одним из возможных решений является создание явной сценовой репрезентации, которая может служить переходным интерфейсом между роботом и окружающим миром. В данной работе мы предлагаем Agentic Scene Policies (ASP) — рамфаму работающую на основе улучшенных семантических, пространственных и поддержкочных возможностей современных репрезентаций сцен. Этот подход позволяет выполнять запросы в режиме zero-shot, а также решать проблемы сбора предметов и поиска путей в новых сценах. Мы демонстрируем мощь ASP на задачах роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-робото

Abstract

Executing open-ended natural language queries is a core problem in robotics. While recent advances in imitation learning and vision-language-actions models (VLAs) have enabled promising end-to-end policies, these models struggle when faced with complex instructions and new scenes. An alternative is to design an explicit scene representation as a queryable interface between the robot and the world, using query results to guide downstream motion planning. In this work, we present Agentic Scene Policies (ASP), an agentic framework that leverages the advanced semantic, spatial, and affordance-based querying capabilities of modern scene representations to implement a capable language-conditioned robot policy. ASP can execute open-vocabulary queries in a zero-shot manner by explicitly reasoning about object affordances in the case of more complex skills. Through extensive experiments, we compare ASP with VLAs on tabletop manipulation problems and showcase how ASP can tackle room-level queries through affordance-guided navigation, and a scaled-up scene representation. (Project page: https://montrealrobotics.ca/agentic-scene-policies.github.io/)

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация