Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action
2509.19571v1
cs.RO, cs.CV
2025-09-26
Авторы:
Sacha Morin, Kumaraditya Gupta, Mahtab Sandhu, Charlie Gauthier, Francesco Argenziano, Kirsty Ellis, Liam Paull
Резюме на русском
## Контекст
Исполнение открытых естественно-языковых запросов является центральной проблемой в робототехнике. Несмотря на успехи в имитационном обучении и видения-языка-действия (VLA) моделях, эти подходы сталкиваются с трудностями при работе с сложными инструкциями и неизвестными сценах. Одним из возможных решений является создание явной сценовой репрезентации, которая может служить переходным интерфейсом между роботом и окружающим миром. В данной работе мы предлагаем Agentic Scene Policies (ASP) — рамфаму работающую на основе улучшенных семантических, пространственных и поддержкочных возможностей современных репрезентаций сцен. Этот подход позволяет выполнять запросы в режиме zero-shot, а также решать проблемы сбора предметов и поиска путей в новых сценах. Мы демонстрируем мощь ASP на задачах роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-роботов-робото
Abstract
Executing open-ended natural language queries is a core problem in robotics.
While recent advances in imitation learning and vision-language-actions models
(VLAs) have enabled promising end-to-end policies, these models struggle when
faced with complex instructions and new scenes. An alternative is to design an
explicit scene representation as a queryable interface between the robot and
the world, using query results to guide downstream motion planning. In this
work, we present Agentic Scene Policies (ASP), an agentic framework that
leverages the advanced semantic, spatial, and affordance-based querying
capabilities of modern scene representations to implement a capable
language-conditioned robot policy. ASP can execute open-vocabulary queries in a
zero-shot manner by explicitly reasoning about object affordances in the case
of more complex skills. Through extensive experiments, we compare ASP with VLAs
on tabletop manipulation problems and showcase how ASP can tackle room-level
queries through affordance-guided navigation, and a scaled-up scene
representation. (Project page:
https://montrealrobotics.ca/agentic-scene-policies.github.io/)
Ссылки и действия
Дополнительные ресурсы: