Spatial Policy: Guiding Visuomotor Robotic Manipulation with Spatial-Aware Modeling and Reasoning

2508.15874v1 cs.RO, cs.AI, cs.CV 2025-08-26

Авторы:

Yijun Liu, Yuwei Liu, Yuan Meng, Jieheng Zhang, Yuwei Zhou, Ye Li, Jiacheng Jiang, Kangye Ji, Shijia Ge, Zhi Wang, Wenwu Zhu

Резюме на русском

## Контекст В последние годы роботизированная манипуляция стала одной из ключевых областей исследований в области искусственного интеллекта и робототехники. Однако существующие методы часто сталкиваются с проблемами в управлении в долгосрочных задачах, особенно в сложных средах. Основной причиной этого является нехватка способности этих моделей достаточно эффективно использовать пространственную структуру среды при выборе действий. Такая недостаточность приводит к ошибкам в планировании и выполнении задач. Для решения этой проблемы было предложено Spatial Policy (SP) — новый фреймворк для спациально ориентированного визуально-моторного управления роботами. SP предлагает расширенную модель пространственной ориентации для повышения эффективности в контроле роботами в различных сложных сценариях. ## Метод Spatial Policy (SP) представляет собой инновационный подход к проблеме визуально-моторного управления, используя пространственную модель, которая работает на основе экспериментальной архитектуры. Основными модулями SP являются: 1) модуль спациально условного получения видео, который позволяет генерировать видео в соответствии с пространственной планой; 2) модуль прогнозирования пространственных действий, который использует пространственную модель для выбора наиболее подходящих действий; 3) модуль пространственного рассуждения, который учитывает два этапа перепланирования для достижения более точных результатов. Эти модули взаимодействуют в единой структуре, обеспечивая пространственно ориентированное планирование и выполнение задач. ## Результаты Работа была проверена на 11 различных задачах, в которых Spatial Policy (SP) демонстрировал отличные результаты. Использовались разнообразные данные, включая видео с действиями и пространственные планы. Эксперименты показали, что SP значительно превосходит другие модели, показывая среднюю улучшение эффективности на 33.0%. Благодаря своей способности учитывать пространственную структуру, SP достигает средней успешности 86.7%, что существенно повышает практическую применимость моделей визуально-моторного управления. Эти результаты демонстрируют мощь SP в решении проблем, связанных с пространственной ориентацией в роботизированной манипуляции. ## Значимость Предложенный Spatial Policy (SP) имеет широкие области применения, в том числе в области роботизированных систем, искусственного интеллекта, а также в сферах, где требуется пространственно ориентированное планирование. Этот подход предлагает значительные преимущества, включая более точное планирование, увеличенную эффективность и улучшенную надежность в контроле робо

Abstract

Vision-centric hierarchical embodied models have demonstrated strong potential for long-horizon robotic control. However, existing methods lack spatial awareness capabilities, limiting their effectiveness in bridging visual plans to actionable control in complex environments. To address this problem, we propose Spatial Policy (SP), a unified spatial-aware visuomotor robotic manipulation framework via explicit spatial modeling and reasoning. Specifically, we first design a spatial-conditioned embodied video generation module to model spatially guided predictions through a spatial plan table. Then, we propose a spatial-based action prediction module to infer executable actions with coordination. Finally, we propose a spatial reasoning feedback policy to refine the spatial plan table via dual-stage replanning. Extensive experiments show that SP significantly outperforms state-of-the-art baselines, achieving a 33.0% average improvement over the best baseline. With an 86.7% average success rate across 11 diverse tasks, SP substantially enhances the practicality of embodied models for robotic control applications. Code and checkpoints are maintained at https://plantpotatoonmoon.github.io/SpatialPolicy/.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Spatial Policy: Guiding Visuomotor Robotic Manipulation with Spatial-Aware Modeling and Reasoning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Distracted Robot: How Visual Clutter Undermine Robotic Manipulation

Obstruction reasoning for robotic grasping

RealAppliance: Let High-fidelity Appliance Assets Controllable and Workable as A...

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied ...

Stable Multi-Drone GNSS Tracking System for Marine Robots

Навигация