PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

2509.18282v1 cs.RO, cs.AI, cs.LG 2025-09-25

Авторы:

Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li

Резюме на русском

#### Контекст Робототехнические политики манипуляций часто сталкиваются с проблемой необходимости учитывать много факторов одновременно: где следует обратить внимание, какие действия предпринять и как их реализовать. Это приводит к сложностям в обеспечении широкой общимости политик. Мы предлагаем, что высокоуровневое разумование, касающееся где и что необходимо делать, может быть вынесено в системы визуального понимания языка (Vision-Language Models, VLMs), чтобы политики могли сосредоточиться на выполнении действий. Это решение может поднять уровень гибкости и эффективности таких систем. #### Метод Мы представляем PEEK (Policy-agnostic Extraction of Essential Keypoints) — метод, который ознакомляет VLMs с целью идентификации точечных представлений. Эти представления включают 1. маршруты для кинематических движений конечности робота (ключевые точки, указывающие, что делать), и 2. задачу-связанные маски (ключевые точки, указывающие, где обратить внимание). Эти представления являются преобразованными от работы VLMs и могут быть напрямую использованы в качестве входных данных для роботных систем. Для эффективного обучения, мы разработали автоматизированную аннотационную систему, которая производит метки для 20+ датасетов, представляющих собой различные роботы с разными характеристиками, включая 9 внешних видов. #### Результаты Мы провели эксперименты на множестве реальных и симуляционных данных, подтвердив эффективность PEEK. На тестировании в реальной жизни, PEEK повысил общим результат 3D-политики, обученной только в симуляции, на 41.4 раз в реальном мире. Также были получены улучшения в диапазоне 2-3.5 раз для двух других классов роботов, включая большие системы и малые манипуляторы. PEEK обеспечивает улучшение возможностей политик манипуляции, снижая необходимость в ручной настройке и предоставляя минимальные ключевые данные для потенциального успеха. #### Значимость PEEK может применяться в различных областях, где требуется робототехническая манипуляция. Он позволяет сократить динамическую нагрузку на системы, оптимизируя их работу по значимым задачам. Благодаря подходу PEEK, возможности роботов возрастают за счет использования VLMs для освоения семантики и визуальной сложности, что дает политикам простоты управления. #### Выводы Мы продемонстрировали, что PEEK может значительно улучшить возможности общимости робототехнических политик с помощью VLMs. Наши результаты открывают новые пути для будущих исследований в области обобщения политик манипуляций, в том числе исследований в области развития V

Abstract

Robotic manipulation policies often fail to generalize because they must simultaneously learn where to attend, what actions to take, and how to execute them. We argue that high-level reasoning about where and what can be offloaded to vision-language models (VLMs), leaving policies to specialize in how to act. We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which fine-tunes VLMs to predict a unified point-based intermediate representation: 1. end-effector paths specifying what actions to take, and 2. task-relevant masks indicating where to focus. These annotations are directly overlaid onto robot observations, making the representation policy-agnostic and transferable across architectures. To enable scalable training, we introduce an automatic annotation pipeline, generating labeled data across 20+ robot datasets spanning 9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot generalization, including a 41.4x real-world improvement for a 3D policy trained only in simulation, and 2-3.5x gains for both large VLAs and small manipulation policies. By letting VLMs absorb semantic and visual complexity, PEEK equips manipulation policies with the minimal cues they need--where, what, and how. Website at https://peek-robot.github.io/.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Autonomous Reinforcement Learning Robot Control with Intel's Loihi 2 Neuromorphi...

Real-World Reinforcement Learning of Active Perception Behaviors

Real-World Robot Control by Deep Active Inference With a Temporally Hierarchical...

Learning Sim-to-Real Humanoid Locomotion in 15 Minutes

Phase-Adaptive LLM Framework with Multi-Stage Validation for Construction Robot ...

Навигация