PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies
2509.18282v1
cs.RO, cs.AI, cs.LG
2025-09-25
Авторы:
Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li
Резюме на русском
#### Контекст
Робототехнические политики манипуляций часто сталкиваются с проблемой необходимости учитывать много факторов одновременно: где следует обратить внимание, какие действия предпринять и как их реализовать. Это приводит к сложностям в обеспечении широкой общимости политик. Мы предлагаем, что высокоуровневое разумование, касающееся где и что необходимо делать, может быть вынесено в системы визуального понимания языка (Vision-Language Models, VLMs), чтобы политики могли сосредоточиться на выполнении действий. Это решение может поднять уровень гибкости и эффективности таких систем.
#### Метод
Мы представляем PEEK (Policy-agnostic Extraction of Essential Keypoints) — метод, который ознакомляет VLMs с целью идентификации точечных представлений. Эти представления включают 1. маршруты для кинематических движений конечности робота (ключевые точки, указывающие, что делать), и 2. задачу-связанные маски (ключевые точки, указывающие, где обратить внимание). Эти представления являются преобразованными от работы VLMs и могут быть напрямую использованы в качестве входных данных для роботных систем. Для эффективного обучения, мы разработали автоматизированную аннотационную систему, которая производит метки для 20+ датасетов, представляющих собой различные роботы с разными характеристиками, включая 9 внешних видов.
#### Результаты
Мы провели эксперименты на множестве реальных и симуляционных данных, подтвердив эффективность PEEK. На тестировании в реальной жизни, PEEK повысил общим результат 3D-политики, обученной только в симуляции, на 41.4 раз в реальном мире. Также были получены улучшения в диапазоне 2-3.5 раз для двух других классов роботов, включая большие системы и малые манипуляторы. PEEK обеспечивает улучшение возможностей политик манипуляции, снижая необходимость в ручной настройке и предоставляя минимальные ключевые данные для потенциального успеха.
#### Значимость
PEEK может применяться в различных областях, где требуется робототехническая манипуляция. Он позволяет сократить динамическую нагрузку на системы, оптимизируя их работу по значимым задачам. Благодаря подходу PEEK, возможности роботов возрастают за счет использования VLMs для освоения семантики и визуальной сложности, что дает политикам простоты управления.
#### Выводы
Мы продемонстрировали, что PEEK может значительно улучшить возможности общимости робототехнических политик с помощью VLMs. Наши результаты открывают новые пути для будущих исследований в области обобщения политик манипуляций, в том числе исследований в области развития V
Abstract
Robotic manipulation policies often fail to generalize because they must
simultaneously learn where to attend, what actions to take, and how to execute
them. We argue that high-level reasoning about where and what can be offloaded
to vision-language models (VLMs), leaving policies to specialize in how to act.
We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which
fine-tunes VLMs to predict a unified point-based intermediate representation:
1. end-effector paths specifying what actions to take, and 2. task-relevant
masks indicating where to focus. These annotations are directly overlaid onto
robot observations, making the representation policy-agnostic and transferable
across architectures. To enable scalable training, we introduce an automatic
annotation pipeline, generating labeled data across 20+ robot datasets spanning
9 embodiments. In real-world evaluations, PEEK consistently boosts zero-shot
generalization, including a 41.4x real-world improvement for a 3D policy
trained only in simulation, and 2-3.5x gains for both large VLAs and small
manipulation policies. By letting VLMs absorb semantic and visual complexity,
PEEK equips manipulation policies with the minimal cues they need--where, what,
and how. Website at https://peek-robot.github.io/.
Ссылки и действия
Дополнительные ресурсы: