ImaginationPolicy: Towards Generalizable, Precise and Reliable End-to-End Policy for Robotic Manipulation
2509.20841v1
cs.RO, cs.AI, cs.LG
2025-09-27
Авторы:
Dekun Lu, Wei Gao, Kui Jia
Резюме на русском
## Контекст
Область исследования, связанная с развитием энд-то-энд политик для роботизированной манипуляции, является ключевой для развития общего подхода к управлению роботами. Традиционные модульные процессы часто страдают от потери информации, несоответствия фичей и ограниченности в обработке сложных сценариев. Несмотря на преимущества энд-то-энд политик, включая ограничение потерь информации и улучшение характеристик, существующие решения, особенно те, что основаны на глубоких сетях, стремятся к более высокой производительности, генерализуемости и надежности для сложных задач. Это ставит достаточно частые технические вызовы и мотивирует развитие более продвинутых методов, которые могут обеспечить более точное, надежное и решающее решение для проблем в этой области.
## Метод
Метод, предложенный в данной работе, основывается на новой формулировке Chain of Moving Oriented Keypoints (CoMOK) для роботизированных манипуляций. Эта формулировка позволяет использовать явную привязку к ориентированным ключевым точкам, которые могут легко адаптироваться к различным сценариям и объектам. Политика выполняется в универсальном нормальном виде, что позволяет легко интегрировать различные задачи и модели. Основной мотивацией для этого подхода является характеристика значительного улучшения точности, гибкости и надежности, которую может обеспечить энд-то-энд политика во время выполнения сложных манипуляций.
## Результаты
В ходе исследования было проведено несколько экспериментов, включая моделирование и реальные тесты на роботах. Эксперименты показали, что CoMOK-политика позволяет достичь высокой точности в позиционировании и управлении, даже при работе с разными объектами и сценариями. Измерения показали точность, достигающую под-центрометрической точности, что значительно превосходит многие существующие подходы. Эксперименты также демонстрируют гибкость CoMOK в обработке многоэтапных задач и многомодальных поведений, что подтверждает его эффективность в различных сценариях.
## Значимость
Метод, представленный в данной работе, открывает новые возможности для развития общей, точной и надежной энд-то-энд политики для роботизированных манипуляций. Он может быть применен в различных областях, включая промышленную автоматизацию, робототехнические системы, а также в развитии более продвинутых систем управления для интеллектуальных агентов. Преимущества CoMOK заключаются в его универсальности, точности и надежности, которые могут существенно улучшить производительность и надежность роботизированных систем в реальных условиях.
## Вы
Abstract
End-to-end robot manipulation policies offer significant potential for
enabling embodied agents to understand and interact with the world. Unlike
traditional modular pipelines, end-to-end learning mitigates key limitations
such as information loss between modules and feature misalignment caused by
isolated optimization targets. Despite these advantages, existing end-to-end
neural networks for robotic manipulation--including those based on large
VLM/VLA models--remain insufficiently performant for large-scale practical
deployment. In this paper, we take a step towards an end-to-end manipulation
policy that is generalizable, accurate and reliable. To achieve this goal, we
propose a novel Chain of Moving Oriented Keypoints (CoMOK) formulation for
robotic manipulation. Our formulation is used as the action representation of a
neural policy, which can be trained in an end-to-end fashion. Such an action
representation is general, as it extends the standard end-effector pose action
representation and supports a diverse set of manipulation tasks in a unified
manner. The oriented keypoint in our method enables natural generalization to
objects with different shapes and sizes, while achieving sub-centimeter
accuracy. Moreover, our formulation can easily handle multi-stage tasks,
multi-modal robot behaviors, and deformable objects. Extensive simulated and
hardware experiments demonstrate the effectiveness of our method.
Ссылки и действия
Дополнительные ресурсы: