Constraint-Preserving Data Generation for Visuomotor Policy Learning

2508.03944v1 cs.RO, cs.AI 2025-08-09
Авторы:

Kevin Lin, Varun Ragunath, Andrew McAlinden, Aaditya Prasad, Jimmy Wu, Yuke Zhu, Jeannette Bohg

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Роботизированные манипуляции требуют высокого уровня точности и адаптивности, особенно в задачах, требующих взаимодействия с разнообразными объектами. Одной из ключевых проблем в этой области является сложность и высокая стоимость сбора демонстрационных данных для обучения политик визуомоторного управления (visuomotor policies). Традиционные подходы требуют многократного взаимодействия с реальными объектами, что затрудняет масштабирование и адаптацию к различным конфигурациям объектов. Одним из перспективных направлений решения этой проблемы является генерация демонстрационных данных в симуляции, которая позволяет создавать разнообразные сцены без необходимости физического взаимодействия. Однако существующие методы часто не учитывают геометрические особенности объектов или не обеспечивают сохранение ключевых констрантов (constraints), необходимых для успешного выполнения задачи. Это значительно ограничивает эффективность обучения политик и их генерализацию на реальные ситуации. Настоящая статья предлагает Constraint-Preserving Data Generation (CP-Gen) – инновационный подход, который решает эту проблему, создавая демонстрации, соответствующие геометрическим и позиционным особенностям объектов. CP-Gen основывается на использовании единственной экспертной траектории, из которой могут быть порождены множество новых демонстраций, сохраняющих ключевые констранты задачи. Такой подход позволяет обучать политики, которые эффективно работают в реальных условиях, не требуя дополнительных данных для каждой новой конфигурации. ## ПРЕДЛОЖЕННЫЙ МЕТОД CP-Gen основывается на декомпозиции экспертных траекторий на два компонента: свободные движения (free-space motions) и роботизированные навыки (robot skills). Основной новизной метода является формулировка роботизированных навыков как ограничений в виде траекторий киппоинтов (keypoints), которые должны соответствовать заданным справочным траекториям относительно задачи. Для генерации новых демонстраций CP-Gen выполняет следующие шаги: 1. **Преобразование позиций и геометрий объектов**: Алгоритм выбирает случайные преобразования для позиций и геометрий объектов, связанных с задачей. 2. **Применение преобразований к киппоинтам**: Киппоинты, связанные с роботом или объектом, адаптируются к новой геометрии и позиции. 3. **Оптимизация конфигураций**: Алгоритм оптимизирует конфигурации суставов робота таким образом, чтобы киппоинты робота или объекта соответствовали траекториям, полученным после преобразования. 4. **Планирование движения**: После оптимизации выполняется коллизионно-свободное планирование движения к первой оптимизированной конфигурации. Такой подход позволяет создавать разнообразные демонстрации, сохраняющие ключевые констранты задачи, несмотря на изменения в геометрии и положении объектов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на 16 симуляционных задачах и 4 реальных задачах, включая многоступенчатые, непредварительно захваченные (non-prehensile) и высокоточные (tight-tolerance) манипуляции. Результаты показали, что политики, обученные с помощью CP-Gen, достигают среднего уровня успешности в 77% случаев, превосходящих 50%, достигнутых лучшим базовым методом. Использование CP-Gen показало высокую эффективность в обучении политик, способных общаться в реальных условиях без необходимости дополнительных данных. Адаптивность метода к различным геометриям и позициям объектов демонстрирует его практическую применимость в сложных задачах манипуляции. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CP-Gen открывает новые возможности для эффективного обучения визуомоторных политик в задачах манипуляции. Его способность создавать разнообразные демонстрации на основе единственной экспертной траектории значительно сокращает стоимость и время, необходимые для сбора данных. Практические области применения включают: - **Индустриальные роботы**: Автоматизация сложных манипуляций с разнообразными объектами. - **Медицинские роботы**: Адаптивность к различным анатомическим конфигурациям. - **Домашние роботы**: Улучшение взаимодействия с нестандартными предметами в домашних условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Основным достижением данной работы является разработка CP-Gen – метода, который позволяет генерировать демонстрации, сохраняющие констранты задачи, и обучать политики, эффективные в реальных условиях. Будущие исследования могут фокусироваться на расширении метода для более сложных задач, таких как многоagent сцены, и использовании более сложных моделей для улучшения генерации демонстраций.

Abstract

Large-scale demonstration data has powered key breakthroughs in robot manipulation, but collecting that data remains costly and time-consuming. We present Constraint-Preserving Data Generation (CP-Gen), a method that uses a single expert trajectory to generate robot demonstrations containing novel object geometries and poses. These generated demonstrations are used to train closed-loop visuomotor policies that transfer zero-shot to the real world and generalize across variations in object geometries and poses. Similar to prior work using pose variations for data generation, CP-Gen first decomposes expert demonstrations into free-space motions and robot skills. But unlike those works, we achieve geometry-aware data generation by formulating robot skills as keypoint-trajectory constraints: keypoints on the robot or grasped object must track a reference trajectory defined relative to a task-relevant object. To generate a new demonstration, CP-Gen samples pose and geometry transforms for each task-relevant object, then applies these transforms to the object and its associated keypoints or keypoint trajectories. We optimize robot joint configurations so that the keypoints on the robot or grasped object track the transformed keypoint trajectory, and then motion plan a collision-free path to the first optimized joint configuration. Experiments on 16 simulation tasks and four real-world tasks, featuring multi-stage, non-prehensile and tight-tolerance manipulation, show that policies trained using CP-Gen achieve an average success rate of 77%, outperforming the best baseline that achieves an average of 50%.

Ссылки и действия