Prompt2Auto: From Motion Prompt to Automated Control via Geometry-Invariant One-Shot Gaussian Process Learning

2509.14040v1 cs.RO, cs.AI, cs.SY, eess.SY 2025-09-19
Авторы:

Zewen Yang, Xiaobing Dai, Dongfa Zhang, Yu Li, Ziyang Meng, Bingkun Huang, Hamid Sadeghian, Sami Haddadin

Резюме на русском

## Контекст Управление роботами на основе демонстрации позволяет им приобретать сложные навыки, адаптировався к различным задачам в разных средах. Однако, существующие подходы часто требуют больших наборов данных и не в состоянии обобщаться на новые координатные преобразования. Эти ограничения затрудняют их применение в реальных условиях, где необходимо быстрое понимание и адаптация к изменениям. Мотивация заключается в развитии метода, который может извлекать полезные навыки из небольших демонстраций и обеспечивать высокую гибкость при работе в разных условиях. ## Метод Мы предлагаем Prompt2Auto — новую рамочную методику, основанную на геометрически инвариантном подходе one-shot Gaussian process learning. Основной идеей является возможность извлечения знаний о движении в любой точке пространства из одного моментального пробного знака (motion prompt). Для обеспечения геометрической инвариантности мы предлагаем стратегию построения данных, которая учитывает преобразования по трансляции, вращению и масштабированию. Это позволяет модели GeoGP не только мгновенно понять движение, но и предсказывать несколько шагов вперёд. Также, модель обладает высокой стойкостью к разнообразию в поведении пользователя, что формирует базу для многоспособной автономной системы. ## Результаты Мы проверили Prompt2Auto в рамках двух реальных экспериментов, используя дизайн пользовательского интерфейса для графического ввода движений. Результаты показали, что модель может эффективно извлекать навыки в одном примере, преобразовывать их в конкретное поведение робота, а также адаптироваться к новым условиям. Это продемонстрировано в сценариях, в которых робот выполнял сложные ритмичные движения, включая колебания точки в пространстве и другие задачи, где требуется точное управление. Модель GeoGP также показала способность учитывать несколько навыков одновременно, что позволяет роботу одновременно решать разные задачи. ## Значимость Предлагаемый подход может быть применен в различных областях, где необходимо автоматизировать управление роботами на основе набора сложных движений, таких как ассистирование в хирургии, точные технологии или системы для транспорта. Одним из основных преимуществ является высокая гибкость и способность обучаться из небольших демонстраций, что значительно сокращает время обучения. Это может привести к увеличению эффективности и безопасности в работе с роботами в технологических процессах. ## Выводы Результаты проведенных экспериментов показывают, что Prompt2Auto является эффективным инструментом для обучения роботов с использованием одного моментального примера. Метод не только обеспечивает высокую

Abstract

Learning from demonstration allows robots to acquire complex skills from human demonstrations, but conventional approaches often require large datasets and fail to generalize across coordinate transformations. In this paper, we propose Prompt2Auto, a geometry-invariant one-shot Gaussian process (GeoGP) learning framework that enables robots to perform human-guided automated control from a single motion prompt. A dataset-construction strategy based on coordinate transformations is introduced that enforces invariance to translation, rotation, and scaling, while supporting multi-step predictions. Moreover, GeoGP is robust to variations in the user's motion prompt and supports multi-skill autonomy. We validate the proposed approach through numerical simulations with the designed user graphical interface and two real-world robotic experiments, which demonstrate that the proposed method is effective, generalizes across tasks, and significantly reduces the demonstration burden. Project page is available at: https://prompt2auto.github.io

Ссылки и действия