Visual Prompting for Robotic Manipulation with Annotation-Guided Pick-and-Place Using ACT

2508.08748v1 cs.RO, cs.AI 2025-08-14
Авторы:

Muhammad A. Muttaqien, Tomohiro Motoda, Ryo Hanai, Yukiyasu Domae

Резюме на русском

## Контекст В сфере искусственного интеллекта и робототехники росла потребность в эффективных решениях для задач пика-анд-плей (pick-and-place), особенно в условиях торговых точек с узкими проходами, плотными объектами и вариациями их свойств (размер, форма, цвет). Эти факторы усложняют планирование движений и захват предметов. Одной из сложностей является необходимость использовать структурированные данные для улучшения точности и адаптивности. В этом контексте было предложено исследование, ориентированное на решение этих проблем путем использования аннотационного подхода и новых методов машинного обучения. ## Метод В статье предлагается перспективный подход, основанный на **annotation-guided visual prompting**, который использует баундинговые квадраты для определения объектов и мест для захвата. Это позволяет структурировать пространственные сведения и упростить планирование. Для реализации модели используется **Action Chunking with Transformers (ACT)**, метод глубокого обучения, обеспечивающий выявление чанков действий из человеческих демонстраций. Это означает, что робот не только следует готовой последовательности, но и адаптируется к нестандартным ситуациям. Архитектура ACT позволяет создавать поток действий, который обеспечивает плавность и эффективность взаимодействия. ## Результаты Результаты экспериментов проводились на данных, полученных в условиях реальных торговых точек. Модель была протестирована на задачах захвата и размещения объектов с разными свойствами. Улучшенная точность захвата, реализованная с помощью ACT, позволила достичь высокой стабильности, даже при плотных объектах и окклюзиях. Оценивая результаты с помощью успешности задач и визуального анализа, модель показала значительное улучшение в сравнении с предыдущими подходами. ## Значимость Предложенный подход отличается своей гибкостью и адаптивностью, что делает его пригодным для различных средств автоматизации. Он может быть применен в различных сферах, включая управление роботами в торговых точках, производственных целях и даже домашних роботов. Важное преимущество этого метода заключается в том, что он не требует дорогостоящих аннотаций или ручного планирования. Это позволяет ему быть эффективным для решения задач в реальном времени. ## Выводы В итоге, решение, предложенное в этой статье, продемонстрировало свою эффективность в решении задач пика-анд-плей в сложных условиях. Оно может иметь значительное влияние на развитие робототехнических систем в современных торговых точках. Будущие работы будут ориентированы на улучшение системы для обработки более сложных сценариев и увеличении скорости реакции.

Abstract

Robotic pick-and-place tasks in convenience stores pose challenges due to dense object arrangements, occlusions, and variations in object properties such as color, shape, size, and texture. These factors complicate trajectory planning and grasping. This paper introduces a perception-action pipeline leveraging annotation-guided visual prompting, where bounding box annotations identify both pickable objects and placement locations, providing structured spatial guidance. Instead of traditional step-by-step planning, we employ Action Chunking with Transformers (ACT) as an imitation learning algorithm, enabling the robotic arm to predict chunked action sequences from human demonstrations. This facilitates smooth, adaptive, and data-driven pick-and-place operations. We evaluate our system based on success rate and visual analysis of grasping behavior, demonstrating improved grasp accuracy and adaptability in retail environments.

Ссылки и действия