Visual Prompting for Robotic Manipulation with Annotation-Guided Pick-and-Place Using ACT
2508.08748v1
cs.RO, cs.AI
2025-08-14
Авторы:
Muhammad A. Muttaqien, Tomohiro Motoda, Ryo Hanai, Yukiyasu Domae
Резюме на русском
## Контекст
В сфере искусственного интеллекта и робототехники росла потребность в эффективных решениях для задач пика-анд-плей (pick-and-place), особенно в условиях торговых точек с узкими проходами, плотными объектами и вариациями их свойств (размер, форма, цвет). Эти факторы усложняют планирование движений и захват предметов. Одной из сложностей является необходимость использовать структурированные данные для улучшения точности и адаптивности. В этом контексте было предложено исследование, ориентированное на решение этих проблем путем использования аннотационного подхода и новых методов машинного обучения.
## Метод
В статье предлагается перспективный подход, основанный на **annotation-guided visual prompting**, который использует баундинговые квадраты для определения объектов и мест для захвата. Это позволяет структурировать пространственные сведения и упростить планирование. Для реализации модели используется **Action Chunking with Transformers (ACT)**, метод глубокого обучения, обеспечивающий выявление чанков действий из человеческих демонстраций. Это означает, что робот не только следует готовой последовательности, но и адаптируется к нестандартным ситуациям. Архитектура ACT позволяет создавать поток действий, который обеспечивает плавность и эффективность взаимодействия.
## Результаты
Результаты экспериментов проводились на данных, полученных в условиях реальных торговых точек. Модель была протестирована на задачах захвата и размещения объектов с разными свойствами. Улучшенная точность захвата, реализованная с помощью ACT, позволила достичь высокой стабильности, даже при плотных объектах и окклюзиях. Оценивая результаты с помощью успешности задач и визуального анализа, модель показала значительное улучшение в сравнении с предыдущими подходами.
## Значимость
Предложенный подход отличается своей гибкостью и адаптивностью, что делает его пригодным для различных средств автоматизации. Он может быть применен в различных сферах, включая управление роботами в торговых точках, производственных целях и даже домашних роботов. Важное преимущество этого метода заключается в том, что он не требует дорогостоящих аннотаций или ручного планирования. Это позволяет ему быть эффективным для решения задач в реальном времени.
## Выводы
В итоге, решение, предложенное в этой статье, продемонстрировало свою эффективность в решении задач пика-анд-плей в сложных условиях. Оно может иметь значительное влияние на развитие робототехнических систем в современных торговых точках. Будущие работы будут ориентированы на улучшение системы для обработки более сложных сценариев и увеличении скорости реакции.
Abstract
Robotic pick-and-place tasks in convenience stores pose challenges due to
dense object arrangements, occlusions, and variations in object properties such
as color, shape, size, and texture. These factors complicate trajectory
planning and grasping. This paper introduces a perception-action pipeline
leveraging annotation-guided visual prompting, where bounding box annotations
identify both pickable objects and placement locations, providing structured
spatial guidance. Instead of traditional step-by-step planning, we employ
Action Chunking with Transformers (ACT) as an imitation learning algorithm,
enabling the robotic arm to predict chunked action sequences from human
demonstrations. This facilitates smooth, adaptive, and data-driven
pick-and-place operations. We evaluate our system based on success rate and
visual analysis of grasping behavior, demonstrating improved grasp accuracy and
adaptability in retail environments.
Ссылки и действия
Дополнительные ресурсы: