Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation
2508.17466v1
cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY
2025-08-27
Авторы:
Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker
Резюме на русском
## Контекст
Легкоходные роботы, оборудованные руками, представляют собой мощный инструмент для решения задач в сложных и нестанционарных условиях. Однако достижение точных и адаптивных захватов остается сложной задачей, требующей значительных усилий в области калибровки и предварительной настройки. Эти ограничения существенно сужают потенциал роботов в различных сферах, включая промышленность, поисковые и спасательные операции. Целью настоящего исследования является разработка методологии, позволяющей улучшить точность и адаптивность захвата, используя глубокое обучение и симуляционные модели.
## Метод
Разработанная методология основывается на методе sim-to-real, который минимизирует необходимость постоянного применения физических данных. Для этого был создан симуляционный модельный пайплайн в среде Genesis. Модель генерирует набор данных, включающий пиксельно аннотированные карты качества захвата, используя RGB, дебатские карты и другие источники данных. Затем эти данные использовались для тренировки настраиваемой модели CNN с архитектурой U-Net. Эта модель оценивает качество захвата, выдавая графический heatmap с оптимальным точкой захвата.
## Результаты
Разработанный подход был протестирован на роботе с четырьмя ногами. Результаты показали, что робот может самостоятельно назначить маршрут к мероприятию, определить позицию объекта с помощью RGB и дебатских карт, сгенерировать оптимальную точку захвата с помощью глубокого обучения, а затем выполнить точный захват. Эксперименты продемонстрировали эффективность разработанной системы в решении сложных задач захвата в реальном мире.
## Значимость
Разработанная методология открывает новые возможности для расширения практического применения легкоходных роботов в таких областях, как промышленность, автоматизация, поисковые и спасательные операции. Основное преимущество заключается в своей способности обучаться на симуляционных моделях и применять это в реальном мире, что значительно сокращает время настройки и развитие новых приложений.
## Выводы
Результаты исследования подтверждают, что систематическое использование моделей глубокого обучения в сочетании с симуляционными моделями может улучшить возможности захвата легкоходных роботов. Будущие исследования будут направлены на расширение области применения методологии и увеличение точности захвата в различных средах.
Abstract
Quadruped robots have emerged as highly efficient and versatile platforms,
excelling in navigating complex and unstructured terrains where traditional
wheeled robots might fail. Equipping these robots with manipulator arms unlocks
the advanced capability of loco-manipulation to perform complex physical
interaction tasks in areas ranging from industrial automation to
search-and-rescue missions. However, achieving precise and adaptable grasping
in such dynamic scenarios remains a significant challenge, often hindered by
the need for extensive real-world calibration and pre-programmed grasp
configurations. This paper introduces a deep learning framework designed to
enhance the grasping capabilities of quadrupeds equipped with arms, focusing on
improved precision and adaptability. Our approach centers on a sim-to-real
methodology that minimizes reliance on physical data collection. We developed a
pipeline within the Genesis simulation environment to generate a synthetic
dataset of grasp attempts on common objects. By simulating thousands of
interactions from various perspectives, we created pixel-wise annotated
grasp-quality maps to serve as the ground truth for our model. This dataset was
used to train a custom CNN with a U-Net-like architecture that processes
multi-modal input from an onboard RGB and depth cameras, including RGB images,
depth maps, segmentation masks, and surface normal maps. The trained model
outputs a grasp-quality heatmap to identify the optimal grasp point. We
validated the complete framework on a four-legged robot. The system
successfully executed a full loco-manipulation task: autonomously navigating to
a target object, perceiving it with its sensors, predicting the optimal grasp
pose using our model, and performing a precise grasp. This work proves that
leveraging simulated training with advanced sensing offers a scalable and
effective solution for object handling.