Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

2508.17466v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY 2025-08-27
Авторы:

Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker

Резюме на русском

## Контекст Легкоходные роботы, оборудованные руками, представляют собой мощный инструмент для решения задач в сложных и нестанционарных условиях. Однако достижение точных и адаптивных захватов остается сложной задачей, требующей значительных усилий в области калибровки и предварительной настройки. Эти ограничения существенно сужают потенциал роботов в различных сферах, включая промышленность, поисковые и спасательные операции. Целью настоящего исследования является разработка методологии, позволяющей улучшить точность и адаптивность захвата, используя глубокое обучение и симуляционные модели. ## Метод Разработанная методология основывается на методе sim-to-real, который минимизирует необходимость постоянного применения физических данных. Для этого был создан симуляционный модельный пайплайн в среде Genesis. Модель генерирует набор данных, включающий пиксельно аннотированные карты качества захвата, используя RGB, дебатские карты и другие источники данных. Затем эти данные использовались для тренировки настраиваемой модели CNN с архитектурой U-Net. Эта модель оценивает качество захвата, выдавая графический heatmap с оптимальным точкой захвата. ## Результаты Разработанный подход был протестирован на роботе с четырьмя ногами. Результаты показали, что робот может самостоятельно назначить маршрут к мероприятию, определить позицию объекта с помощью RGB и дебатских карт, сгенерировать оптимальную точку захвата с помощью глубокого обучения, а затем выполнить точный захват. Эксперименты продемонстрировали эффективность разработанной системы в решении сложных задач захвата в реальном мире. ## Значимость Разработанная методология открывает новые возможности для расширения практического применения легкоходных роботов в таких областях, как промышленность, автоматизация, поисковые и спасательные операции. Основное преимущество заключается в своей способности обучаться на симуляционных моделях и применять это в реальном мире, что значительно сокращает время настройки и развитие новых приложений. ## Выводы Результаты исследования подтверждают, что систематическое использование моделей глубокого обучения в сочетании с симуляционными моделями может улучшить возможности захвата легкоходных роботов. Будущие исследования будут направлены на расширение области применения методологии и увеличение точности захвата в различных средах.

Abstract

Quadruped robots have emerged as highly efficient and versatile platforms, excelling in navigating complex and unstructured terrains where traditional wheeled robots might fail. Equipping these robots with manipulator arms unlocks the advanced capability of loco-manipulation to perform complex physical interaction tasks in areas ranging from industrial automation to search-and-rescue missions. However, achieving precise and adaptable grasping in such dynamic scenarios remains a significant challenge, often hindered by the need for extensive real-world calibration and pre-programmed grasp configurations. This paper introduces a deep learning framework designed to enhance the grasping capabilities of quadrupeds equipped with arms, focusing on improved precision and adaptability. Our approach centers on a sim-to-real methodology that minimizes reliance on physical data collection. We developed a pipeline within the Genesis simulation environment to generate a synthetic dataset of grasp attempts on common objects. By simulating thousands of interactions from various perspectives, we created pixel-wise annotated grasp-quality maps to serve as the ground truth for our model. This dataset was used to train a custom CNN with a U-Net-like architecture that processes multi-modal input from an onboard RGB and depth cameras, including RGB images, depth maps, segmentation masks, and surface normal maps. The trained model outputs a grasp-quality heatmap to identify the optimal grasp point. We validated the complete framework on a four-legged robot. The system successfully executed a full loco-manipulation task: autonomously navigating to a target object, perceiving it with its sensors, predicting the optimal grasp pose using our model, and performing a precise grasp. This work proves that leveraging simulated training with advanced sensing offers a scalable and effective solution for object handling.

Ссылки и действия

Связанные статьи

VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Plan...

## Контекст Полностью автоматизированная работа роботов в незнакомых средах является ключевым аспектом успешного примене...

2025-09-25

ObjectReact: Learning Object-Relative Control for Visual Navigation

#### Контекст Visual navigation, осуществляемая с применением только одной камеры и топологической карты, является привл...

2025-09-13

TANGO: Traversability-Aware Navigation with Local Metric Control for Topological...

## Контекст Визуальная навигация в робототехнике традиционно основывается на глобально консистентных 3D-картах или обуче...

2025-09-11

Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic ...

## Контекст Роботизированные манипуляторы, работающие в динамических и частично обозреваемых окружениях, широко применяю...

2025-09-10