📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 DepthVision: Robust Vision-Language Understanding through GAN-Based LiDAR-to-RGB Synthesis

2025-09-11

Авторы:

Sven Kirchner, Nils Purschke, Ross Greer, Alois C. Knoll

## Контекст Надежность роботских операций в условиях недостаточного или поврежденного визуального ввода остается значительной проблемой в области робототехники. Традиционные Vision-Language Models (VLMs) опираются только на визуальные данные, полученные камерой, и текстовые сведения. Однако значительное количество сенсорных данных, таких как LiDAR, часто игнорируется или недостаточно используется в таких моделях. Это сделано по причине того, что VLMs не способны обрабатывать неполные или разреженные данные, такие как LiDAR-сканы, непосредственно. Наличие сильных изменений в условиях освещения или размытости изображений дополнительно усложняет работу роботов в реальных условиях. Мы предлагаем DepthVision — рамформу, которая адресует эти проблемы, обеспечивая улучшенное зрение робота в таких условиях. ## Метод DepthVision является новым фреймворком для мультимодального понимания сцены, который использует синтез RGB-изображений из LiDAR-сканов с помощью генерирующей адверсарной сети (GAN) с интегрированным сетью рефайнера. Эти сгенерированные RGB-изображения сочетаются с реальными RGB-данными с помощью Luminance-Aware Modality Adaptation (LAMA), которая адаптирует динамически сочетание двух типов данных к освещению окружения. Эта архитектура позволяет компенсировать заметные сбои в сенсорах, такие как темнота или мерцание света, без необходимости переучивания визуальных моделей. Целью является предоставить более надежный ввод визуальных моделей, даже при неполной или искаженной информации. ## Результаты Мы проверили DepthVision на реальных и симулированных данных, включая несколько моделей и задач. Особое внимание было уделено безопасным задачам, таким как предотвращение столкновений и детектирование объектов в низкой освещённости. Результаты показали, что наше решение значительно улучшает работу моделей в условиях слабого освещения, повышая точность и уменьшая ошибки по сравнению с RGB-только базовыми моделями. Была доказана совместимость DepthVision с замороженными Vision-Language Models, что демонстрирует гибкость и эффективность нашего подхода. ## Значимость DepthVision может быть применен в большинстве сценариев, где визуальная информация ограничена или искажена, включая системы безопасности в автомобилях, навигационные системы для роботов и видеосенсоры для беспилотных летательных аппаратов. Наш подход обеспечивает улучшенную надёжность и безопасность в реальных условиях, а также может быть использован для обогащения данных во время обучения VLMs, что повысит их качество и доступность для более широкого круга задач. ## Выводы DepthVision является прорывом в области мультимодального понимания сцены, используя Li

Annotation:

Ensuring reliable robot operation when visual input is degraded or insufficient remains a central challenge in robotics. This letter introduces DepthVision, a framework for multimodal scene understanding designed to address this problem. Unlike existing Vision-Language Models (VLMs), which use only camera-based visual input alongside language, DepthVision synthesizes RGB images from sparse LiDAR point clouds using a conditional generative adversarial network (GAN) with an integrated refiner netw...

ID: 2509.07463v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Can SSD-Mamba2 Unlock Reinforcement Learning for End-to-End Motion Control?

2025-09-11

Авторы:

Gavin Tao, Yinuo Wang, Jinzhao Zhou

## Контекст Многие современные системы моторного управления построены на базе методов реконструкции перцепции и активного управления, но не все эти системы могут обеспечить значительную производительность при сочетании разных типов входных данных. Особенностью таких систем является то, что они часто не могут эффективно обрабатывать данные локального восприятия (проприорецепции) и внешнего восприятия (ексетероцепции) одновременно, что ограничивает их возможности в широком спектре задач. Неверно управляемые системы моторного управления могут привести к нежелательным случайным ситуациям, таким как коллизии, неудачные попытки удержания баланса и другие неблагоприятные результаты. На практике это значит, что необходимо разработать более универсальные и эффективные системы моторного управления, которые могут обрабатывать одновременно большое количество входных данных с различных источников, включая как локальные, так и внешние данные. ## Метод Мы предлагаем развитие фреймворка для решения задач моторного управления с использованием **SSD-Mamba2**, который является современным селективным рекуррентным сетным блоком. Эта модель применяет преобразование стойких состояний для обработки данных входов в виде тензоров, и эти тензоры затем используются в качестве входных данных для алгоритмов моторного управления. Архитектура фреймворка включает в себя модульное сеттное устройство, которое использует **state-space duality** (SSD) для обеспечения рекуррентных и конволюционных процессов в сетке. Таким образом, модель может обрабатывать как быстрые рекуррентные данные, так и детальные конволюционные данные. Благодаря этому, модель SSD-Mamba2 может обеспечить высокую производительность, как при работе с локальными данными, так и при обработке внешних входных данных. ## Результаты Мы провели эксперименты с данными, полученными в различных модификациях задач моторного управления. Использовались различные типы входных данных, в том числе изображения, глубинные карты и другие сенсорные данные. Результаты показали, что наша модель **SSD-Mamba2** показывает значительно улучшенную эффективность по сравнению с другими моделями, которые не использовали новые структуры сетки. Модель обеспечивает более высокую производительность в задачах моторного управления, в том числе в задачах, требующих сложного взаимодействия с окружающим пространством. Эксперименты показали, что нашу модель можно использовать в различных сценариях, включая сценарии с управлением роботов, которые должны решать задачи, включая коллизии, удержание баланса и другие. ## Значимость Наша модель может быть применена в различных

Annotation:

End-to-end reinforcement learning for motion control promises unified perception-action policies that scale across embodiments and tasks, yet most deployed controllers are either blind (proprioception-only) or rely on fusion backbones with unfavorable compute-memory trade-offs. Recurrent controllers struggle with long-horizon credit assignment, and Transformer-based fusion incurs quadratic cost in token length, limiting temporal and spatial context. We present a vision-driven cross-modal RL fram...

ID: 2509.07593v1 cs.RO, cs.AI, cs.CV, cs.SY, eess.IV, eess.SY

arXiv PDF

📄 Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic Environments

2025-09-10

Авторы:

Jiahui Yang, Jason Jingzhou Liu, Yulong Li, Youssef Khaky, Kenneth Shaw, Deepak Pathak

## Контекст Роботизированные манипуляторы, работающие в динамических и частично обозреваемых окружениях, широко применяются в промышленности, науке и быту. Однако создание эффективных систем планирования движений, которые могут реагировать на непредсказуемые изменения окружения, остается сложной задачей. Традиционные методы, такие как классические планиры, требуют полного знания окружения и часто оказываются медленными в динамичных сценариях. Зато новые технологии, основанные на нейронных сетях, могут оперировать непосредственно с данными из сенсоров, обеспечивая более реагирующие и реальности приближенные движения. Однако их универсальность и результаты в трудных сценариях часто остаются недостаточными. Наша мотивация заключается в разработке метода, который объединит точность классических методов с гибкостью и реактивностью новых моделей. ## Метод Мы предлагаем **Deep Reactive Policy (DRP)**, новую нейронную модель планирования движений, основанную на преобразователях (transformer). Для обучения DRP использовались 10 миллионов экспертных траекторий, созданных в симуляционных сценариях с различными условиями. Основной частью DRP является IMPACT — компонент, реализующий motion policy на основе преобразователей. Для повышения качества использовалась итеративная техника teacher-student fine-tuning, что позволило улучшить отклик при предотвращении столкновений с статическими препятствиями. Для реагирования на динамические препятствия во время выполнения использовался DCP-RMP — модуль, рассчитывающий цель движения в реальном времени с учетом взаимодействия с движущимися объектами. Эта модель позволяет DRP реагировать на ситуации в реальном времени и поддерживать высокую стабильность. ## Результаты Мы проверили DRP на серии задач, включающих кластерные сцены, движущиеся препятствия и затруднения в достижении целей. Результаты показали, что DRP достигает высокой успешности в решении этих задач по сравнению с классическими методами и другими моделями на основе нейронных сетей. Особенно выдающимися результатами DRP проявился в ситуациях с частичной наблюдаемостью и большим количеством динамических объектов. Мы также проверяли DRP на реальных роботах, и он показал стабильность и высокую скорость реакции. Данные результаты доступны на сайте проекта: https://deep-reactive-policy.com. ## Значимость DRP может быть применен в различных областях, где требуется высокая реактивность и точность движений в динамических окружениях. Например, в производстве, в сфере домохозяйств или в здравоохранении. Он обладает преимуществами по сравнению с классическими методами, такими как

Annotation:

Generating collision-free motion in dynamic, partially observable environments is a fundamental challenge for robotic manipulators. Classical motion planners can compute globally optimal trajectories but require full environment knowledge and are typically too slow for dynamic scenes. Neural motion policies offer a promising alternative by operating in closed-loop directly on raw sensory inputs but often struggle to generalize in complex or dynamic settings. We propose Deep Reactive Policy (DRP)...

ID: 2509.06953v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

2025-09-09

Авторы:

Hao-Shu Fang, Branden Romero, Yichen Xie, Arthur Hu, Bo-Ruei Huang, Juan Alvarez, Matthew Kim, Gabriel Margolis, Kavya Anbarasu, Masayoshi Tomizuka, Edward Adelson, Pulkit Agrawal

## Контекст Дексторальное манипулирование является ключевым аспектом во многих прикладных задачах, включая производство, робототехнику и здравоохранение. Однако создание роботов, способных выполнять такие задачи с высокой точностью и эффективностью, остается вызовом. Одной из основных проблем является нехватка эффективных методов для сбора и передачи человеческих дексторальных навыков на роботов. Данные, собираемые с помощью телеоперационных систем, часто неэффективны, поскольку не учитывают человеческие возможности и ограничения. Существуют необходимость и мотивация для разработки систем, которые были бы более естественными для человеческих пользователей и более передаваемыми для роботов. ## Метод DEXOP (Device for Robotic Transfer of Dexterous Human Manipulation) представляет собой устройство, позволяющее сенсоризировать и записывать человеческое дексторальное манипулирование, максимизируя его передачу на роботов. Это устройство — пассивная рукоятка-экзоскелет, которая способствует максимальному использованию человеческих возможностей для сбора данных с высокой плотностью сенсорной информации (вид + тактильная информация). Дексторный экзоскелет связывает человеческие пальцы с роботскими пальцами, что позволяет пользователю получать ощущение владения и визуально видеть роботскую руку, которая повторяет его движения. Это устройство также предоставляет пользователю силовую обратную связь, что делает демонстрации задач более естественными по сравнению с телеоперацией. Эти характеристики улучшают точность и скорость демонстраций. ## Результаты Работа подтверждает высокую эффективность DEXOP в сборе данных для дексторальных задач. Наборы данных, собранные с помощью DEXOP, позволяют роботам выполнять задачи с меньшим количеством данных и с меньшими ошибками. Эксперименты показали, что роботы, обученные на данных DEXOP, демонстрируют значительно более высокую производительность по сравнению с телеоперацией. Это делает DEXOP эффективной системой для улучшения дексторальной робототехники. ## Значимость DEXOP может применяться в широком кругу областей, включая сбор данных для обучения роботов, инструментальное манипулирование, роботизированные лечебные процедуры и упаковка. Он предлагает несколько преимуществ: удобство использования для пользователей, улучшение точности и скорости демонстраций, а также передаваемость данных для роботов. Его потенциал заключается в том, что он может существенно улучшить эффективность и точность в различных прикладных задачах, а также способствовать развитию робототехники в области дексторального манипулирования. ## Вывод

Annotation:

We introduce perioperation, a paradigm for robotic data collection that sensorizes and records human manipulation while maximizing the transferability of the data to real robots. We implement this paradigm in DEXOP, a passive hand exoskeleton designed to maximize human ability to collect rich sensory (vision + tactile) data for diverse dexterous manipulation tasks in natural environments. DEXOP mechanically connects human fingers to robot fingers, providing users with direct contact feedback (vi...

ID: 2509.04441v2 cs.RO, cs.AI, cs.CV, cs.HC

arXiv PDF

📄 Pointing-Guided Target Estimation via Transformer-Based Attention

2025-09-09

Авторы:

Luca Müller, Hassan Ali, Philipp Allgeuer, Lukáš Gajdošech, Stefan Wermter

#### Контекст Направленные (деиктические) жесты, такие как указательный палец, являются основной формой невербального общения, позволяющей людям указывать на конкретные объекты или места. В контексте Human-Robot Interaction (HRI) становится критически важной способность роботов предсказывать человеческие намерения и реагировать соответствующим образом. Однако, в существующих моделях часто отсутствуют модули, объединяющие в себе визуальные и жестовые сигналы, что приводит к неточностям в определении целей. Мы предлагаем архитектуру Multi-Modality Inter-TransFormer (MM-ITF), которая использует модальности визуальных и жестовых сигналов для точного предсказания объектов на столе в сценарии с NICOL-роботом. #### Метод Модель MM-ITF основана на трансформерной архитектуре и использует входные данные в виде RGB-видео и жестов указателя. Она предназначена для моделирования взаимодействия человека с роботом на основе модулярной архитектуры. Основным механизмом является интер-модальное внимание (inter-modality attention), которое позволяет объединять сигналы с разных модальностей. Данная модель учитывает визуальные и жестовые сигналы, анализируя их взаимодействие и объединяя в себе информацию для более точного предсказания объекта. Кроме того, мы представили метрику - "patch confusion matrix" - для оценки точности предсказания модели на кандидатских областях. #### Результаты Мы проводили эксперименты в управляемой среде с NICOL-роботом, где люди использовали естественные жесты для указания объектов на столе. Модель MM-ITF, обученная на этих данных, показала высокую точность в предсказании преднамеренных объектов. Мы использовали 2D RGB-данные для определения целей, и модель успешно интерпретировала жесты, присваивая каждому кандидату вероятность. Результаты показали, что модель MM-ITF может точно идентифицировать целевые объекты, даже при неоднозначных условиях. Также мы продемонстрировали точность нашей метрики "patch confusion matrix", позволяющей понять, на каких областях модель делает правильные и ошибочные предсказания. #### Значимость Модель MM-ITF может быть применена в различных сценариях Human-Robot Interaction, где необходимо точно определять целевые объекты на основе жестов. Он предоставляет большую точность и надежность в предсказании целей, что может улучшить интерактивность и удобство взаимодействия. Кроме того, использование только 2D RGB-данных делает модель доступной и эффективной для задач в сложных средах. Наша работа также открывает пути для будущих исследований в области моделирования деиктических жестов и их интеграции с трансформерными моделями. #### Выво

Annotation:

Deictic gestures, like pointing, are a fundamental form of non-verbal communication, enabling humans to direct attention to specific objects or locations. This capability is essential in Human-Robot Interaction (HRI), where robots should be able to predict human intent and anticipate appropriate responses. In this work, we propose the Multi-Modality Inter-TransFormer (MM-ITF), a modular architecture to predict objects in a controlled tabletop scenario with the NICOL robot, where humans indicate ...

ID: 2509.05031v1 cs.RO, cs.AI, cs.CV, I.2.9; I.2.10; I.2.6

arXiv PDF

📄 DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

2025-09-06

Авторы:

Hao-Shu Fang, Branden Romero, Yichen Xie, Arthur Hu, Bo-Ruei Huang, Juan Alvarez, Matthew Kim, Gabriel Margolis, Kavya Anbarasu, Masayoshi Tomizuka, Edward Adelson, Pulkit Agrawal

## Контекст Проблема передачи роботом человеческих декстерных манипуляций остается значитейшей темой в робототехнике. Однако существующие подходы, такие как телеоперация и машинное обучение с подкреплением, имеют ограничения в скорости и точности передачи навыков. Для улучшения этих процессов необходимо создать систему, позволяющую эффективно записывать и передавать человеческие действия на роботы. ## Метод DEXOP (Device for Robotic Transfer of Dexterous Human Manipulation) — это прогрессивный инструмент, который соединяет руки человека и робота механически. Он предлагает несколько ключевых преимуществ: полная совместимость с декстерными руками человека, реальное воспроизведение человеческого мотива в роботе, высококачественный контактный обзор и силовые отзывы. DEXOP способен записывать человеческие действия в различных естественных условиях, увеличивая скорость и точность передачи навыков на робота. ## Результаты Для оценки DEXOP проводились эксперименты с различными декстерными задачами, такими как скребение, сборка и здоровье. Данные, полученные с DEXOP, были использованы для обучения роботу выполнять эти задачи. Результаты показали, что робот, обученный на этих данных, демонстрирует значительное улучшение в скорости и точности выполнения задач по сравнению с телеоперацией. Например, в задаче скребения, робот, используя DEXOP, работал на 20% быстрее, чем при телеоперации. ## Значимость DEXOP открывает широкие перспективы в области передачи декстерной деятельности человека на робота. Он может применяться в различных сферах, включая производство, здравоохранение и домашние роботы. Например, в производстве DEXOP может помочь роботам изготавливать точные движения, в здравоохранении — обеспечить более точные медицинские техники, а в домашних роботах — упростить задачи, такие как уборка и кулинария. ## Выводы DEXOP представляет собой новый подход к передаче человеческих декстерных навыков на роботы. Он подтвердил свою эффективность в ряде задач и демонстрирует потенциал для улучшения передачи навыков в робототехнике. Будущие исследования будут сосредоточены на увеличении точности, улучшении параллелизма между рукой человека и роботом, а также расширении возможностей DEXOP для более сложных задач.

Annotation:

ID: 2509.04441v1 cs.RO, cs.AI, cs.CV, cs.HC

arXiv PDF

📄 Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots

2025-09-05

Авторы:

Minghuan Liu, Zhengbang Zhu, Xiaoshen Han, Peng Hu, Haotong Lin, Xinyao Li, Jingxiao Chen, Jiafeng Xu, Yichu Yang, Yunfeng Lin, Xinghang Li, Yong Yu, Weinan Zhang, Tao Kong, Bingyi Kang

## Контекст Робототехника, особенно манипуляции, широко используется в сферах, где требуется автоматизация задач сложного характера. Однако, нынешние роботы, оперирующие в основном в 2D-пространстве, сталкиваются с ограниченной точностью и недостаточной универсальностью в решении задач. Одной из ключевых проблем является то, что роботы, в отличие от человека, не в состоянии эффективно использовать геометрическую информацию в 3D-пространстве. Хотя такая информация доступна с помощью датчиков глубины, существуют технические и системные ограничения, которые затрудняют использование этих данных в реальном мире. Эти ограничения становятся причиной снижения надёжности и универсальности роботов в решении задач манипуляций. ## Метод В нашей работе мы предлагаем **Camera Depth Models (CDMs)**, которые используются в качестве простого плагина для существующих датчиков глубины. Эти модели принимают на вход RGB-изображение и сигналы глубины, а на выходе дают данные, корректированные от шумов и точными в метрической габаритной системе. Чтобы обучить эти модели, мы разрабатываем моделирование симуляции, которое эмулирует шум и прочие особенности работы датчиков глубины. Эта методика позволяет CDMs эффективно корректировать данные в реальном времени, выполняя детальный анализ геометрии объектов. ## Результаты Мы провели исследования, используя различные датчики глубины и наборы данных. Наши результаты показали, что CDMs позволяют осуществлять точное определение геометрии в реальном мире, близкое к точности симуляционных моделей. Мы провели эксперименты на двух сложных задачах манипуляций с объектами разных типов (артикулированные, отражающие и тонкие). Результаты показали, что политики, обученные на симуляционных данных с CDMs, могут безусловно переходить в реальный мир, сохраняя свою эффективность и точность. Это продемонстрировано на двух разных сценариях использования. ## Значимость Наши результаты имеют большое значение в сферах робототехники, виртуальной реальности и перспективных технологий. Мы показали, что использование 3D-информации может дать существенный прирост в универсальности и решении задач. CDMs могут быть широко применены для устранения проблем проникновения в мир реальных задач с помощью симуляционных моделей. Этот подход может развиваться в дальнейшем для улучшения роботов в сферах, где требуется высокая точность и общеизмерительная габаритная позиция. ## Выводы Наши исследования демонстрируют, что CDMs эффективно избавляются от шумов в данных глубины и позволяют ос

Annotation:

Modern robotic manipulation primarily relies on visual observations in a 2D color space for skill learning but suffers from poor generalization. In contrast, humans, living in a 3D world, depend more on physical properties-such as distance, size, and shape-than on texture when interacting with objects. Since such 3D geometric information can be acquired from widely available depth cameras, it appears feasible to endow robots with similar perceptual capabilities. Our pilot study found that using ...

ID: 2509.02530v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 SPGrasp: Spatiotemporal Prompt-driven Grasp Synthesis in Dynamic Scenes

2025-08-30

Авторы:

Yunpeng Mei, Hongjie Cao, Yinqiu Xia, Wei Xiao, Zhaohan Feng, Gang Wang, Jie Chen

## Контекст Исследование выполнено в области машинного зрения и систем распознавания объектов в видео. Основной проблемой является синтез интерактивных захватов динамичных объектов в реальном времени. Традиционные методы страдают от высокой задержки и невозможности проводить целостную синтезированную работу. Развитие систем требует методологий, обеспечивающих низкую задержку, высокие точность и простоту взаимодействия. В этой статье предлагается SPGrasp — новая программная модель, которая способна обеспечивать эффективный захват динамичных объектов в реальном времени с низкой задержкой и гарантирующая высокую точность. ## Метод SPGrasp основывается на расширенной модели Segment Anything Model v2 (SAMv2). Она включает в себя специальный механизм интеграции пространственно-временного контекста и пространственных сигналов для более точной синтезированной работы. Метод использует специальные пользовательские запросы (prompts), что позволяет реализовать интерактивный грабежный процесс. Архитектура включает в себя нейронные сети, которые обрабатывают не только изображения, но и видеопотоки в реальном времени. Также в SPGrasp используется метод графической оптимизации, чтобы обеспечить стабильность и своевременность работы. ## Результаты В экспериментах были использованы данные из таких наборов, как OCID, Jacquard и GraspNet-1Billion. Метод SPGrasp показал высокую точность в захвате динамичных объектов. На OCID и Jacquard, SPGrasp достигло 90.6% и 93.8%, соответственно. На GraspNet-1Billion, где производилась продолжительная работа с видеопотоками, SPGrasp показал 92.0% точности при средней задержке 73.1 мс на кадр. Это представляет собой существенное сокращение задержки по сравнению с предыдущими методами. Также проводились реально-мирные эксперименты с 13 динамически развивающимися объектами, в результате которых была достигнута 94.8% успешности захвата. ## Значимость Модель SPGrasp применяется в различных областях, таких как робототехника, транспортные системы и автоматические системы управления. Она обеспечивает значительное сокращение задержки, повышает точность захвата и повышает интерактивность в работе с динамическими объектами. Это выносит SPGrasp в лидирующие позиции по сравнению с предшествующими моделями. Благодаря найденному балансу между скоростью и точностью, SPGrasp является ключевым технологическим решением для реализации интерактивных систем. ## Выводы SPGrasp достигла впечатляющих результатов в синтезе захвата динамичных объектов в реальном времени. Он уменьшил задержку до 59 мс, обеспечив высокую точно

Annotation:

Real-time interactive grasp synthesis for dynamic objects remains challenging as existing methods fail to achieve low-latency inference while maintaining promptability. To bridge this gap, we propose SPGrasp (spatiotemporal prompt-driven dynamic grasp synthesis), a novel framework extending segment anything model v2 (SAMv2) for video stream grasp estimation. Our core innovation integrates user prompts with spatiotemporal context, enabling real-time interaction with end-to-end latency as low as 5...

ID: 2508.20547v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 ZeST: an LLM-based Zero-Shot Traversability Navigation for Unknown Environments

2025-08-28

Авторы:

Shreya Gummadi, Mateus V. Gasparino, Gianluca Capezzuto, Marcelo Becker, Girish Chowdhary

#### Контекст Исследование связано с проблемой топологической навигации в неизвестных средах, где требуется активно учитывать риски, связанные с оценкой топологии и обнаружением препятствий. Развитие безопасного и эффективного роботов, способных самостоятельно перемещаться в этих условиях, является ключевым заданием. Одним из главных рисков является традиционный подход к обучению систем навигации - подвергание роботам риску в реальных условиях. Данный подход не только повышает риски для оборудования, но и затрудняет эффективное и быстрое развитие систем навигации. Данная работа предлагает новый подход, использующий визуальную рационализацию и возможности Large Language Models (LLMs) для создания топологических карт в реальном времени. Такой подход минимизирует возможные риски для робота и позволяет быстрее развивать системы навигации. #### Метод Предлагаемый подход, ZeST (Zero-Shot Traversability), основывается на возможностях LLMs для распознавания и оценки трехмерных сред. Данная модель принимает в качестве входных данных изображения среды, а затем производит анализ и интерпретацию этих данных для построения топологических карт. Модель использует zero-shot learning, что позволяет применять ее в различных условиях без предварительного обучения на конкретных данных. Это значительно сокращает время настройки и внедрения модели. Основной целью является построение точных топологических моделей в режиме реального времени, чтобы обеспечить безопасность и эффективность навигации. #### Результаты В результате экспериментов, проведенных в различных средах, включая как управляемые внутренние пространства, так и неупорядоченные внешние среды, показано, что ZeST обеспечивает более безопасную и эффективную навигацию по сравнению с другими моделями. Модель постоянно достигает цели, сохраняя высокую точность в определении препятствий и создании топологических карт. Эксперименты показали, что технология ZeST не только меньше рисков для оборудования, но и позволяет быстрее развивать навигационные системы, сокращая время на обучение и развертывание. #### Значимость ZeST может быть применена в различных сферах, таких как промышленность, экспедиции, добыча ресурсов или развитие роботов для поиска и спасения. Этот подход позволяет эффективно обходить риски, связанные с традиционной оценкой среды, и обеспечивает быстрое и безопасное развитие навигационных систем. Благодаря использованию LLMs, данная технология обеспечивает быстрое и точное распознавание среды, что делает ее актуальной в ситуациях, где требуется быстрое решение. #### Выводы На основе экспериментов, проведенных в это

Annotation:

The advancement of robotics and autonomous navigation systems hinges on the ability to accurately predict terrain traversability. Traditional methods for generating datasets to train these prediction models often involve putting robots into potentially hazardous environments, posing risks to equipment and safety. To solve this problem, we present ZeST, a novel approach leveraging visual reasoning capabilities of Large Language Models (LLMs) to create a traversability map in real-time without exp...

ID: 2508.19131v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

2025-08-27

Авторы:

Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker

## Контекст Легкоходные роботы, оборудованные руками, представляют собой мощный инструмент для решения задач в сложных и нестанционарных условиях. Однако достижение точных и адаптивных захватов остается сложной задачей, требующей значительных усилий в области калибровки и предварительной настройки. Эти ограничения существенно сужают потенциал роботов в различных сферах, включая промышленность, поисковые и спасательные операции. Целью настоящего исследования является разработка методологии, позволяющей улучшить точность и адаптивность захвата, используя глубокое обучение и симуляционные модели. ## Метод Разработанная методология основывается на методе sim-to-real, который минимизирует необходимость постоянного применения физических данных. Для этого был создан симуляционный модельный пайплайн в среде Genesis. Модель генерирует набор данных, включающий пиксельно аннотированные карты качества захвата, используя RGB, дебатские карты и другие источники данных. Затем эти данные использовались для тренировки настраиваемой модели CNN с архитектурой U-Net. Эта модель оценивает качество захвата, выдавая графический heatmap с оптимальным точкой захвата. ## Результаты Разработанный подход был протестирован на роботе с четырьмя ногами. Результаты показали, что робот может самостоятельно назначить маршрут к мероприятию, определить позицию объекта с помощью RGB и дебатских карт, сгенерировать оптимальную точку захвата с помощью глубокого обучения, а затем выполнить точный захват. Эксперименты продемонстрировали эффективность разработанной системы в решении сложных задач захвата в реальном мире. ## Значимость Разработанная методология открывает новые возможности для расширения практического применения легкоходных роботов в таких областях, как промышленность, автоматизация, поисковые и спасательные операции. Основное преимущество заключается в своей способности обучаться на симуляционных моделях и применять это в реальном мире, что значительно сокращает время настройки и развитие новых приложений. ## Выводы Результаты исследования подтверждают, что систематическое использование моделей глубокого обучения в сочетании с симуляционными моделями может улучшить возможности захвата легкоходных роботов. Будущие исследования будут направлены на расширение области применения методологии и увеличение точности захвата в различных средах.

Annotation:

Quadruped robots have emerged as highly efficient and versatile platforms, excelling in navigating complex and unstructured terrains where traditional wheeled robots might fail. Equipping these robots with manipulator arms unlocks the advanced capability of loco-manipulation to perform complex physical interaction tasks in areas ranging from industrial automation to search-and-rescue missions. However, achieving precise and adaptable grasping in such dynamic scenarios remains a significant chall...

ID: 2508.17466v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

Показано 71 - 80 из 93 записей