📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals

2025-09-11

Авторы:

Stefan Podgorski, Sourav Garg, Mehdi Hosseinzadeh, Lachlan Mares, Feras Dayoub, Ian Reid

## Контекст Визуальная навигация в робототехнике традиционно основывается на глобально консистентных 3D-картах или обученных контроллерах, что часто требует высоких вычислительных ресурсов и сложности при общей пригодности для различных сред. Однако, существуют ситуации, когда использование 3D-карт или предварительно обученных контроллеров невозможно или неэффективно. Например, в новых и неизвестных окружениях, где недостаточно данных для обучения, или при работе с ограниченными вычислительными ресурсами. Было протестировано множество подходов, ориентированных на решение этих проблем, но они либо требуют доступа к 3D-картам, либо зависят от уже обученных моделей. Данная работа предлагает новую модель, которая объединяет локальный метрический контроль и глобальный топологический планирование, предлагая новый подход к визуальной навигации в открытых средах. ## Метод Метод TANGO (Traversability-Aware Navigation with Local Metric Control for Topological Goals) объединяет глобальное топологическое планирование с локальным метрическим контролем траектории. Глобальный планировщик определяет оптимальный топологический путь к цели, а локальный контроллер управляет метрической траекторией в реальном времени, используя распознавание объектов и оценку траверсабильности. Для снижения вычислительных затрат и повышения универсальности метод использует монокулярное глубинообнаружение и траверсабильность с использованием технологии фундаментальных моделей, что позволяет адаптироваться к новым средам без дополнительного обучения. Также внедрена механика автоматического переключения на базовый контроллер при выявлении нехватки данных или ошибках в планировании. ## Результаты Метод был протестирован в симуляционных и реальных окружениях. Были проведены эксперименты с различными средами, в том числе домашними помещениями и открытыми пространствами. Результаты показали, что TANGO эффективно решает задачи визуальной навигации в открытых средах, превосходя существующие методы по точности, универсальности и реальному развертыванию. Измерения показали, что TANGO обеспечивает высокую точность в достижении топологических целей, даже при неоднородных условиях видимости и объектной среды. ## Значимость Метод TANGO имеет широкое применение в различных областях робототехники, включая домашнюю автоматизацию, поиск и спасение, а также промышленную робототехнику. Его преимущества заключаются в том, что он не требует дополнительного обучения для каждой среды, имеет высокую универсальность и может работать в реальном времени с минимальными вычислительными ресурсами. Этот подход может существенно расширить

Annotation:

Visual navigation in robotics traditionally relies on globally-consistent 3D maps or learned controllers, which can be computationally expensive and difficult to generalize across diverse environments. In this work, we present a novel RGB-only, object-level topometric navigation pipeline that enables zero-shot, long-horizon robot navigation without requiring 3D maps or pre-trained controllers. Our approach integrates global topological path planning with local metric trajectory control, allowing...

ID: 2509.08699v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Text2Touch: Tactile In-Hand Manipulation with LLM-Designed Reward Functions

2025-09-11

Авторы:

Harrison Field, Max Yang, Yijiong Lin, Efi Psomopoulou, David Barton, Nathan F. Lepora

## Контекст Декстерная манипуляция — ключевой аспект робототехники, требующий точности, скорости и устойчивости. Тактильные сенсоры, которые предоставляют важные данные о нажатии и сенсорном восприятии, являются критически важными для достижения такой декстерности. Однако существуют значительные вызовы в использовании тактильных сигналов для оптимизации декстерных манипуляций с помощью традиционных алгоритмов обучения. Большие языковые модели (LLMs) показывают перспективы в автоматизации проектирования ревардов, но до сих пор не применялись к задачам, включающим тактильные сигналы. Текстовый конвейер Text2Touch предлагает новый подход к вопросу, используя LLM-разработанные ревард-функции для ускорения развития декстерных трудов с применением реальных тактильных сенсоров. ## Метод Text2Touch разрабатывает LLM-разработанные ревард-функции для многоосевой декстерной манипуляции с помощью набора реальных тактильных данных. Метод использует цепные модели, настроенные с помощью симуляционных моделей робота и последующего перехода к реальной среде. Основным инструментом является продвинутая стратегия промптинга, которая позволяет обрабатывать более 70 параметров среды. Важным элементом является процесс сим-то-реального перехода, обеспечивающий успешное перенос моделей из симуляционного окружения в реальный мир. Этот подход охватывает задачи многоугольного вращения объекта с жесткостью и многоугольной манипуляцией в разных положениях ладони. ## Результаты Эксперименты подтвердили существенное превосходство Text2Touch над традиционной руководственной стратегией. Используя LLM-разработанные ревард-функции, система достигла более высокой скорости и устойчивости вращения, с меньшим количеством необходимых параметров. Набор разработанных тактильных сенсорных моделей был успешно перенесен в реальную среду с помощью симуляционных моделей. Эти результаты показывают, что LLM-разработанные модели могут быстро и эффективно решать задачи, включающие трактории вращения и управление сенсорным восприятием. ## Значимость Text2Touch может быть применен во многих областях, включая робототехнику, производство и помощь роботам в интерфейсах с визуальным восприятием. Одним из основных преимуществ является ускорение разработки декстерных систем с применением реальных тактильных сигналов. Области применения включают не только роботы-манпуляторы, но и системы, требующие точного сенсорного восприятия. Этот подход может положительно повлиять на многомерные системы управления, уменьшая время от концепции к реализации в тонких

Annotation:

Large language models (LLMs) are beginning to automate reward design for dexterous manipulation. However, no prior work has considered tactile sensing, which is known to be critical for human-like dexterity. We present Text2Touch, bringing LLM-crafted rewards to the challenging task of multi-axis in-hand object rotation with real-world vision based tactile sensing in palm-up and palm-down configurations. Our prompt engineering strategy scales to over 70 environment variables, and sim-to-real dis...

ID: 2509.07445v1 cs.RO, cs.AI

arXiv PDF

📄 DepthVision: Robust Vision-Language Understanding through GAN-Based LiDAR-to-RGB Synthesis

2025-09-11

Авторы:

Sven Kirchner, Nils Purschke, Ross Greer, Alois C. Knoll

## Контекст Надежность роботских операций в условиях недостаточного или поврежденного визуального ввода остается значительной проблемой в области робототехники. Традиционные Vision-Language Models (VLMs) опираются только на визуальные данные, полученные камерой, и текстовые сведения. Однако значительное количество сенсорных данных, таких как LiDAR, часто игнорируется или недостаточно используется в таких моделях. Это сделано по причине того, что VLMs не способны обрабатывать неполные или разреженные данные, такие как LiDAR-сканы, непосредственно. Наличие сильных изменений в условиях освещения или размытости изображений дополнительно усложняет работу роботов в реальных условиях. Мы предлагаем DepthVision — рамформу, которая адресует эти проблемы, обеспечивая улучшенное зрение робота в таких условиях. ## Метод DepthVision является новым фреймворком для мультимодального понимания сцены, который использует синтез RGB-изображений из LiDAR-сканов с помощью генерирующей адверсарной сети (GAN) с интегрированным сетью рефайнера. Эти сгенерированные RGB-изображения сочетаются с реальными RGB-данными с помощью Luminance-Aware Modality Adaptation (LAMA), которая адаптирует динамически сочетание двух типов данных к освещению окружения. Эта архитектура позволяет компенсировать заметные сбои в сенсорах, такие как темнота или мерцание света, без необходимости переучивания визуальных моделей. Целью является предоставить более надежный ввод визуальных моделей, даже при неполной или искаженной информации. ## Результаты Мы проверили DepthVision на реальных и симулированных данных, включая несколько моделей и задач. Особое внимание было уделено безопасным задачам, таким как предотвращение столкновений и детектирование объектов в низкой освещённости. Результаты показали, что наше решение значительно улучшает работу моделей в условиях слабого освещения, повышая точность и уменьшая ошибки по сравнению с RGB-только базовыми моделями. Была доказана совместимость DepthVision с замороженными Vision-Language Models, что демонстрирует гибкость и эффективность нашего подхода. ## Значимость DepthVision может быть применен в большинстве сценариев, где визуальная информация ограничена или искажена, включая системы безопасности в автомобилях, навигационные системы для роботов и видеосенсоры для беспилотных летательных аппаратов. Наш подход обеспечивает улучшенную надёжность и безопасность в реальных условиях, а также может быть использован для обогащения данных во время обучения VLMs, что повысит их качество и доступность для более широкого круга задач. ## Выводы DepthVision является прорывом в области мультимодального понимания сцены, используя Li

Annotation:

Ensuring reliable robot operation when visual input is degraded or insufficient remains a central challenge in robotics. This letter introduces DepthVision, a framework for multimodal scene understanding designed to address this problem. Unlike existing Vision-Language Models (VLMs), which use only camera-based visual input alongside language, DepthVision synthesizes RGB images from sparse LiDAR point clouds using a conditional generative adversarial network (GAN) with an integrated refiner netw...

ID: 2509.07463v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Can SSD-Mamba2 Unlock Reinforcement Learning for End-to-End Motion Control?

2025-09-11

Авторы:

Gavin Tao, Yinuo Wang, Jinzhao Zhou

## Контекст Многие современные системы моторного управления построены на базе методов реконструкции перцепции и активного управления, но не все эти системы могут обеспечить значительную производительность при сочетании разных типов входных данных. Особенностью таких систем является то, что они часто не могут эффективно обрабатывать данные локального восприятия (проприорецепции) и внешнего восприятия (ексетероцепции) одновременно, что ограничивает их возможности в широком спектре задач. Неверно управляемые системы моторного управления могут привести к нежелательным случайным ситуациям, таким как коллизии, неудачные попытки удержания баланса и другие неблагоприятные результаты. На практике это значит, что необходимо разработать более универсальные и эффективные системы моторного управления, которые могут обрабатывать одновременно большое количество входных данных с различных источников, включая как локальные, так и внешние данные. ## Метод Мы предлагаем развитие фреймворка для решения задач моторного управления с использованием **SSD-Mamba2**, который является современным селективным рекуррентным сетным блоком. Эта модель применяет преобразование стойких состояний для обработки данных входов в виде тензоров, и эти тензоры затем используются в качестве входных данных для алгоритмов моторного управления. Архитектура фреймворка включает в себя модульное сеттное устройство, которое использует **state-space duality** (SSD) для обеспечения рекуррентных и конволюционных процессов в сетке. Таким образом, модель может обрабатывать как быстрые рекуррентные данные, так и детальные конволюционные данные. Благодаря этому, модель SSD-Mamba2 может обеспечить высокую производительность, как при работе с локальными данными, так и при обработке внешних входных данных. ## Результаты Мы провели эксперименты с данными, полученными в различных модификациях задач моторного управления. Использовались различные типы входных данных, в том числе изображения, глубинные карты и другие сенсорные данные. Результаты показали, что наша модель **SSD-Mamba2** показывает значительно улучшенную эффективность по сравнению с другими моделями, которые не использовали новые структуры сетки. Модель обеспечивает более высокую производительность в задачах моторного управления, в том числе в задачах, требующих сложного взаимодействия с окружающим пространством. Эксперименты показали, что нашу модель можно использовать в различных сценариях, включая сценарии с управлением роботов, которые должны решать задачи, включая коллизии, удержание баланса и другие. ## Значимость Наша модель может быть применена в различных

Annotation:

End-to-end reinforcement learning for motion control promises unified perception-action policies that scale across embodiments and tasks, yet most deployed controllers are either blind (proprioception-only) or rely on fusion backbones with unfavorable compute-memory trade-offs. Recurrent controllers struggle with long-horizon credit assignment, and Transformer-based fusion incurs quadratic cost in token length, limiting temporal and spatial context. We present a vision-driven cross-modal RL fram...

ID: 2509.07593v1 cs.RO, cs.AI, cs.CV, cs.SY, eess.IV, eess.SY

arXiv PDF

📄 Grasp-MPC: Closed-Loop Visual Grasping via Value-Guided Model Predictive Control

2025-09-10

Авторы:

Jun Yamada, Adithyavairavan Murali, Ajay Mandlekar, Clemens Eppner, Ingmar Posner, Balakumar Sundaralingam

## Контекст Грабливание предметов в неупорядоченных средах остается значимой проблемой в области робототехники. Открытые циклы грабливания однозначно оправданы в управляемых условиях, но становятся неэффективными в мешанинах и значительно ухудшаются при изменении положения предметов в процессе грабливания. Закрытые циклы грабливания, в свою очередь, показывают лучшие результаты в соответствующих условиях, но страдают от отсутствия общей гибкости и сложности в генерализации. Исследователи предлагают **Grasp-MPC** — закрытый цикл грабливания на основе 6-ДоФ визуальных наблюдений, нацеленный на реактивное и устойчивое грабливание новых предметов в сложных условиях. ## Метод **Grasp-MPC** основывается на использовании классического **Model Predictive Control (MPC)**, в котором используется **value function**, обученная на визуальных данных с 2 миллионов грабливаний в синтетической среде. Эти данные включают успешные и неудачные грабливания. Значение функции используется для регулирования целевого поведения робота во время грабливания. Работа гармонично с другими задачами, такими как уменьшение коллизий и выполнение гладких движений. Архитектура оснащена возможностями для обработки сложных сцен, которые требуют быстрого реагирования и высокой точности. ## Результаты Исследователи проверили **Grasp-MPC** на двух платформах: **FetchBench** и реальном мире. На **FetchBench**, в симуляционных условиях, **Grasp-MPC** улучшил результаты грабливания до 32.6% по сравнению с текущими методами, включая **open-loop**, **diffusion policy**, **transformer policy**, и **IQL**. На реальных устройствах, в шумных условиях, улучшение составило 33.3%. Это достижение доказывает силу закрытого цикла грабливания в более разнообразных условиях, чем ранее. ## Значимость **Grasp-MPC** может применяться в сценариях, где необходимо устойчивое грабливание в непохожих ситуациях, включая робототехнические задачи в домашних и промышленных условиях. Он предлагает высокую гибкость и реактивность, существенно улучшая точность и устойчивость по сравнению с открытыми циклами. Такой подход может стать ключевым для развития роботов, которые должны работать в новых и сложных средах. ## Выводы **Grasp-MPC** доказывает высокую эффективность в закрытом цикле грабливания в сравнении с ранее используемыми технологиями. Он показывает, что использование значения функции на основе грабливания может стать важной составляющей устойчивого робототехнического решения вне лаборатории. Будущие исследования будут направлены на улучшение обработки ш

Annotation:

Grasping of diverse objects in unstructured environments remains a significant challenge. Open-loop grasping methods, effective in controlled settings, struggle in cluttered environments. Grasp prediction errors and object pose changes during grasping are the main causes of failure. In contrast, closed-loop methods address these challenges in simplified settings (e.g., single object on a table) on a limited set of objects, with no path to generalization. We propose Grasp-MPC, a closed-loop 6-DoF...

ID: 2509.06201v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Learning to Walk with Less: a Dyna-Style Approach to Quadrupedal Locomotion

2025-09-10

Авторы:

Francisco Affonso, Felipe Andrade G. Tommaselli, Juliano Negri, Vivian S. Medeiros, Mateus V. Gasparino, Girish Chowdhary, Marcelo Becker

## Контекст Перемещение на поверхности для роботов-квадрупеделей — это задача, которая требует высокой точности и эффективности. Традиционные методы, основанные на работе с реальным окружением, требуют большого количества интеракций, что чревато высокими затратами времени и ресурсов. Для уменьшения затрат и улучшения эффективности в процессе обучения предлагается использовать модели-основы (model-based), которые позволяют сгенерировать дополнительные данные с помощью аппаративной модели. Такие подходы, основанные на Dyna-Style, уже применяются в сфере роботов-четвероногих, но в нашей работе мы хотим показать, как эта модель может быть использована в контексте двустороннего обучения (PPO-based controllers), чтобы существенно улучшить показатели данной задачи. ## Метод Мы предлагаем Dyna-Style MBRL-фреймворк, который добавляет синтетические данные к результатам собственных роллаутов в PPO-based controllers. Генерируемые моделью краткосрочные промежуточные состояния встраиваются в роллауты с помощью специальной стратегии, которая настраивается на основе итераций обновления политики. Затем оценивается вклад синтетических данных в обучение. Для абляционного анализа было проверено, как разный длительности роллаутов влияет на эффективность обучения. Это позволило оптимизировать нашу стратегию и улучшить показатели по мере оптимизации. ## Результаты Для проверки фреймворка использовались модели робота Unitree Go1 в симуляционной среде. Мы сравнили стандартные роллауты с теми, в которых часть шагов заменена синтетическими данными. Результаты показали, что роллауты с синтетическими данными дают лучшую политику и снижают её вариацию. На основе этих результатов мы проверили возможность нашего подхода для различных помех, таких как различные цели движения и трудные условия. Результаты показали, что такой подход может быть применен к различным роботам и типам объектов, даже в условиях сильных внешних воздействий. ## Значимость Наш подход может быть применен в сфере мобильных роботов, в частности, для обучения роботов-квадрупеделей. Он позволяет улучшить эффективность обучения, уменьшив необходимое количество интеракций в симуляционном окружении. Это повышает точность и позволяет быстрее достичь устойчивой политики для передвижения. Таким образом, наш подход может сильно повлиять на развитие робототехники и упростить применение роботов в реальной жизни, в частности для поиска, экспедиций и даже в роли беспилотных транспортных средств. ## Выводы Мы показали, что Dyna-Style MBRL-фреймворк может эффективно улучшить обучение роботов-квадрупеделей для преодоления различных препятстви

Annotation:

Traditional RL-based locomotion controllers often suffer from low data efficiency, requiring extensive interaction to achieve robust performance. We present a model-based reinforcement learning (MBRL) framework that improves sample efficiency for quadrupedal locomotion by appending synthetic data to the end of standard rollouts in PPO-based controllers, following the Dyna-Style paradigm. A predictive model, trained alongside the policy, generates short-horizon synthetic transitions that are grad...

ID: 2509.06296v1 cs.RO, cs.AI

arXiv PDF

📄 Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic Environments

2025-09-10

Авторы:

Jiahui Yang, Jason Jingzhou Liu, Yulong Li, Youssef Khaky, Kenneth Shaw, Deepak Pathak

## Контекст Роботизированные манипуляторы, работающие в динамических и частично обозреваемых окружениях, широко применяются в промышленности, науке и быту. Однако создание эффективных систем планирования движений, которые могут реагировать на непредсказуемые изменения окружения, остается сложной задачей. Традиционные методы, такие как классические планиры, требуют полного знания окружения и часто оказываются медленными в динамичных сценариях. Зато новые технологии, основанные на нейронных сетях, могут оперировать непосредственно с данными из сенсоров, обеспечивая более реагирующие и реальности приближенные движения. Однако их универсальность и результаты в трудных сценариях часто остаются недостаточными. Наша мотивация заключается в разработке метода, который объединит точность классических методов с гибкостью и реактивностью новых моделей. ## Метод Мы предлагаем **Deep Reactive Policy (DRP)**, новую нейронную модель планирования движений, основанную на преобразователях (transformer). Для обучения DRP использовались 10 миллионов экспертных траекторий, созданных в симуляционных сценариях с различными условиями. Основной частью DRP является IMPACT — компонент, реализующий motion policy на основе преобразователей. Для повышения качества использовалась итеративная техника teacher-student fine-tuning, что позволило улучшить отклик при предотвращении столкновений с статическими препятствиями. Для реагирования на динамические препятствия во время выполнения использовался DCP-RMP — модуль, рассчитывающий цель движения в реальном времени с учетом взаимодействия с движущимися объектами. Эта модель позволяет DRP реагировать на ситуации в реальном времени и поддерживать высокую стабильность. ## Результаты Мы проверили DRP на серии задач, включающих кластерные сцены, движущиеся препятствия и затруднения в достижении целей. Результаты показали, что DRP достигает высокой успешности в решении этих задач по сравнению с классическими методами и другими моделями на основе нейронных сетей. Особенно выдающимися результатами DRP проявился в ситуациях с частичной наблюдаемостью и большим количеством динамических объектов. Мы также проверяли DRP на реальных роботах, и он показал стабильность и высокую скорость реакции. Данные результаты доступны на сайте проекта: https://deep-reactive-policy.com. ## Значимость DRP может быть применен в различных областях, где требуется высокая реактивность и точность движений в динамических окружениях. Например, в производстве, в сфере домохозяйств или в здравоохранении. Он обладает преимуществами по сравнению с классическими методами, такими как

Annotation:

Generating collision-free motion in dynamic, partially observable environments is a fundamental challenge for robotic manipulators. Classical motion planners can compute globally optimal trajectories but require full environment knowledge and are typically too slow for dynamic scenes. Neural motion policies offer a promising alternative by operating in closed-loop directly on raw sensory inputs but often struggle to generalize in complex or dynamic settings. We propose Deep Reactive Policy (DRP)...

ID: 2509.06953v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 In-Context Policy Adaptation via Cross-Domain Skill Diffusion

2025-09-09

Авторы:

Minjong Yoo, Woo Kyung Kim, Honguk Woo

#### Контекст В области управления и автоматизации наблюдается рост интереса к методам, позволяющим быстро адаптировать политики управления в различных сценариях. Однако, адаптация политик в долгосрочных задачах часто сталкивается с трудностями при ограниченных данных и необходимости изменений в существующих моделях. Эти ограничения становятся критичными в сценариях, где время отклика и эффективность критичны, например в робототехнических системах и системах автономного управления. Данная работа фокусируется на разработке решения, которое обеспечивает эффективную адаптацию политик управления в таких условиях, используя методы обучения скрытых скилов и cross-domain skill diffusion. #### Метод Разработанная ICPAD-фреймворк основывается на схеме cross-domain skill diffusion, которая объединяет обучение доменно-независимых прототипных скилов и доменно-специфического skill adapter. Данные прототипы скилов выступают в роли общих моделей поведения, которые могут быть переданы между различными доменами, обеспечивая переносимость. Для улучшения адаптации к конкретному домену вводится динамическая схема domain prompting, которая во время работы адаптирует skill adapter к новому домену. Методология основывается на моделировании и изучении кросс-доменных симметрий, что позволяет эффективно передавать и адаптировать скрытые скилы в новых условиях. #### Результаты Использованы данные из симуляторов Metaworld и CARLA, представляющих различные сценарии robotic manipulation и autonomous driving. Эксперименты показали, что ICPAD-фреймворк превосходит существующие подходы в сценариях с ограниченными данными и различными особенностями домена, такими как различия в динамике среды, визуальной обстановке и характеристик задач. Данные результаты подтверждают высокую эффективность ICPAD в условиях строгих ограничений на моделирование и обучение. #### Значимость ICPAD-фреймворк может быть применен в различных сферах, где необходима быстрая адаптация политик управления в новых условиях, таких как робототехнические системы, автомобильные системы и даже системы для автоматизации производственных процессов. Его преимущества заключаются в том, что он может работать с ограниченными данными, не требуя изменений в существующих моделях, и обеспечивает высокую переносимость между доменами. Такой подход имеет потенциал для ускорения развития интеллектуальных систем, делая их более универсальными и эффективными в различных средах. #### Выводы Результаты ICPAD показывают, что он является эффективным инструментом для быстрой адаптации политик управления в долгосрочных задачах, в том числе в сценариях, где требуется высокая переносимость и ограниченные ресурсы для моделировани

Annotation:

In this work, we present an in-context policy adaptation (ICPAD) framework designed for long-horizon multi-task environments, exploring diffusion-based skill learning techniques in cross-domain settings. The framework enables rapid adaptation of skill-based reinforcement learning policies to diverse target domains, especially under stringent constraints on no model updates and only limited target domain data. Specifically, the framework employs a cross-domain skill diffusion scheme, where domain...

ID: 2509.04535v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 DEXOP: A Device for Robotic Transfer of Dexterous Human Manipulation

2025-09-09

Авторы:

Hao-Shu Fang, Branden Romero, Yichen Xie, Arthur Hu, Bo-Ruei Huang, Juan Alvarez, Matthew Kim, Gabriel Margolis, Kavya Anbarasu, Masayoshi Tomizuka, Edward Adelson, Pulkit Agrawal

## Контекст Дексторальное манипулирование является ключевым аспектом во многих прикладных задачах, включая производство, робототехнику и здравоохранение. Однако создание роботов, способных выполнять такие задачи с высокой точностью и эффективностью, остается вызовом. Одной из основных проблем является нехватка эффективных методов для сбора и передачи человеческих дексторальных навыков на роботов. Данные, собираемые с помощью телеоперационных систем, часто неэффективны, поскольку не учитывают человеческие возможности и ограничения. Существуют необходимость и мотивация для разработки систем, которые были бы более естественными для человеческих пользователей и более передаваемыми для роботов. ## Метод DEXOP (Device for Robotic Transfer of Dexterous Human Manipulation) представляет собой устройство, позволяющее сенсоризировать и записывать человеческое дексторальное манипулирование, максимизируя его передачу на роботов. Это устройство — пассивная рукоятка-экзоскелет, которая способствует максимальному использованию человеческих возможностей для сбора данных с высокой плотностью сенсорной информации (вид + тактильная информация). Дексторный экзоскелет связывает человеческие пальцы с роботскими пальцами, что позволяет пользователю получать ощущение владения и визуально видеть роботскую руку, которая повторяет его движения. Это устройство также предоставляет пользователю силовую обратную связь, что делает демонстрации задач более естественными по сравнению с телеоперацией. Эти характеристики улучшают точность и скорость демонстраций. ## Результаты Работа подтверждает высокую эффективность DEXOP в сборе данных для дексторальных задач. Наборы данных, собранные с помощью DEXOP, позволяют роботам выполнять задачи с меньшим количеством данных и с меньшими ошибками. Эксперименты показали, что роботы, обученные на данных DEXOP, демонстрируют значительно более высокую производительность по сравнению с телеоперацией. Это делает DEXOP эффективной системой для улучшения дексторальной робототехники. ## Значимость DEXOP может применяться в широком кругу областей, включая сбор данных для обучения роботов, инструментальное манипулирование, роботизированные лечебные процедуры и упаковка. Он предлагает несколько преимуществ: удобство использования для пользователей, улучшение точности и скорости демонстраций, а также передаваемость данных для роботов. Его потенциал заключается в том, что он может существенно улучшить эффективность и точность в различных прикладных задачах, а также способствовать развитию робототехники в области дексторального манипулирования. ## Вывод

Annotation:

We introduce perioperation, a paradigm for robotic data collection that sensorizes and records human manipulation while maximizing the transferability of the data to real robots. We implement this paradigm in DEXOP, a passive hand exoskeleton designed to maximize human ability to collect rich sensory (vision + tactile) data for diverse dexterous manipulation tasks in natural environments. DEXOP mechanically connects human fingers to robot fingers, providing users with direct contact feedback (vi...

ID: 2509.04441v2 cs.RO, cs.AI, cs.CV, cs.HC

arXiv PDF

📄 Action Chunking with Transformers for Image-Based Spacecraft Guidance and Control

2025-09-09

Авторы:

Alejandro Posadas-Nava, Andrea Scorsoglio, Luca Ghilardi, Roberto Furfaro, Richard Linares

#### Контекст Существуют сложности в достижении высокого качества управления космическими аппаратами, особенно при ограниченных возможностях сбора данных. Эта проблема становится актуальной в сфере имитационного обучения, где необходимо обеспечить безопасность, точность и эффективность управления кораблями в реальном времени. Особенно важно научиться эффективно использовать данные, полученные от экспертных демонстраций. Наша мотивация заключается в разработке метода, который может обучаться на малых объемах данных, но при этом показывать высокую точность и качество управления в сложных задачах, таких как воздушное и космическое пространство. #### Метод Мы предлагаем метод Action Chunking with Transformers (ACT) для обучения с имитацией для управления космическими кораблями. ACT использует трансформеры для обработки визуальных и состоятельных наблюдений, а также для генерации команд управления, таких как трю и турбузии. Метод представляет собой подход к декомпозиции действий, чтобы повысить эффективность и точность. Мы обучаем ACT на малых объемах данных, включая 100 демонстраций, составляющих 6300 интеракций с системой. Это позволяет нам получить гладкие и стабильные траектории, которые лучше работают, чем базовый метод мета-рейнфорсментного обучения (meta-RL), обученный на 40 миллионов интеракций. #### Результаты Мы проводили эксперименты на задаче земляного причала с использованием ACT на корабле с космической станцией (ISS). Мы сравнили наш метод с базовыми методами мета-RL. Результаты показали, что ACT показывает значительное улучшение в точности, стабильности управления и эффективности обучения. ACT позволяет достичь более высокого уровня результатов с меньшим объемом данных, что делает его более эффективным в сценариях с ограниченным доступом к данным. #### Значимость Метод ACT может быть применен в различных областях, таких как космическое управление, воздушное пространство и даже в секторе робототехники. Он обеспечивает более высокую точность и эффективность в сравнении с другими методами мета-управления. Это может привести к улучшению безопасности и экономичности в технологиях космического и воздушного пространства. Будущие исследования могут посвятиться расширению ACT на более сложные и нестандартные задачи управления, а также на его применение в сценариях с высоким уровнем неопределенности. #### Выводы Мы успешно развили новый подход к имитационному обучению для управления космическими кораблями, который достиг высокого качества с малым объемом данных. ACT показал большую точность, устойчивость и эффективность в сравнении с основными ме

Annotation:

We present an imitation learning approach for spacecraft guidance, navigation, and control(GNC) that achieves high performance from limited data. Using only 100 expert demonstrations, equivalent to 6,300 environment interactions, our method, which implements Action Chunking with Transformers (ACT), learns a control policy that maps visual and state observations to thrust and torque commands. ACT generates smoother, more consistent trajectories than a meta-reinforcement learning (meta-RL) baselin...

ID: 2509.04628v1 cs.RO, cs.AI

arXiv PDF

1
2
40
41
42
43
44
54
55

Показано 411 - 420 из 544 записей