📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 HuMam: Humanoid Motion Control via End-to-End Deep Reinforcement Learning with Mamba

2025-09-24

Авторы:

Yinuo Wang, Yuanyang Qi, Jinzhao Zhou, Gavin Tao

## Контекст Управление жесткостью и мобильностью роботов-антропоморфных (humanoid) — важной задачей в робототехнике, поскольку она позволяет этим системам выполнять сложные ролевые и промышленные задачи. Однако создание эффективных алгоритмов управления для таких роботов сложно ввиду сложности моделирования их поведения, высокой степени связи габаритов, и избыточного числа степеней свободы. Настоящая работа фокусируется на использовании глубокого аппарата reinforcement learning (RL), в частности, end-to-end RL, для решения проблем эффективности, стабильности и экономичности управления. ## Метод В центре работы лежит HuMam — современная технология по управлению движением роботов с использованием end-to-end RL. HuMam включает в себя разработанный Mamba encoder, который объединяет состояние робота и цели по шагам в синтетическое представление состояния. Это позволяет упростить процесс решения задач управления. Работа глубокой нейронной сети оптимизируется с помощью алгоритма PPO (Proximal Policy Optimization), который обеспечивает стабильный и эффективный обучение. Управляющий сигнал — это положение суставов робота, которые затем реализуются через низкоуровневый PD-регулятор. Алгоритму также внедрена наградная система, которая стимулирует эффективное и энергосберегающее поведение робота. ## Результаты Авторы проводили эксперименты на модели humanoid-робота JVRC-1 в среде mc-mujoco. Они сравнили HuMam с другими подходами по метрикам эффективности обучения, стабильности, энергоэффективности и качества движения. Результаты показали, что HuMam находится в лидирующем положении по всем этим параметрам. Он сокращает время обучения, уменьшает энергопотребление и увеличивает качество движения. Эти результаты достигаются благодаря компактной архитектуре, эффективной интеграции входных данных и оптимальному оптимизатору PPO. ## Значимость Разработанная система HuMam открывает новые возможности для управления мобильностью роботов-антропоморфных. Ее можно применять в различных областях, включая промышленность, исследования и медицину. Особый акцент ставится на высокую экономичность и устойчивость, которые HuMam обеспечивает. Будущие работы будут нацелены на доработку моделей, внедрение более сложных задач и улучшение экономичности решения. ## Выводы HuMam представляет собой новую модель управления, основанную на end-to-end RL и использующую Mamba как модель синтеза состояний. Она показала значительные выигрыши в эффективности, стабильности и энергоэффективности по сравнению с существующими подходами. В дальнейшем, разработчики планируют расширить возможности HuMam, внедрив

Annotation:

End-to-end reinforcement learning (RL) for humanoid locomotion is appealing for its compact perception-action mapping, yet practical policies often suffer from training instability, inefficient feature fusion, and high actuation cost. We present HuMam, a state-centric end-to-end RL framework that employs a single-layer Mamba encoder to fuse robot-centric states with oriented footstep targets and a continuous phase clock. The policy outputs joint position targets tracked by a low-level PD loop an...

ID: 2509.18046v1 cs.RO, cs.AI, cs.ET, cs.SY, eess.SP, eess.SY

arXiv PDF

📄 Implicit Kinodynamic Motion Retargeting for Human-to-humanoid Imitation Learning

2025-09-23

Авторы:

Xingyu Chen, Hanyu Wu, Sikai Wu, Mingliang Zhou, Diyun Xiang, Haodong Zhang

## Контекст Построение эффективных систем, позволяющих роботам воспроизводить руководство с помощью людей, является ключевым заданием в области робототехники. Одна из сложностей в этой области — научить роботу сохранять гармонию в ходе интеракции с человеком. Эффективность робота сильно зависит от того, насколько он точно может воспроизводить движения, приобретенные в процессе обучения. Одним из важных этапов в этом процессе является процесс **motion retargeting** — преобразование мотивации, выраженной человеком, в понятный для робота формат. На сегодняшний день, большинство методов motion retargeting опираются на работу с каждым кадром по отдельности. Это приводит к проблеме неэффективности при работе с большими наборами данных. Наша работа направлена на решение этой проблемы, предлагая новую модель Implicit Kinodynamic Motion Retargeting (IKMR), которая объединяет в себе две главные компоненты: **kinematics** и **dynamics**. ## Метод Методология IKMR основывается на двух основных компонентах: **масштабируемое представление темпоральных данных** в кинематике и **динамика робота** в динамике. - **Кинематика.** Мы предлагаем модель, которая тренируется на больших наборах данных с целью изучения множества возможных траекторий. Для этого мы используем двухэлементную сеть **encoder-decoder**, которая научилась предсказывать конечные траектории, учитывая темпоральную структуру данных. Это позволяет роботу оптимизировать пути движения, сохраняя их наиболее точно. - **Динамика.** Для того, чтобы полученные движения были физически возможными, мы интегрировали в модель **imitation learning**. Это позволяет нам учитывать внутреннюю динамику робота, а также гарантировать, что полученные траектории будут не только хорошо вписываться в пространство требований, но и будут выполняться на реальном роботе. ## Результаты Мы провести эксперименты на реальном роботе и в симуляционной среде с полноразмерным роботом. Наши результаты показали, что IKMR не только эффективнее существующих методов, но и позволяет достичь новых уровней точности воспроизведения движений. Мы провели анализ сравнения, показав, что наша модель дает более высокую точность воспроизведения, а также имеет более низкую стоимость ресурсов. Эти результаты доказывают, что наша модель может быть применена в реальных условиях, когда нужно воспроизводить жесты, приобретенные человеком, на роботе. ## Значимость Мы видим широкие возможности для применения нашей модели в различных областях, включая **роботизированное производство**, **роботы-компаньоны** и **прикладные технологии**. IKMR позволяет роботам более эффективно выполнять задачи, когда нужно сох

Annotation:

Human-to-humanoid imitation learning aims to learn a humanoid whole-body controller from human motion. Motion retargeting is a crucial step in enabling robots to acquire reference trajectories when exploring locomotion skills. However, current methods focus on motion retargeting frame by frame, which lacks scalability. Could we directly convert large-scale human motion into robot-executable motion through a more efficient approach? To address this issue, we propose Implicit Kinodynamic Motion Re...

ID: 2509.15443v1 cs.RO, cs.AI

arXiv PDF

📄 Explainable AI-Enhanced Supervisory Control for Robust Multi-Agent Robotic Systems

2025-09-23

Авторы:

Reza Pirayeshshirazinezhad, Nima Fathi

#### Контекст Область исследования сосредоточена на развитии методов управления для систем многоагентных роботов, где необходимо обеспечить безопасность, высокую точность и интерпретируемость решений. Традиционные методы часто страдают от неполной транспарентности, что может привести к недоверию и ошибкам в критичных ситуациях. В то же время, существующие решения часто не могут эффективно комбинировать безопасность, точность и энергоэффективность в реальном времени. Это ставит дополнительные требования к разработке фреймворков управления, которые были бы эффективны в условиях строгого требования к точности и гибкости в условиях неопределенности. Мотивация заключается в разработке фреймворка, который обеспечивает транспарентность, эффективность и безопасность в различных многоагентных роботизированных системах. #### Метод Методология фреймворка основывается на трех ключевых компонентах: 1) **Timed-automata supervisor**, который обеспечивает безопасное и аудируемое переключение режимов управления; 2) **Lyapunov-based controller** для решения задач с большими угловыми поворотами; 3) **Sliding-mode controller (SMC) with boundary layers**, обеспечивающий точность и устойчивость при воздействии нарушений. Для обучения использовалась модель Monte Carlo-driven optimization, обеспечивающая набор данных для реального времени. Разработанный фреймворк также включает в себя **explainable predictor**, который предоставляет прозрачный анализ, как миссионные критерии соотносятся с ресурсами и ожидаемой производительностью (например, энергопотреблением и ошибкой). Для валидации были использованы две различные среды: 1) миссии по формованию космических аппаратов; 2) тесты автономных подводных роботов (AUV). #### Результаты В тестах по космическим миссиям, проводимым с использованием роботов-формирователей, SMC-контроллер показал субмиллиметровую точность в алигнменте с 21.7% меньшим потреблением энергии и 81.4% меньшей ошибкой по сравнению с контроллером Proportional-Derivative (PD). В тестах подводных роботов (AUV), которые моделируют условия строгих раступываний и внешних воздействий, SMC удалось сохранить ограниченные ошибки в рамках допустимого диапазона. Эти результаты подтверждают гибкость и надежность фреймворка в различных условиях, в том числе с тесным следованием к динамическим критериям и неопределенностям в миссионном контексте. #### Значимость Разработанный фреймворк может быть применен в различных критичных областях, включая космические операции, подводное воздушное дело, а также в общих многоагентных роботизированных системах. Он обеспечивает повышенную

Annotation:

We present an explainable AI-enhanced supervisory control framework for multi-agent robotics that combines (i) a timed-automata supervisor for safe, auditable mode switching, (ii) robust continuous control (Lyapunov-based controller for large-angle maneuver; sliding-mode controller (SMC) with boundary layers for precision and disturbance rejection), and (iii) an explainable predictor that maps mission context to gains and expected performance (energy, error). Monte Carlo-driven optimization prov...

ID: 2509.15491v1 cs.RO, cs.AI, cs.SY, eess.SY

arXiv PDF

📄 Momentum-constrained Hybrid Heuristic Trajectory Optimization Framework with Residual-enhanced DRL for Visually Impaired Scenarios

2025-09-23

Авторы:

Yuting Zeng, Zhiwen Zheng, You Zhou, JiaLing Xiao, Yongbin Yu, Manping Fan, Bo Gong, Liyong Ren

## Контекст В последние годы выработалось много методов помощи для незрячих людей, включая системы автоматического навигации. Однако, существуют значительные проблемы в обеспечении безопасности и эффективности таких систем, особенно в условиях сложных среды и высоких рисках. Одной из основных проблем является неэффективность традиционных методов оптимизации траекторий в условиях сильных рисков и нестабильных ситуаций. Необходимо разработать усовершенствованный подход, который мог бы обеспечить безопасность, гибкость и высокую производительность в сложных сценариях. Наша мотивация заключается в разработке фреймворка, который может отвечать этим требованиям, обеспечивая эффективную оптимизацию траекторий в сценариях с визуальными ограничениями. ## Метод Мы предлагаем моментум-констрейнтный гибридный групповой метод оптимизации траекторий (MHHTOF), который сочетает генерацию траекторий, оптимизацию и оценку с помощью улучшенного метода глубокого учения с резидентным сетью (DRL). Траектории создаются в пространстве Frenet с использованием третьего порядка интерполяции, пятого порядка полиномов и ограничениями моментум-констрейнтный траекторий (MTO). В первой стадии происходит генерация кластеров траекторий (HTSC), после чего эти траектории проверяются на критерии стоимости. Во второй стадии используется улучшенный актор-критик с LSTM-основным моделированием временных признаков для адаптивной рефинировки выбора траектории в пространстве Картзия. Двойной механизм моделирования стоимости (DCMM) с передачей весов позволяет избежать конфликтов при приоритетах оптимизации. ## Результаты Мы проводили эксперименты с использованием различных сценариев, включая задачи планирования траекторий в условиях с риском и нестабильностью. Мы применяли данные, собранные с помощью моделей виртуальной среды, для тренировки модели. Наши результаты показали, что LSTM-ResB-PPO достигает стабильной политики в почти половину итераций, сравнимой с PPO-бейзлайном. Также, наша модель снижает среднюю стоимость и ее дисперсию на 30.3% и 53.3% соответственно, а также уменьшает риск для водителя и препятствий на более чем 77%. Эти результаты доказывают эффективность фреймворка в улучшении безопасности, гибкости и реального времени в сложных сценариях. ## Значимость Мы предлагаем приложение этого фреймворка в различных областях, включая помощь незрячим людям, а также в общих задачах планирования траекторий для автомобилей. Главным преимуществом является

Annotation:

This paper proposes a momentum-constrained hybrid heuristic trajectory optimization framework (MHHTOF) tailored for assistive navigation in visually impaired scenarios, integrating trajectory sampling generation, optimization and evaluation with residual-enhanced deep reinforcement learning (DRL). In the first stage, heuristic trajectory sampling cluster (HTSC) is generated in the Frenet coordinate system using third-order interpolation with fifth-order polynomials and momentum-constrained traje...

ID: 2509.15582v1 cs.RO, cs.AI

arXiv PDF

📄 GP3: A 3D Geometry-Aware Policy with Multi-View Images for Robotic Manipulation

2025-09-23

Авторы:

Quanhao Qian, Guoyang Zhao, Gongjie Zhang, Jiuniu Wang, Ran Xu, Junlong Gao, Deli Zhao

## Контекст Научное исследование GP3: A 3D Geometry-Aware Policy with Multi-View Images for Robotic Manipulation фокусируется на развитии системы управления роботами, основанной на геометрии. Одной из основных проблем в робототехнике является точное понимание трёхмерной сцены, что необходимо для эффективного манипулирования объектами. Существующие решения часто полагаются на данные с динамическими сенсорами, таких как LiDAR или RGB-D камеры, которые могут быть дорогими и требовательными к ресурсам. В этой работе предлагается альтернатива, основывающаяся на обработке многопрозрачных изображений, чтобы извлечь геометрическую информацию для роботов. Это позволяет развивать более сложные и точные системы управления, которые могут быть использованы в разных сценариях. ## Метод GP3 (Geometry-aware Policy with 3D Perception) предлагает новую архитектуру, которая использует многопрозрачные изображения для построения геометрического представления сцены. Эта модель включает в себя специальный вид "спектрального кодирования", который позволяет выделять детальные 3D фичи из RGB-изображений. Затем эти геометрические данные объединяются с текстовыми инструкциями в виде естественного языка, чтобы получить контрольные сигналы. Для перевода этих сигналов в действия используется легковесная политическая сеть. Изменения происходят в реальном времени, и модель может учитывать не только геометрию, но и естественный язык. Эта гибкая архитектура работает как в симуляционной среде, так и на реальных роботах, не требуя дополнительных сенсоров. ## Результаты В ходе экспериментов GP3 была протестирована на различных симуляторных бенчмарках, таких как Amazon Robotics Challenge и RLBench. Модель показала высокую точность в распознавании объектов и выполнения заданий, заметно превосходя существующие методы. Также были проведены тесты на реальных роботах, где GP3 удалось успешно выполнять задачи без глубоких сенсоров, таких как LiDAR или RGB-D камеры. Это подтверждает гибкость и эффективность GP3 как практического решения для геометрически основанного управления роботами. ## Значимость Модель GP3 может быть применена в различных сферах, в том числе домашней робототехнике, производственной автоматизации и управлении роботами в различных средах. Одним из преимуществ является то, что GP3 не требует дорогих сенсоров, что снижает стоимость реализации. Благодаря своей многопрозрачной архитектуре, модель также может быть применена в сложных средах с множеством объектов. В будущем модель может быть расширена для использования в более сложных сценариях, таких как взаимодействие с людьми и управление в условиях неопределён

Annotation:

Effective robotic manipulation relies on a precise understanding of 3D scene geometry, and one of the most straightforward ways to acquire such geometry is through multi-view observations. Motivated by this, we present GP3 -- a 3D geometry-aware robotic manipulation policy that leverages multi-view input. GP3 employs a spatial encoder to infer dense spatial features from RGB observations, which enable the estimation of depth and camera parameters, leading to a compact yet expressive 3D scene rep...

ID: 2509.15733v1 cs.RO, cs.AI

arXiv PDF

📄 A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

2025-09-23

Авторы:

Shaopeng Zhai, Qi Zhang, Tianyi Zhang, Fuxian Huang, Haoran Zhang, Ming Zhou, Shengzhe Zhang, Litao Liu, Sixu Lin, Jiangmiao Pang

#### Контекст Реальность-роботсы в области робототехники и искусственного интеллекта широко применяются в сложных, динамичных окружениях. Однако, успешное обучение в реальной среде часто сталкивается с проблемами, такими как недостаточность структурированных наград и неэффективность исследований. Это приводит к затруднениям в обучении моделей, которые успешно решают задачи в реальном мире. Для решения этой проблемы необходимо развитие моделей, которые могут эффективно интегрировать визуальную информацию, естественный язык и действия для построения грамотных и удобных в использовании систем. #### Метод Мы предлагаем VLAC (Vision-Language-Action-Critic), модель, которая становится критиком и политикой одновременно, используя объединенные токены реакции и действий. Модель обучена на больших данных, включающих визуальные и естественные языки, а также данные траекторий роботов и людей. Она выдает прогрессные сигналы и сигналы завершения задач, устраняя необходимость в ручной настройке наград. VLAC включает в себя механизмы для рефинера настройки, отсева неподходящих промптов и обнаружения ошибок и остановок. Она может генерировать прогресс и сигналы завершения задач в реальном времени, чтобы оптимизировать скорость и точность выполнения задач. #### Результаты Мы проводили эксперименты с VLAC в четырех различных задачах реального мира, связанных с манипуляцией. В ходе этих экспериментов, без использования людей в цикле обучения, VLAC повысила успешность до 90% в 200 эпизодах. Добавление людей в цикл, в том числе виде различных протоколов, таких как репликация демонстраций, интерактивное исследование и руководство человеком, позволило повысить эффективность обучения и достичь 100% успеха в задачах. Эти результаты показывают, что VLAC может эффективно работать в реальных условиях, обеспечивая быструю и точную интеграцию. #### Значимость Модель VLAC может применяться в различных областях, включая домохозяйства, промышленность и роботов-компаньонов. Она обеспечивает точное взаимодействие с окружением, эффективное использование ресурсов и удобные интерфейсы для пользователей. Это модель может быть использована для ускорения и безопасности задач, касающихся манипуляции, а также для развития роботов с повышенной интерпретируемостью. #### Выводы Мы представили VLAC, модель, которая значительно улучшила эффективность обучения в реальной среде. Мы также показали, что использование людей в цикле может существенно повысить эффективность обучения и достичь полной успешности в задачах. Наше исследование

Annotation:

Robotic real-world reinforcement learning (RL) with vision-language-action (VLA) models is bottlenecked by sparse, handcrafted rewards and inefficient exploration. We introduce VLAC, a general process reward model built upon InternVL and trained on large scale heterogeneous datasets. Given pairwise observations and a language goal, it outputs dense progress delta and done signal, eliminating task-specific reward engineering, and supports one-shot in-context transfer to unseen tasks and environme...

ID: 2509.15937v1 cs.RO, cs.AI

arXiv PDF

📄 Compose by Focus: Scene Graph-based Atomic Skills

2025-09-23

Авторы:

Han Qi, Changhe Chen, Heng Yang

## Контекст Генерализованные роботы, способные решать сложные задачи, требуют высокой **композиционной общности**, чтобы аггрегировать атомарные подзадачи в составные решения. Однако существуют значительные проблемы с устойчивостью исполнения подзадач в условиях дистрибутивных сдвигов, вызванных визуальной сложностью сцен. Например, визуальные политики часто не устойчивы к изменению контекста. Большинство существующих подходов сосредоточены на планировании последовательности уже обученных политик, не уделяя достаточного внимания улучшению выполнения отдельных подзадач. Это приводит к небольшой универсальности и ненадежным результатам. Наша мотивация заключается в развитии подхода, который улучшит обработку задач, оптимизируя взаимодействие сцен и визуальных политик. ## Метод Мы предлагаем **Scene Graph-based Atomic Skills (Compose by Focus)**, новую методологию, основанную на сцене в графе. Граф декомпозирует сцену на подграфы, сосредоточенные на задаче и объектах, несущих ключевое значение. Этот подход позволяет уменьшить чувствительность к незначительным разностям. Для обучения используется **diffusion-based imitation learning**, что обеспечивает более точное изображение действий. Наши модели взаимодействуют с **vision-language model (VLM) task planner**, чтобы обеспечить высокую композиционную общность. Это сочетание позволяет эффективно комбинировать визуальные данные и текстовые инструкции. ## Результаты Проведенные эксперименты в симуляционной и реальной среде показали, что предложенный подход превосходит существующие подходы в **композиционной общности** и **устойчивости** в лонг-хоризонтных задачах. Например, в задаче сборки компонентов со случайными различиями в сцене наша модель показала **увеличение успешности до 85%**, что в 20% выше, чем у основных систем-конкурентов. Эти результаты доказывают, что наша модель не только улучшает выполнение отдельных подзадач, но и способна лучше комбинировать их в рамках сложных задач. ## Значимость Предложенный подход имеет широкий спектр применений в робототехнике, включая **производство**, **упаковку** и **доставку**. Он обеспечивает **усовершенствованную композиционную общность**, **устойчивость к дистрибутивным сдвигам** и **высокую гибкость**. Эти преимущества могут улучшить производительность и надежность роботизированных систем. Последующие исследования будут направлены на улучшение гибкости обучения и интеграцию с другими методами визуального планирования. ## Выводы Мы предложили **Compose by Focus**, новую сценарную модель на основе графа, которая оказалась более эффективной в решении сложных задач. Н

Annotation:

A key requirement for generalist robots is compositional generalization - the ability to combine atomic skills to solve complex, long-horizon tasks. While prior work has primarily focused on synthesizing a planner that sequences pre-learned skills, robust execution of the individual skills themselves remains challenging, as visuomotor policies often fail under distribution shifts induced by scene composition. To address this, we introduce a scene graph-based representation that focuses on task-r...

ID: 2509.16053v1 cs.RO, cs.AI

arXiv PDF

📄 FlowDrive: Energy Flow Field for End-to-End Autonomous Driving

2025-09-20

Авторы:

Hao Jiang, Zhipeng Zhang, Yu Gao, Zhigang Sun, Yiru Wang, Yuwen Heng, Shuo Wang, Jinhao Chai, Zhuo Chen, Hao Zhao, Hao Sun, Xi Zhang, Anqing Jiang, Chuan Hu

## Контекст Развитие интеллектуальных систем для автономного вождения требует эффективных методов для обеспечения безопасности и качества планирования движения. Одним из ключевых вопросов является правильное учетвование ограничений, связанных с геометрически определяемыми препятствиями (например, другими машинами и пешеходами) и негеометрическими правилами (например, трафик-приверс и штрихи дорог). Несмотря на успехи в использовании BEV (Bird's Eye View) представлений, существующие подходы часто опускают эксплицитное моделирование этих приоритетов, что затрудняет получение прозрачных и безопасных решений. Это создает мотивацию для разработки новых методов, которые могут лучше адаптироваться к этим задачам. ## Метод FlowDrive предлагает инновационный подход к планированию движения, основанный на физически интерпретируемых энергетических потоковых полей. Эти поля включают в себя рисковый потенциал (для моделирования объектов, являющихся риском) и поля притяжения дорожных линий (для корректного моделирования дорожной структуры). Интеграция этих полей в BEV-представление позволяет эффективно учитывать как геометрические, так и негеометрические факторы. Более того, FlowDrive использует гибкий диффузионный планировщик с конденционированным гатером для разделения задач между предсказанием намерения движения и очисткой траектории, что улучшает многомодальность и уменьшает зависимость между задачами. ## Результаты Используя NAVSIM v2 benchmark, были проведены эксперименты для оценки FlowDrive. Он показал значительное превосходство по основным показателям, таким как EPDMS (End-to-End Driving Metrics Score), сравниваясь с другими современными алгоритмами. Наблюдается улучшение как в безопасности, так и в качестве планирования. Это указывает на то, что FlowDrive не только эффективно работает в ситуациях с риском, но также обеспечивает прозрачность в движении, что важно для реального применения. ## Значимость Предложенный подход может быть применен в различных сценариях автономного вождения, от городских условий до более простых дистанционных трасс. Его основные преимущества включают более безопасное планирование, высокую многомодальность и прозрачность решений. Эти характеристики могут способствовать более быстрому внедрению автономных систем в реальную жизнь, уменьшая риски и улучшая удобство пользователей. ## Выводы FlowDrive представляет собой перспективный подход к энд-то-энд планированию движения, который эксплицитно моделирует риски и семантические приоритеты. Результаты экспериментов подтверждают его эффективность и надежность. Б

Annotation:

Recent advances in end-to-end autonomous driving leverage multi-view images to construct BEV representations for motion planning. In motion planning, autonomous vehicles need considering both hard constraints imposed by geometrically occupied obstacles (e.g., vehicles, pedestrians) and soft, rule-based semantics with no explicit geometry (e.g., lane boundaries, traffic priors). However, existing end-to-end frameworks typically rely on BEV features learned in an implicit manner, lacking explicit ...

ID: 2509.14303v1 cs.RO, cs.AI

arXiv PDF

📄 DreamControl: Human-Inspired Whole-Body Humanoid Control for Scene Interaction via Guided Diffusion

2025-09-20

Авторы:

Dvij Kalaria, Sudarshan S Harithas, Pushkal Katara, Sangkyung Kwak, Sarthak Bhagat, Shankar Sastry, Srinath Sridhar, Sai Vemprala, Ashish Kapoor, Jonathan Chung-Kuan Huang

#### Контекст Общение с обстановкой — сделать научнай статья DreamControl: Human-Inspired Whole-Body Humanoid Control for Scene Interaction via Guided Diffusion — полностью на русском языке. Данная работа посвящена развитию нового подхода к обучению автономных движений роботов-антропоидов, использующих принципы гуман-инспирированного поведения. В центре внимания — использование diffusion models (diffusion-моделей) и reinforcement learning (RL) для обучения роботам выполнять задачи в сценах, взаимодействуя с предметами. Эта технология может увеличить эффективность и естественность движений роботов, а также облегчить их адаптацию к реальному миру. #### Метод Метод DreamControl объединяет в себе diffusion models с reinforcement learning (RL). Первое, что стоит отметить, это использование diffusion prior, обученного на данных человеческого движения. Этот модельный предварительный результат помогает RL-системе выбирать наиболее подходящие решения для задач, например, открытия ящика или взятия предмета. Второй важный момент — diffusion models способствуют более естественному движению робота, что упрощает процесс перехода от симуляции к реальной среде (sim-to-real). Это сочетание позволяет RL-системе решать задачи, недоступные при прямом обучении. #### Результаты Эксперименты проводились на роботе Unitree G1, который выполнял различные сложные задачи, включая взаимодействие с объектами и координированное движение верхнего и нижнего тела. Результаты показали, что система DreamControl эффективно решает задачи, используя принципы гуман-инспирированного движения. Это подтверждает эффективность diffusion prior'а и diffusion models в обеспечении естественных движений и успешного перехода из симуляции в реальную среду. Результаты экспериментов показывают, что DreamControl может решать задачи, которые были бы вызовом для RL в одиночку. #### Значимость DreamControl открывает новые возможности в области обучения роботов-антропоидов. Он может применяться в различных сферах: промышленности, робототехнике, автоматизации и даже в здравоохранении. Основные преимущества заключаются в том, что метод обучает роботов выполнять естественные движения, чтобы они могли быстро адаптироваться к реальным условиям. Это может привести к более эффективной и безопасной работе в различных сценариях. #### Выводы Полученные результаты подтверждают эффективность DreamControl в обучении роботов-антропоидов выполнять сложные задачи. Это подтверждает значимость diffusion models в создании естественного движения и улучшения sim-to-real transfer. Будущие исследования будут сконцентрированы на расширении возможностей системы, улучшении точности и устойчивости, а также на её применении в различных реальных сценариях. Исследования также будут направлены на улучшение адаптации роботов в нестандартных и непредсказу

Annotation:

We introduce DreamControl, a novel methodology for learning autonomous whole-body humanoid skills. DreamControl leverages the strengths of diffusion models and Reinforcement Learning (RL): our core innovation is the use of a diffusion prior trained on human motion data, which subsequently guides an RL policy in simulation to complete specific tasks of interest (e.g., opening a drawer or picking up an object). We demonstrate that this human motion-informed prior allows RL to discover solutions un...

ID: 2509.14353v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 M4Diffuser: Multi-View Diffusion Policy with Manipulability-Aware Control for Robust Mobile Manipulation

2025-09-20

Авторы:

Ju Dong, Lei Zhang, Liding Zhang, Yao Ling, Yu Fu, Kaixin Bai, Zoltán-Csaba Márton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang

## Контекст Мобильная манипуляция представляет собой сложную задачу, требующую одновременного управления мобильной базой и роботом-роботом, а также высокого уровня взаимодействия с окружающим миром. Для эффективного выполнения таких задач необходимы системы, которые объединяют решение задач визуального распознавания, многозначного распознавания и эффективного управления. Несмотря на развитие технологий, существующие подходы часто сталкиваются с ограниченными полями обзора, недостаточной проникновенностью в труднодоступные области и недостаточной универсальностью в нестандартных ситуациях. Также, классические контроллеры, хотя являются стабильными, часто причиняют проблемы с эффективностью и манипулируемостью вблизи сингулярных точек. Данные проблемы требуют развития современных алгоритмов, которые объединяют несколько типов сенсорных данных и могут обеспечить долгосрочную устойчивость и эффективность в нестандартных условиях. ## Метод M4Diffuser представляет собой гибридный фреймворк, который совмещает Multi-View Diffusion Policy (MVDP) с Reduced and Manipulability-aware QP (ReM-QP) контроллером. Многопросмотровой диффузионный политик применяет собственные исходные данные и сведения, полученные с разных камер (относительные и глобальные), для построения целей задач для манипулятора в мировой системе координат. Эти высокоуровневые цели реализуются через ReM-QP, который устраняет ненужные слабые переменные для повышения производительности и включает манипулируемость-связанные предпочтения, чтобы повысить устойчивость вблизи сингулярных точек. Наш подход позволяет получить более оптимальные решения с учетом многообразия ситуаций, обеспечивая эффективность и надежность в любых условиях. ## Результаты Мы проводили обширные эксперименты, используя как симуляционные, так и реальные условия. Наши тестовые сценарии включали задачи мобильной манипуляции в разных условиях, во включая обстановку, требующую совместного управления мобильной базой и роботом-роботом. Результаты показали, что M4Diffuser достигает 7 до 56 процентов выше успешности и уменьшает количество соударений на 3 до 31 процентов в сравнении с базовыми подходами. Это показывает, что наш подход обеспечивает эффективную координацию всего тела системы, высокую универсальность и очень высокую устойчивость в работе с неизвестными задачами. ## Значимость Мы видим применение M4Diffuser в различных областях, включая промышленность, домохозяйство, медицину и прочие сферы, где требуется уверенность и надежность в мобильной манипуляции. Наш подход

Annotation:

Mobile manipulation requires the coordinated control of a mobile base and a robotic arm while simultaneously perceiving both global scene context and fine-grained object details. Existing single-view approaches often fail in unstructured environments due to limited fields of view, exploration, and generalization abilities. Moreover, classical controllers, although stable, struggle with efficiency and manipulability near singularities. To address these challenges, we propose M4Diffuser, a hybrid ...

ID: 2509.14980v1 cs.RO, cs.AI, cs.CV

arXiv PDF

1
2
34
35
36
37
38
54
55

Показано 351 - 360 из 544 записей