📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Jinhao Liang, Sven Koenig, Ferdinando Fioretto

## Контекст Multi-Robot Motion Planning (MRMP) является кллючевым вопросом в автоматизации и робототехнике, нацеленным на генерацию коллизионно-свободных маршрутов для нескольких роботов, работающих в общем непрерывном пространстве. Существующие подходы разделяются на дискретные методы, такие как discrete multi-agent path finding (MAPF), и континуум-оптимизационные методы. Дискретные подходы хорошо масштабируются, но применяют примитивную дискретизацию, что приводит к потере качества маршрутов. Наоборот, континуум-оптимизационные методы обеспечивают высокое качество маршрутов, но не могут масштабироваться с увеличением количества роботов из-за курса дименсиональности. Таким образом, существует необходимость в разработке методов, объединяющих выгоды дискретных и континуум-подходов. ## Метод Дискретно-гуиденд диффузия (Discrete-Guided Diffusion, DGD) представляет собой инновационный подход, который интегрирует методы MAPF с констрейнтными моделями диффузии. Основные шаги метода включают: 1. **Декомпозиция проблемы MRMP**: Она разделяется на отдельные подзадачи с конфигурационными пространствами, обладающими свойством выпуклости. 2. **Интеграция MAPF с констрейнтными оптимизационными моделями**: DGD использует MAPF для генерации эффективных начальных маршрутов, а констрейнтные модели диффузии для уточнения траекторий и сжатия пространственно-временных зависимостей. 3. **Улучшение планирования**: Механизм ремонта конфигураций исправляет недопустимые маршруты, обеспечивая их выполнимость. Такая архитектура позволяет DGD эффективно решать MRMP для больших групп роботов, сочетая высокую скорость работы с высоким качеством маршрутов. ## Результаты Исследователи проверили DGD на сложных симуляционных средах с до 100 роботов. Метод показал значительное превосходство по сравнению с лучшими существующими подходами: - **Эффективность**: DGD значительно уменьшает время планирования без потери качества маршрутов. - **Качество маршрутов**: Маршруты, созданные DGD, показали значительную улучшенность по сравнению с дискретными методами. - **Устойчивость**: Механизм ремонта конфигураций обеспечил высокую устойчивость работы DGD в различных сценариях. Эти результаты демонстрируют превосходство DGD в больших количествах роботов и сложных средах. ## Значимость DGD имеет широкие приложения в сферах, требующих эффективного управления несколькими роботами, таких как автоматизированные здания, производственные цехи и поиск-и-спасание операции. Он предоставляет следующие преимущества: - **М
Annotation:
Multi-Robot Motion Planning (MRMP) involves generating collision-free trajectories for multiple robots operating in a shared continuous workspace. While discrete multi-agent path finding (MAPF) methods are broadly adopted due to their scalability, their coarse discretization severely limits trajectory quality. In contrast, continuous optimization-based planners offer higher-quality paths but suffer from the curse of dimensionality, resulting in poor scalability with respect to the number of robo...
ID: 2508.20095v1 cs.RO, cs.AI, cs.LG
Авторы:

Antonio Guillen-Perez

#### Контекст На сегодняшний день, Offline Reinforcement Learning (RL) является важной методикой для обучения автономных агентов, таких как автомобили, с использованием больших наборов реальных данных. Однако в этих данных существует чрезвычайная несбалансированность: большинство сценариев (например, плавное вождение по трассе) встречается зачастую, в то время как редкие сценарии (например, столкновения или неожиданные обстоятельства) редко встречаются. Этот дисбаланс приводит к появлению слабых и небезопасных политик при использовании стандартных методов равномерной выборки данных. В данной работе мы адресуем эту проблему, осуществляя систематическое сравнительное исследование подходов к данной проблеме, нацеленных на фокусировку обучения на самых "информативных" сценариях. #### Метод Мы рассмотрели шесть различных стратегий взвешивания данных, разделенных на три класса: те, которые основываются на логических правилах (heuristic-based), те, которые основываются на неуверенности модели (uncertainty-based), и те, которые основываются на поведении агента (behavior-based). Для каждого класса мы определили конкретные метрики для оценки "критичности" данных в разных слоях анализа: на уровне отдельных шагов и в целом на уровне сценария. Используя семь агентов, обученных с использованием Conservative Q-Learning (CQL), мы проводили эксперименты в хорошо проверенной симуляционной среде Waymax. Мы также использовали архитектуру с агрегированием внимания, которая сочетает в себе возможность учитывать детали в индивидуальных моментах времени, а также контекст в целом сценарии. #### Результаты Использование всех стратегий взвешивания данных приводило к значительным улучшениям по сравнению с базовым методом равномерной выборки. Особенно заметные были результаты использования неуверенности модели в качестве признака критичности: этот подход привел к снижению частоты столкновений в почти три раза, с 16,0% до 5,5%. Было также выявлено конфликтное соотношение: стратегии, основанные на взвешивании на уровне отдельных моментов времени, демонстрировали лучший результат в терминах реактивной безопасности, тогда как стратегии уровня сценария давали лучшие результаты в длинных горизонтах планирования. #### Значимость Наши результаты продемонстрировали, что интеллектуальная, неравномерная выборка данных является ключевым компонентом для создания безопасных и надежных автономных агентов. Этот подход имеет широкие применения в области автономного вождения, благодаря своей способности адаптироваться к реальной сложности вождения. Также, наши результаты могут быть использованы для улучшения обучения в других задачах, где име
Annotation:
Offline Reinforcement Learning (RL) presents a promising paradigm for training autonomous vehicle (AV) planning policies from large-scale, real-world driving logs. However, the extreme data imbalance in these logs, where mundane scenarios vastly outnumber rare "long-tail" events, leads to brittle and unsafe policies when using standard uniform data sampling. In this work, we address this challenge through a systematic, large-scale comparative study of data curation strategies designed to focus t...
ID: 2508.18397v1 cs.RO, cs.AI, cs.LG
Авторы:

Luca Grillotti, Lisa Coiffard, Oscar Pang, Maxence Faldor, Antoine Cully

## Контекст Автоматическое выявление навыков роботов является ключевым аспектом создания самостоятельных и адаптивных автономных систем. Данный подход позволяет роботам приобретать широкий спектл разнообразных поведений без предварительного ручного программирования. Однако существуют значительные затруднения в реализации этого подхода, особенно в тяготении к проблемам с безопасностью и эффективностью данных при работе на физическом оборудовании. Существующие методы, например, Quality-Diversity Actor-Critic (QDAC), требуют ручной определения пространств навыков и тщательной настройки гибридных алгоритмов, что существенно ограничивает их применение в реальном мире. В этой работе предлагается расширенный подход, Unsupervised Real-world Skill Acquisition (URSA), который расширяет возможности QDAC, позволяя роботам самостоятельно выявлять и ведеть разнообразные, высокоэффективные навыки непосредственно в реальном мире. ## Метод URSA основывается на расширенной модели QDAC, использующей непрерывную форму обучения, которая позволяет выявлять новые навыки в реальном времени. Робот обучается через итеративное приобретение новых навыков, которые оцениваются по некоторым метрикам, таким как эффективность и стабильность. Метод использует нейронные сети для оценки качества навыков и создания новых целей для обучения. Это позволяет выявлять навыки в условиях, где предварительная информация о среде или целях отсутствует. Архитектура URSA включает в себя несколько моделей глубокого обучения, включая генеративную модель для генерирования поведений и нейронную сеть для оценки качества. Эти модели работают в сочетании с алгоритмами оптимизации, которые позволяют выявлять навыки, максимально приближенные к оптимальным в заданных условиях. ## Результаты Эксперименты проводились с Unitree A1 quadruped-роботом, как в симуляционных условиях, так и на реальном оборудовании. Навыки, полученные с помощью URSA, включали различные формы ходьбы и прыжки, которые были эффективны и стабильны в разных ситуациях. Также, URSA продемонстрировала способность адаптироваться к ущербам в системе, таким как повреждения ног или других деталей, и продолжать выполнять задачи в условиях, где другие методы провалились. Опытные результаты показали, что URSA может успешно обнаружить навыки в офлайн-режиме, а затем применить их в реальном мире с минимальной потребностью в предварительной настройке. Это особенно важно для приложений, где невозможно определить заранее все возможные ситуации. ## Значимость Предложенный подход имеет широкие применения в различных областях, включая робототехнику, роботы-асси
Annotation:
Autonomous skill discovery aims to enable robots to acquire diverse behaviors without explicit supervision. Learning such behaviors directly on physical hardware remains challenging due to safety and data efficiency constraints. Existing methods, including Quality-Diversity Actor-Critic (QDAC), require manually defined skill spaces and carefully tuned heuristics, limiting real-world applicability. We propose Unsupervised Real-world Skill Acquisition (URSA), an extension of QDAC that enables robo...
ID: 2508.19172v2 cs.RO, cs.AI, cs.LG
Авторы:

Marco S. Tayar, Lucas K. de Oliveira, Juliano D. Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker

## Контекст Навигация независимых летательных аппаратов (UAV) в узкорамочных промышленных пространствах, таких как вентиляционные шахты, представляет собой опасную и неэффективную задачу для человека. Дроны могут стать эффективным альтернативным решением для такой задачи, однако их эффективность зависит от надежности контрольных политик, предотвращающих столкновения в GPS-отсутствующих средах. Резилюентное машинное обучение (Reinforcement Learning, RL), и преимущественно глубокое RL, стало мощным фреймворком для развития таких контрольных политик. Однако необходимо понять, какие методы RL лучше подходят для этой задачи. Этот жизненно важный контекст побудил исследователей проводить сравнительные исследования, чтобы определить, какой подход дает более надежные и эффективные результаты. ## Метод Для разработки политик контроля использовались две глубокие RL-методологии: Proximal Policy Optimization (PPO) и Soft Actor-Critic (SAC). PPO является методом на основе опорной политики, а SAC — методом на основе актора-критика, но с использованием офф-политики. Оба метода были тренированы в симуляционной среде Genesis, где производилась генерация процедурных конфигураций труб. Для действий UAV использовалось ограниченное количество управляющих сигналов, и для награды была разработана система, которая вознаграждала надёжное достижение точек прохода и накладывала значительную штрафную наказку за столкновения. Это строительство модели и выбор методов позволили сравнить их на уровне их способности применяться к задаче сложной гнавигации в узких пространствах. ## Результаты Исследователи провели многократные эксперименты, проанализировав их результаты в терминах успешности полётов и надёжности политик. PPO оказался лучше в плане стабильности обучения и способности создавать гладкие и безопасные полёты. Контрольные политики, созданные с помощью PPO, смогли полностью пройти все оценочные эпизоды без столкновений и выдавали высококачественные результаты. В то же время, SAC, несмотря на его выгоду в обучении с офф-политикой, не смог достичь таковой устойчивости и постоянно терпел неудачу в последних стадиях прохода. Таким образом, PPO показал лучшую надёжность в условиях высокой опасности и сложности, что делает его более привлекательным для применения в навигационных задачах. ## Значимость Результаты работы имеют значительное значение для применения в промышленных ситуациях, таких как проверка изоляции вентиляционных систем, мониторинг заводов и других узких пространств. Метод PPO предлагает более надежную альтернативу для развития автономных систем контроля в таких пространствах. Б
Annotation:
Inspecting confined industrial infrastructure, such as ventilation shafts, is a hazardous and inefficient task for humans. Unmanned Aerial Vehicles (UAVs) offer a promising alternative, but GPS-denied environments require robust control policies to prevent collisions. Deep Reinforcement Learning (DRL) has emerged as a powerful framework for developing such policies, and this paper provides a comparative study of two leading DRL algorithms for this task: the on-policy Proximal Policy Optimization...
ID: 2508.16807v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY
Авторы:

Weikang Wan, Jiawei Fu, Xiaodi Yuan, Yifeng Zhu, Hao Su

## Контекст Роботические системы способные выполнять длительные манипуляционные задачи с роботом-человеческой гранулярностью требуют значительных усилий в разработке. Эти задачи обычно включают не только физическую гранулярность, но также гладкую последовательность манипулятивных навыков, а также высшую приспособленность к изменениям в среде. Имитационное обучение позволяет захватить знания от человеческих демонстраций, однако получение богатых данных для этих целей является ресурсозатратным. В данной работе предлагается LodeStar — рамка для автоматической декомпозиции демонстраций на понятные семантическими навыки и создания произвольных демонстрационных наборов с помощью генеративных методов глубокого обучения. Этот подход позволяет значительно улучшить исполнение задач. ## Метод LodeStar автоматически декомпозирует демонстрации на семантические навыки с помощью off-the-shelf моделей глубокого обучения. Далее, для разнообразия демонстраций используется обобщающее обучение с подкреплением (RL). Накопленные данные используются для обучения навыков в рамках модели Skill Routing Transformer (SRT). SRT эффективно склеивает навыки в цепочки для выполнения долгосрочных манипуляционных задач. Этот подход оптимизирован для обработки изменений в среде и позволяет добиться высокой гранулярности и долгосрочной логики. ## Результаты Работа была протестирована на трех сложных задачах реального мира: извлечение объекта из комплексной среды, одноручное выкручивание крышки и многоручное выкручивание крышки. Эксперименты вы mosted, что LodeStar значительно улучшает производительность и устойчивость в сравнении с существующими методами. Обучение на синтетических данных позволило значительно увеличить точность и скорость обучения в сравнении с данными, полученными непосредственно с человека. ## Значимость Предлагаемый подход имеет широкое применение в различных сферах, включая автоматизацию производственных процессов, управление роботами в сложных средах и помощь людям с ограниченными возможностями. Основные преимущества LodeStar заключаются в своей объемности, гибкости и возможности использования небольшого набора демонстраций для обучения. Будущие исследования будут нацелены на улучшение точности и скорости обучения, а также на подключение к более сложным задачам, включая те, что требуют взаимодействия с людьми. ## Выводы LodeStar демонстрирует успешную имплементацию новизны в обучении роботов для выполнения длительных манипуляционных задач. Этот подход позволяет эффективно обучать роботов на основе небольшого числа демонстраций, значительно повышая точность и устойчивость испо
Annotation:
Developing robotic systems capable of robustly executing long-horizon manipulation tasks with human-level dexterity is challenging, as such tasks require both physical dexterity and seamless sequencing of manipulation skills while robustly handling environment variations. While imitation learning offers a promising approach, acquiring comprehensive datasets is resource-intensive. In this work, we propose a learning framework and system LodeStar that automatically decomposes task demonstrations i...
ID: 2508.17547v1 cs.RO, cs.AI, cs.LG
Авторы:

Alberto Silvio Chiappa, Boshi An, Merkourios Simos, Chengkun Li, Alexander Mathis

## Контекст Актуальным научным вопросом является управление высокомерностными и нелинейными моделями мозговой-мышечной системы человека. Недавние достижения в области машинного обучения позволили создавать политики, успешно решающие отдельные задачи, такие как достижение цели, манипуляция объектами и локуция. Однако эти политики являются "специалистами", оптимизированными для решения конкретных задач. Недостаточностью таких подходов является их невозможность универсального применения. В данной работе предлагается Arnold — обобщенная политика, способная решать различные задачи и управлять различными моделями. Это решение призвано устранить ограниченность специализированных политик и обеспечить высокую гибкость и универсальность. ## Метод Arnold основывается на комбинации трех основных компонентов: техники клонирования поведения (behavior cloning), метода PPO (Proximal Policy Optimization) и трансформерной архитектуры. Он использует сенсорно-моторную лексикографию — универсальную структуру для представления смыслов, целей и моторных действий. Эта лексикография позволяет трансформеру работать с разными моделями и задачами, обрабатывая их различия в наблюдениях и действиях. Обучение происходит в два этапа: начальное обучение с behavior cloning и дополнительная оптимизация с помощью PPO. Это позволяет достичь высокого уровня производительности в 14 разнообразных задачах, включая манипуляцию предметами и локуцию. ## Результаты На тестировании в 14 задачах Arnold достиг высокого уровня производительности, демонстрируя экспертные или супер-экспертные результаты. Он эффективно решает задачи динамического локуции, тонкой манипуляции объектами и других сложных задач. Данные результаты подтверждают гибкость и эффективность использования сенсорно-моторной лексикографии и трансформерной архитектуры в многозадачном обучении. Кроме того, были проведены аналитические эксперименты, подтверждающие теоретические выводы о ограниченной трансфертивности мышечных синергий на различные задачи. ## Значимость Arnold может быть применен в широком кругу приложений, включая робототехнику, медицину, игровые технологии и симуляции человеческого поведения. Он предоставляет универсальный инструмент для обучения и управления моделями, не требующий переобучения для каждой новой задачи или модели. Это означает экономию ресурсов и времени. Благодаря своей гибкости и эффективности, Arnold может стать ключевым компонентом в развитии искусственного интеллекта и систем управления. ## Выводы Результаты работы подтвердили эффективность и гибкость Arnold в решении различных задач. О
Annotation:
Controlling high-dimensional and nonlinear musculoskeletal models of the human body is a foundational scientific challenge. Recent machine learning breakthroughs have heralded policies that master individual skills like reaching, object manipulation and locomotion in musculoskeletal systems with many degrees of freedom. However, these agents are merely "specialists", achieving high performance for a single skill. In this work, we develop Arnold, a generalist policy that masters multiple tasks an...
ID: 2508.18066v1 cs.RO, cs.AI, cs.LG, q-bio.QM
Авторы:

Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li, Yan Zheng, Jianye Hao

## Контекст Область робототехники и ИИ сталкивается с значительными проблемами в области "понимания-действия", которая определяет позиционирование в пространстве и взаимодействие с объектами. Эти проблемы связаны с отсутствием больших объемов данных и разнообразием эмбодированных систем. Чтобы улучшить генерализуемость моделей, авторы предлагают использовать универсальное подходение, основанное на точечном представлении, которое может объединить высокоуровневые задачи визуального понимания и низкоуровневые движущиеся задачи. Этот подход целевой на пути к универсальной модели роботов, которая могла бы выполнять разнообразные задачи в разных средах. ## Метод Авторы предложили Embodied-R1, 3B Vision-Language Model (VLM), разработанный специально для поддержки понимания и построения решений в рамках "понимания-действия". Архитектура модели включает тренировку с помощью двух этапов Reinforced Fine-tuning (RFT), используя мульти-задачную систему вознаграждения. Для обучения использовались различные специализированные данные, включая embodied и общие визуально-логические наборы данных. Алгоритм учитывает разнообразие сред и визуальных задач, чтобы создать широкий спектр тестовых ситуаций. ## Результаты В результате тестирования на 11 основных действительных и виртуальных тестовых средах изображений, Embodied-R1 показала значительное улучшение в сравнении с соревновательными моделями. Она показала 56.2% успеха в задаче SIMPLEREnv и 87.5% в 8 реальных средах карманового робота XArm. Эти результаты демонстрируют высокую генерализуемость и удаление "пробела" между визуальным пониманием и действием. Также модель доказала свою высокую устойчивость к различным визуальным помехам, что указывает на ее надежность в реальных условиях. ## Значимость Embodied-R1 может иметь широкое применение в сферах искусственного зрения, робототехнических систем, визуально-логических задачах и управлении роботами в разных средах. Ее уникальность заключается в том, что она предлагает более мощный и универсальный подход к обработке "пробела" между визуальным пониманием и действиями. Это может привести к улучшению работы роботов в реальном мире, особенно в сложных и нестандартных технических ситуациях. ## Выводы Авторы показали, что использование точечного представления, комбинированного с Reinforced Fine-tuning (RFT), может быть эффективным для улучшения генерализуемости роботов в различных ситуациях. Они предлагают продолжить исследования в этом направлении, с расширением тестовых сред и улучшением обработки сложных визуальных помех, чтобы достичь еще больш
Annotation:
Generalization in embodied AI is hindered by the "seeing-to-doing gap," which stems from data scarcity and embodiment heterogeneity. To address this, we pioneer "pointing" as a unified, embodiment-agnostic intermediate representation, defining four core embodied pointing abilities that bridge high-level vision-language comprehension with low-level action primitives. We introduce Embodied-R1, a 3B Vision-Language Model (VLM) specifically designed for embodied reasoning and pointing. We use a wide...
ID: 2508.13998v1 cs.RO, cs.AI, cs.LG
Авторы:

Andrej Orsula, Matthieu Geist, Miguel Olivares-Mendez, Carol Martinez

Резюме научной статьи ======================= ## Контекст Навигация роботов по неизвестным планетарным террайнам является ключевым элементом для последующих космических миссий. Однако, научные исследования столкнулись с значительными проблемами при переходе от симуляционной среды к реальной (sim-to-real gap), особенно при работе с комплексными динамическими процессами, взаимодействиями колес с гравийными поверхностями. Для решения этой задачи, важно создать систему полного симуляционного и реального тестирования, которая могла бы стать основой для разработки надежного управления, например, для динамического целевого слежения на гравийной поверхности. ## Метод Предлагаемая методология включает три основных элемента: (1) массово параллельные симуляции для обучения агентов с помощью reinforcement learning; (2) процедурное сгенерирование разнообразных сред, основываясь на параметрах физического движения колес; (3) тестирование и выбор лучших агентов на физическом ровере в условиях лавовой аналогии Луны. Основным принципом является использование процедурного разнообразия в симуляции, чтобы обеспечить роботу устойчивость в неизвестных условиях. Для различения агентов были экспериментированы различные алгоритмы reinforcement learning и методы упрощения действий. ## Результаты Использование массово параллельных симуляций позволило развить устойчивые политики управления, которые были успешно переданы на физический ровер. На основе экспериментов, было установлено, что роботы, обученные в условиях процедурного разнообразия, показали лучшую производительность при нулевом переходе на реальный ровер, чем те, которые были обучены статическими разнообразиями. Также было изучено влияние методов fine-tuning с использованием высокоточных моделей физики на точность управления, особенно при низких скоростях. ## Значимость Разработанная система позволяет создавать надежные управления для динамического слежения за целью на различных гравийных поверхностях. Это открывает новые возможности для космических миссий, таких как роботизированная исследовательская исследовательских работ на Марсе и Луне. Также, этот подход может быть применен в области робототехники для развития надежных алгоритмов управления в условиях неизвестной среды. ## Выводы Результаты демонстрируют, что обучение в условиях процедурного разнообразия является ключевым фактором для создания устойчивых политик управления для гравийных поверхностей. Работа также показала, что fine-tuning на высокоточных моделях физики имеет ограниченное влияние на точность управления. Будущие исследования будут направлены на улу
Annotation:
Reliable autonomous navigation across the unstructured terrains of distant planetary surfaces is a critical enabler for future space exploration. However, the deployment of learning-based controllers is hindered by the inherent sim-to-real gap, particularly for the complex dynamics of wheel interactions with granular media. This work presents a complete sim-to-real framework for developing and validating robust control policies for dynamic waypoint tracking on such challenging surfaces. We lever...
ID: 2508.11503v1 cs.RO, cs.AI, cs.LG
Авторы:

Ingrid Maéva Chekam, Ines Pastor-Martinez, Ali Tourani, Jose Andres Millan-Romera, Laura Ribeiro, Pedro Miguel Bastos Soares, Holger Voos, Jose Luis Sanchez-Lopez

#### Контекст Возрастающее внедрение интеллектуальных роботов в человеческие окружения требует разработки интуитивных и надежных систем взаимодействия (Human-Robot Interaction, HRI), которые были бы модульными и естественными для взаимодействия. Традиционные методы управления роботами часто требуют от пользователей адаптироваться к различным интерфейсам или запоминать предварительно заданные команды. Это ограничивает эффективность роботов в динамичных и неструктурированных средах. Данная работа предлагает новую фреймворк, который объединяет технологии облачных языковых моделей с системами управления Behavior Trees (BTs). Эта интеграция позволяет роботам интерпретировать управляющие намерения, выраженные в натуральном языке, и конвертировать их в исполнимые действия с помощью специализированных модулей. Такая архитектура поддерживает простой и гибкий способ реализации перцепционных функций, таких как слежение за людьми и распознавание жестов рук. #### Метод Фреймворк основывается на взаимодействии двух основных компонентов. Во-первых, языковая модель (LLM) обеспечивает понимание и интерпретацию желаний пользователя, выраженных в естественном языке. Затем, данные понимания передаются в систему управления BT, где они преобразуются в выполнимые команды для отдельных модулей. Эти модули могут представлять собой различные функции, такие как распознавание лиц или обнаружение руковыдержанных предметов. Архитектура является модульной, что позволяет добавлять новые функции с помощью дополнительных плагинов. Таким образом, система может быть легко сконфигурирована для различных сценариев. Для обеспечения удобства использования, набор данных для обучения был подготовлен, и утилиты для моделирования сценариев были разработаны. #### Результаты Исследования были проведены в реальных условиях, используя различные среды и задачи. Результаты показали, что система обеспечивает высокую точность распознавания и интерпретации естественного языка, с фактическим успехом в 94%. Это показывает хорошую надёжность предложенного подхода в реальных условиях. Была продемонстрирована гибкость системы при внедрении различных модулей, включая плагины для слежения за людьми и распознавания жестов рук. В результате, разработанная система доказала свою эффективность в преодолении текущих ограничений в сфере HRI и может стать основой для будущих развитий. #### Значимость Предложенная система может быть применена в различных сферах, включая роботизированные дома, производственные цепочки и системы поддержки в сложных и непредсказуемых сценария
Annotation:
As intelligent robots become more integrated into human environments, there is a growing need for intuitive and reliable Human-Robot Interaction (HRI) interfaces that are adaptable and more natural to interact with. Traditional robot control methods often require users to adapt to interfaces or memorize predefined commands, limiting usability in dynamic, unstructured environments. This paper presents a novel framework that bridges natural language understanding and robotic execution by combining...
ID: 2508.09621v1 cs.RO, cs.AI, cs.LG
Авторы:

Yifei Yao, Chengyuan Luo, Jiaheng Du, Wentao He, Jun-Guo Lu

## Контекст Создание масштабируемых, универсальных управлений для роботов-человекоидов остается сложной проблемой в робототехнике. Известно, что существующие подходы часто привязаны к конкретной морфологии робота и требуют значительных усилий для переноса на другие модели. Это приводит к значительной утилизации ресурсов в испытаниях и адаптациях. Основная проблема заключается в том, что алгоритмы обучения с подкреплением (RL) и клонирования поведения (BC), которые являются стандартами в области роботов-человекоидов, не значительно продвинулись в сторону универсальности. Например, они часто привязаны к конкретным признакам морфологии робота или ограничиваются ограниченными наборами представлений данных. Более того, универсальные решения для поведения роботов-человекоидов требуют большого объема вычислительных мощностей и надежных методов трансфера. Однако эффективные, универсальные и открытые системы, удовлетворяющие этим требованиям, до сих пор недоступны. Здесь мы предлагаем **Generalized Behavior-Cloning Framework (GBC)**, чтобы закрыть эти пробелы. ## Метод GBC представляет собой инновационную методологию, которая использует дифференцируемую сеть инверсного кинематического уравнения (Differentiable Inverse Kinematics, D-IK) для адаптивного перенаправления данных любого моделирования движения (MoCap) к любому роботу-человекоиду. Это значительно упрощает процесс подготовки данных. Далее, GBC использует новый алгоритм DAgger-MMPPO, который объединяет мета-метаполитику (Meta-Meta Policy Optimization, MM) с трансформером (MMTransformer) для обучения фидбека-ориентированных политик. Эти политики являются высокоточными и термодинамически стабильными. Благодаря универсальной архитектуре, GBC может обрабатывать различные типы роботов-человекоидов, включая модели с разным числом степеней свободы. Этот подход делает GBC высокоскоростным и надежным средством для генерации эффективных поведений роботов. ## Результаты Мы проводили эксперименты на нескольких моделях роботов-человекоидов, включая модели с разным числом степеней свободы, чтобы продемонстрировать возможности GBC. Выяснилось, что GBC может тренировать высокоточные политики для разных моделей роботов-человекоидов без дополнительных маргинальных изменений в архитектуре. Мы также проверили способность GBC к трансферу усвоенных поведений на новые, ранее не встречавшиеся движения. Это подтвердило отличные результаты в поддержании стабильности и точности симуляций. Универсальный подход, предлагаемый GBC, показал себя как эффективный инструмент для создания роботов-человекоидов, которые могут поддержива
Annotation:
The creation of human-like humanoid robots is hindered by a fundamental fragmentation: data processing and learning algorithms are rarely universal across different robot morphologies. This paper introduces the Generalized Behavior Cloning (GBC) framework, a comprehensive and unified solution designed to solve this end-to-end challenge. GBC establishes a complete pathway from human motion to robot action through three synergistic innovations. First, an adaptive data pipeline leverages a differen...
ID: 2508.09960v1 cs.RO, cs.AI, cs.LG
Показано 91 - 100 из 104 записей