📚 Саммари научных статей из arXiv

Найдено 125 результатов по запросу 'cs.RO, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Multi-robot Multi-source Localization in Complex Flows with Physics-Preserving Environment Models

2025-09-19

Авторы:

Benjamin Shaffer, Victoria Edwards, Brooks Kinch, Nathaniel Trask, M. Ani Hsieh

#### Контекст Исследование фокусируется на задаче многороботной локализации источника в сложных потоках, таких как вентиляционные системы или течения воды. Такие задачи критичны в приложениях, таких как обнаружение химических утечек или мониторинг распространения нефти. Однако, сложностью является то, что течения часто бывают временно-изменчивыми, хаотичными и определяются сложными геометриями окружения. Эти факторы затрудняют моделирование и четкое предсказание распространения. Для точного локализации источника необходимо учитывать физические процессы, но это может быть сложно в условиях ограниченной мощности вычислений на борту роботов. #### Метод Предлагается распределенный фреймворк с мобильным сенсорным сбором, где каждый робот владеет машинное-учетом, ограниченно-элементной моделью среды. Эти модели индивидуально используются для вычисления примерного критерия информативности с использованием мутуальной информации. Такой подход, называемый infotaxis, оптимизирует направление движения роботов в сторону областей, предполагающихся как наиболее информативные для локализации. Архитектура включает интеграцию математических моделей с локальными стратегиями сенсорного действия для эффективного использования ресурсов. #### Результаты Исследование подтверждает эффективность предложенного подхода с помощью экспериментов на симуляционных и реальных данных. Многороботная система, оснащенная предложенной стратегией, показывает более быстрое уменьшение ошибки локализации сравниваясь с базовыми методами. Были проведены эксперименты в симуляционных средах и реальных условиях, включая моделирование распространения химических веществ. Результаты показывают, что метод наиболее эффективен при сравнении с другими методами, основанными на машинном обучении. #### Значимость Предложенная стратегия может быть применена в различных областях, таких как мониторинг экологических процессов, геологический мониторинг и безопасность промышленных объектов. Одним из основных преимуществ является природа распределенного подхода, что позволяет эффективно использовать ресурсы и реагировать на задачи в реальном времени. Будущие исследования будут сконцентрированы на расширении моделей для более сложных физических процессов и увеличении скорости обработки данных на борту роботов. #### Выводы Предложенный подход продемонстрировал улучшение точности локализации решений в сложных потоках. Он устанавливает направление для будущих исследований в области многороботных систем, в том числе использования более точных подходов к моделированию, а также ра

Annotation:

Source localization in a complex flow poses a significant challenge for multi-robot teams tasked with localizing the source of chemical leaks or tracking the dispersion of an oil spill. The flow dynamics can be time-varying and chaotic, resulting in sporadic and intermittent sensor readings, and complex environmental geometries further complicate a team's ability to model and predict the dispersion. To accurately account for the physical processes that drive the dispersion dynamics, robots must ...

ID: 2509.14228v1 cs.RO, cs.LG

arXiv PDF

📄 RSL-RL: A Learning Library for Robotics Research

2025-09-17

Авторы:

Clemens Schwarke, Mayank Mittal, Nikita Rudin, David Hoeller, Marco Hutter

## Контекст Робототехника является ключевым направлением в современных науках и технологиях. В рамках этого направления развитие эффективных алгоритмов обучения с подкреплением (Reinforcement Learning, RL) является ключевым заданем, так как эти алгоритмы позволяют роботам адаптироваться к различным средам и задачам. Однако, существующие общего назначения RL-фреймворки часто являются громоздкими и неэффективными для конкретных задач робототехники. Это связано с тем, что они не ориентированы на специфичные требования этой области, такие как работа в симуляционных средах, оптимизация для GPU-обучения и поддержка конкретных алгоритмов, наиболее распространенных при разработке управления роботами. Таким образом, необходимо создать специализированный инструмент, который бы удовлетворял этим потребностям. ## Метод RSL-RL является открытым исходным кодом RL-библиотекой, оптимизированной для задач робототехники. Её дизайн основывается на трех ключевых принципах: 1. Легкость модификации: код организован таким образом, чтобы легко добавлять новые алгоритмы и модифицировать существующие. 2. Ориентация на GPU-обучение: библиотека оптимизирована для высокопроизводительной обработки в больших симуляционных средах. 3. Обработка робототехнических вызовов: включение алгоритмов и техник, которые адресуют специфические задачи, такие как нелинейная динамика роботов и неоднородность сенсорных данных. RSL-RL поддерживает широкий спектр RL-алгоритмов, а также инструменты для моделирования и оценки управления в симуляционных и реальных средах. ## Результаты В экспериментах RSL-RL был использован для обучения роботов в симуляционных и реальных средах. На симуляционных задачах (например, акробатический полет дрона или полет клетки робота) библиотека продемонстрировала высокую эффективность и скорость обучения. В реальных экспериментах с роботами, такими как humanoидные роботы или роботы с плавающим корпусом, библиотека показала способность быстро адаптироваться к сложным задачам, таким как балансировка или манипуляция объектами. Это достигается благодаря высокой производительности GPU-обучения и оптимальной интеграции с симуляционными средами. ## Значимость RSL-RL может быть применена в различных областях робототехники, включая мобильные роботы, дроны, интеллектуальные индустриальные системы. Основные преимущества библиотеки заключаются в своей специализированности, простоте модификации и высокой производительности. Эти особенности позволяют эффективно использовать RSL-RL в разработке и реализации новых алгоритмов обучения с по

Annotation:

RSL-RL is an open-source Reinforcement Learning library tailored to the specific needs of the robotics community. Unlike broad general-purpose frameworks, its design philosophy prioritizes a compact and easily modifiable codebase, allowing researchers to adapt and extend algorithms with minimal overhead. The library focuses on algorithms most widely adopted in robotics, together with auxiliary techniques that address robotics-specific challenges. Optimized for GPU-only training, RSL-RL achieves ...

ID: 2509.10771v1 cs.RO, cs.LG

arXiv PDF

📄 Synthetic vs. Real Training Data for Visual Navigation

2025-09-17

Авторы:

Lauri Suomela, Sasanka Kuruppu Arachchige, German F. Torres, Harry Edelman, Joni-Kristian Kämäräinen

## Контекст Одна из основных задач в области робототехники является развитие эффективных политик для визуального навигационного поведения. Однако существует затруднение в использовании настоящих данных, так как они часто ограничены в объёме и наличии разнообразия. Это приводит к затруднениям при обучении моделей, которые должны работать в реальных условиях. Одна из важных проблем в этой области — так называемый "симулятор-к-реальности" (sim-to-real) гэп, когда модели, обученные в симуляторе, оказываются неэффективными при использовании в реальных условиях. Таким образом, целью данной работы является изучение моделей, обученных в симуляторе, и их сравнение с моделями, обученными на реальных данных, для оценки их эффективности в реальных условиях. ## Метод В данной работе использована модель визуального навигационного поведения, которая использует симулятор для обучения, но может работать на реальном роботе в реальном времени. Основным акцентом является набор представлений, полученных с помощью предобученных моделей на большом количестве изображений. Эти представления позволяют модели свести разницу между симулятором и реальным миром. Модель тестировалась на вилочном мобильном роботе и была проверена на совместимость с другими устройствами, такими как дроны. ## Результаты Помимо тестирования в реальном мире, модель была протестирована на определенных сценариях визуальной навигации. Она показала существенное улучшение в производительности в сравнении с реально-обученными моделями, а также с предыдущими методами. Например, модель, обученная в симуляторе, показала улучшение в успешности навигации на 31% в сравнении с реально-обученной моделью. Была также проверена общизна модели, которая была успешно развернута на борту дрона. Это показало, что модель, обученная в симуляторе, может показать хороший результат не только на вилочном роботе, но и на другом типе робота. ## Значимость Исследование показывает, что симулятор — это эффективный инструмент для обучения моделей визуальной навигации, который может совпадать или даже превосходить производительность моделей, обученных на реальных данных. Благодаря этой модели, можно значительно сократить время и ресурсы, необходимые для обучения моделей в реальном мире. Это также открывает новые возможности для более широкого использования робототехнических систем в различных прикладных областях. ## Выводы В результате данных исследований было установлено, что модели, обученные в симуляторе, могут не только совпадать с моделями, обученными на реальных данных, но и превосходить их в условиях реальной навигации. Было показано, что использо

Annotation:

This paper investigates how the performance of visual navigation policies trained in simulation compares to policies trained with real-world data. Performance degradation of simulator-trained policies is often significant when they are evaluated in the real world. However, despite this well-known sim-to-real gap, we demonstrate that simulator-trained policies can match the performance of their real-world-trained counterparts. Central to our approach is a navigation policy architecture that bri...

ID: 2509.11791v1 cs.RO, cs.LG

arXiv PDF

📄 Learning Contact Dynamics for Control with Action-conditioned Face Interaction Graph Networks

2025-09-17

Авторы:

Zongyao Yi, Joachim Hertzberg, Martin Atzmueller

## Контекст Современное производство и космическая отрасль сталкиваются с высокими требованиями к точности и надежности в решениях по достижению и обеспечению полетных параметров, отслеживанию и контролю. В этом контексте возникает необходимость в моделях, эффективно прогнозирующих моменты и силы во время контактных манипуляций. Традиционные физические модели часто ограничены в способности реагировать на неоднородные условия и нетипичные задачи, что делает их неэффективными в решении задач с высоким уровнем сложности. Есть потребность в новых подходах, обладающих улучшенной точностью и устойчивостью в предсказании динамики контактных задач. ## Метод Мы предлагаем новую подходящую методику, основанную на расширенной графовой нейронной сети (GNN), которая моделирует динамику контактной манипуляции. Наша модель, названная Action-conditioned Face Interaction Graph Network (FIGNet), расширяет современные технологии, добавляя новые типы узлов и ребер. Она позволяет делать предсказания, зависящие от действий (action-conditional), для задач управления и оценки состояния. Такой подход обеспечивает более точные и реалистичные модели взаимодействия, которые могут быть использованы для сложных задач манипуляции. ## Результаты Мы проводили различные эксперименты для оценки точности и надежности модели. На симуляционных задачах, таких как задача "пингвин в носу" (peg-in-hole task), модель FIGNet показала точность, сравнимую с точностью модели, основанной на традиционных физических моделях. Был достигнут уровень точности, при котором разница между предсказаниями FIGNet и реальными данными меньше чем на 5%. В реальной задаче, наша модель представила значительное улучшение в предсказании динамики и точности определения моментов и сил во время контактной манипуляции, с 3-кратным повышением точности предсказания моментов сил по сравнению с базовой физической моделью. ## Значимость Предложенный подход может применяться в различных областях, включая космическую отрасль, производство и робототехнику. Наша модель предлагает значительные преимущества в точности предсказаний, устойчивости к неоднородности признаков и производительность. Основное влияние заключается в улучшении производительности контактных манипуляций, что может привести к эффективности и улучшению в целом производственном процессе. ## Выводы Мы представили новую расширенную GNN-модель, которая эффективно решает задачи контактной динамики в контакт-ричных манипуляциях. Результаты экспериментов показали, что наша модель представляет собой значительное улучшение по сравнению с традиционными физическими моделями. Будущ

Annotation:

We present a learnable physics simulator that provides accurate motion and force-torque prediction of robot end effectors in contact-rich manipulation. The proposed model extends the state-of-the-art GNN-based simulator (FIGNet) with novel node and edge types, enabling action-conditional predictions for control and state estimation tasks. In simulation, the MPC agent using our model matches the performance of the same controller with the ground truth dynamics model in a challenging peg-in-hole t...

ID: 2509.12151v1 cs.RO, cs.LG

arXiv PDF

📄 Robot guide with multi-agent control and automatic scenario generation with LLM

2025-09-16

Авторы:

Elizaveta D. Moskovskaya, Anton D. Moscowsky

## Контекст Область исследования сосредоточена на развитии интеллектуальных социальных роботов, в частности, на создании гибкой и натуральной системы управления роботом-гидом. Существующие проблемы включают в себя необходимость ручной настройки поведения робота, ограниченную гибкость и низкую природность взаимодействия с пользователями. Такие проблемы сподвигают разработчиков искать альтернативы, основывающиеся на автоматизации подготовки сценариев поведения с применением современных технологий, таких как Лангуаже Модели (LLM). Развитие роботов-гидов является важной задачей в рамках развития робототехники, так как эти системы могут применяться в различных областях, включая туризм, образование и развлечения. Мотивацией является необходимость создания системы, которая обеспечивала бы динамическую адаптацию, натуральность взаимодействия и эффективность в эксплуатации. ## Метод Разработанная система основывается на сочетании двух основных компонентов: многоагентной системы управления ресурсами и автоматической генерации сценариев поведения с помощью Лангуаже Модели. В первой стадии генерации сценария создается стилизованный текстовый рисунок, описывающий основные моменты экскурсии. Затем, во второй стадии, внедряются невербальные действия, такие как повороты головы и жесты, в текст, чтобы сделать поведение робота более живым и натуральным. Многоагентная архитектура решает проблему координации параллельных действий робота, обеспечивает разрешение конфликтов и обратную связь за счет возврата к дефолтному поведению после завершения основных операций. Это гарантирует более естественное и понятное поведение робота в различных сценариях. ## Результаты Проведенные эксперименты показали высокую эффективность предложенного подхода. Были проанализированы данные, полученные в ходе испытаний, в которых робот-гид демонстрировал свои возможности в реальной среде. Эксперименты подтвердили улучшение натуральности поведения робота, более эффективное выполнение множества параллельных задач, а также высокую универсальность системы в различных условиях. Данные подтверждают, что автоматическая генерация сценариев поведения с помощью Лангуаже Модели позволяет создавать природные и эффективные коммуникации между роботом и пользователями. ## Значимость Предложенная система может быть применена в различных сферах, включая туристические экскурсии, образовательные центры, торговые площадки и развлекательные парки. Основное преимущество заключается в автоматизации процесса подготовки

Annotation:

The work describes the development of a hybrid control architecture for an anthropomorphic tour guide robot, combining a multi-agent resource management system with automatic behavior scenario generation based on large language models. The proposed approach aims to overcome the limitations of traditional systems, which rely on manual tuning of behavior scenarios. These limitations include manual configuration, low flexibility, and lack of naturalness in robot behavior. The process of preparing t...

ID: 2509.10317v1 cs.RO, cs.LG, 93C85, I.2.9; I.2.7; I.2.11

arXiv PDF

📄 RaC: Robot Learning for Long-Horizon Tasks by Scaling Recovery and Correction

2025-09-11

Авторы:

Zheyuan Hu, Robyn Wu, Naveen Enock, Jasmine Li, Riya Kadakia, Zackory Erickson, Aviral Kumar

#### Контекст Современные подходы к обучению роботов для выполнения задач длительного горизонта сталкиваются с рядом ограничений. Несмотря на то, что использование масштабных демонстраций, сборка данных с помощью телеоператоров и развитие выразительных архитектур политик позволяют достичь успеха в простых задачах, на практике работа роботов на трудных контактных, деформируемых объектах и длинных горизонтах задач остается неудовлетворительной. Даже при сборе тысяч экспертных демонстраций подходы, основанные на телеоператорах, оказываются неэффективными. Это возникает из-за того, что робот не может "учиться" из ошибок в реальном времени, а сбор данных ошибок требует многотысячных демонстраций, что повышает затраты на обучение. #### Метод Рассматривается новая методология обучения роботов, названная RaC (Recovery and Correction). Метод основывается на использовании роли людей в процессе обучения. Во время выполнения задачи робот, если возникает неполадка, оператор вмешивается, снимая робота с ошибки, затем возвращает его в "безопасное" состояние, а затем демонстрирует решение подзадачи. Таким образом, робот научится "учиться по ошибкам". Этот подход включает в себя моделирование не только основной политики, но и стратегий восстановления и корректировки. Эта архитектура позволяет роботу лучше понимать, как восстановиться после ошибки и выполнить задачу. #### Результаты Данный подход был проверен на нескольких реальных задачах: укладке белья, запечатывании шкафа, укладке тарелок и сборке. За счет внедрения RaC, робот оказался эффективнее, используя 10 раз меньше травмированных данных. На реальных задачах, робот повысил производительность, уменьшил количество ошибок и увеличил восстанавливаемость задачи. На симуляционной задаче сборки, рендеринг политики RaC показал более высокий уровень производительности и гибкости. #### Значимость Метод может быть применен в различных сферах, таких как промышленность, здравоохранение и домашний сервис. Он предоставляет выгоду в виде эффективности и надежности. Одной из основных преимуществ является снижение количества данных, необходимых для обучения, что позволяет существенно сократить время и стоимость развития роботных систем. #### Выводы Результаты показывают, что RaC значительно улучшает показатели обучения роботов в области длительных задач с контактными операциями. В дальнейшем будет продолжено исследование подходов для расширения возможностей роботов в реальном времени, с учетом более сложных сценариев и задач. Направления будущих исследований включают развитие моделей, способных лучше адаптирова

Annotation:

Modern paradigms for robot imitation train expressive policy architectures on large amounts of human demonstration data. Yet performance on contact-rich, deformable-object, and long-horizon tasks plateau far below perfect execution, even with thousands of expert demonstrations. This is due to the inefficiency of existing ``expert'' data collection procedures based on human teleoperation. To address this issue, we introduce RaC, a new phase of training on human-in-the-loop rollouts after imitatio...

ID: 2509.07953v1 cs.RO, cs.LG

arXiv PDF

📄 Solving Robotics Tasks with Prior Demonstration via Exploration-Efficient Deep Reinforcement Learning

2025-09-09

Авторы:

Chengyandan Shen, Christoffer Sloth

## Контекст Роботизированные системы, особенно в промышленности, часто требуют последовательного выполнения сложных задач, таких как загрузка бачков или открытие ящиков. Однако полностью управлять такими задачами всегда требует много времени и ресурсов, так как необходимо последовательно корректировать поведение, проводить эксперименты и исправлять ошибки. Демонстрационные подходы помогают улучшить эффективность обучения, но взаимодействия с окружением во время обучения могут быть очень ресурсоёмкими. Для устранения этой проблемы, в работе предлагается **DRLR (Deep Reinforcement Learning with Reference policy)**, фреймворк, который использует **Imitation Bootstrapped Reinforcement Learning (IBRL)** для обучения на основе демонстраций. Целью является уменьшение количества необходимых взаимодействий с окружением и повышение эффективности управления. ## Метод DRLR-фреймворк основывается на Imitation Bootstrapped Reinforcement Learning (IBRL), но включает улучшенный **action selection module**, который устраняет bootstrapping error, снижая неэффективность при взаимодействии с окружением. Это решение позволяет повысить эффективность обучения, а также использовать **Soft Actor-Critic (SAC)** в качестве главного RL-политики вместо TD3, что защищает систему от потери гибкости в первых этапах обучения. Этот подход позволяет избежать ситуаций, когда политика застревает в под-оптимальных решениях. ## Результаты В экспериментах использовались две задачи: загрузка бачка и открытие ящика. Эти задачи требуют многократных взаимодействий с окружением и позволяют проверить эффективность DRLR. Для сравнения, результаты показали, что DRLR эффективнее других подходов по многим показателям, включая скорость обучения и точность выполнения задач. Модель показала высокую гибкость при работе с различными размерами окружения и качествами демонстраций. Далее, для проверки реального применения, DRLR была применена на живой станции с колесным погрузчиком, и реальные результаты подтвердили, что DRLR может быть успешно развернута в промышленных задачах. ## Значимость DRLR-фреймворк может быть применен в различных областях, включая промышленную автоматизацию, складские управление, а также в задачи по управлению роботами в реальном времени. Основное преимущество заключается в снижении количества необходимых взаимодействий с окружением, что позволяет экономить время и ресурсы. Благодаря высокой точности и скорости обучения, DRLR может значительно повысить эффективность и гибкость в сложных роботизированных системах. ## Выводы В целом, DRLR показал себя как эффективный подход для обучения роботов с демонстрациями. Он уменьшает количество необходимых взаимодействий, повышает точность и гибкость, а также под

Annotation:

This paper proposes an exploration-efficient Deep Reinforcement Learning with Reference policy (DRLR) framework for learning robotics tasks that incorporates demonstrations. The DRLR framework is developed based on an algorithm called Imitation Bootstrapped Reinforcement Learning (IBRL). We propose to improve IBRL by modifying the action selection module. The proposed action selection module provides a calibrated Q-value, which mitigates the bootstrapping error that otherwise leads to inefficien...

ID: 2509.04069v1 cs.RO, cs.LG

arXiv PDF

📄 Balancing Signal and Variance: Adaptive Offline RL Post-Training for VLA Flow Models

2025-09-06

Авторы:

Hongyin Zhang, Shiyuan Zhang, Junxi Jin, Qixin Zeng, Yifan Qiao, Hongchao Lu, Donglin Wang

## Контекст Видение, языковая обработка и действия (VLA) — это модели, которые становятся все более важной частью искусственного интеллекта, особенно в области общего роботизированного манипулирования. Одним из основных вызовов этих моделей является поддержание высокой точности действий при работе с сложными задачами. Одним из ключевых факторов, влияющих на эту сложность, является то, что пост-тренировочные методы, основанные на имитации, не всегда удалось полностью учесть распределение свойств высокого качества данных. Это делает необходимым использование более гибких методов, которые могут оптимизировать распределение данных с ограниченным количеством подкреплением. Наше исследование ориентировано на разработку подхода, который бы сбалансировал подкрепление и стохастичность в моделях VLA, чтобы улучшить общую производительность моделей во время постобучения. ## Метод Мы предлагаем Adaptive Reinforced Flow Matching (ARFM) — метод, который адаптивно оптимизирует подкрепление в моделях VLA. Наш метод включает в себя алгоритм, который строит принципиальный биас-вариацият-объект, чтобы контролировать влияние подкрепления на форматирование модели. Мы используем адаптивный метод для регулирования веса распределения в зависимости от свойств качества данных. Основным элементом метода является регулирование вариации в точности модели, чтобы избежать переобучения в условиях слабых или сильных сигналов. Метод ARFM также включает в себя эффективную оценку производительности во время онлайн-файнтюнинга, чтобы обеспечить стабильность модели в разных условиях. ## Результаты Мы проводили эксперименты на основе различных синтетических и реальных данных, сравнивая ARFM с другими популярными подходами в области онлайн и оффлайн RL. Наши результаты показывают, что ARFM достигает высокой точности действий в тестовых задачах и демонстрирует лучший показатель общей производительности в ситуациях с несбалансированными данными. Также мы проводили симуляции для оценки работы модели в разных уровнях сложности и ситуаций с нестандартными потоками данных. Наши результаты показали, что ARFM значительно снижает разброс в результатах и повышает устойчивость модели во время постобучения. ## Значимость Метод ARFM может применяться в сложных задачах, где необходимо поддержание высокой точности действий в условиях нестабильных потоков данных. ARFM минимизирует влияние переменных данных на модель, что делает ее более гибкой и эффективной в различных применениях. Модель также показала способность к continuous learning, что делает ее привлекательной для применения в реальной среде, где возможны изменения сценариев

Annotation:

Vision-Language-Action (VLA) models based on flow matching have shown excellent performance in general-purpose robotic manipulation tasks. However, the action accuracy of these models on complex downstream tasks is unsatisfactory. One important reason is that these models rely solely on the post-training paradigm of imitation learning, which makes it difficult to have a deeper understanding of the distribution properties of data quality, which is exactly what Reinforcement Learning (RL) excels a...

ID: 2509.04063v1 cs.RO, cs.LG

arXiv PDF

📄 Constrained Decoding for Robotics Foundation Models

2025-09-05

Авторы:

Parv Kapoor, Akila Ganlath, Changliu Liu, Sebastian Scherer, Eunsuk Kang

## Контекст Роботические фундаментальные модели — это общероботные, нейронно-прикладные модели, основанные на крупных датасетах робототраекторий. Они обладают способностью обрабатывать многомодальные входные данные и выводить последовательность действий, которая сразу же реализуется в реальном мире. Это позволяет моделям обеспечивать универсальность поведения и перекрестную настройку всевозможных задач. Однако, несмотря на их удобство и широкое применение, эти модели остаются данныно-зависимыми. Они не имеют прямого представления о безопасности, точности или других ограничениях поведения. Эти недостатки могут привести к нежелательным или опасным действиям в реальных условиях. Мы предлагаем обходить этот недостаток, представив фреймворк констрейнд декодирования, который устанавливает ограничения на действия в динамических системах, применяя логические условия вида Signal Temporal Logic (STL). ## Метод Мы предлагаем расширенную архитектуру для декодирования, которая включает в себя функционал проверки действий в реальном времени на соответствие логическим ограничениям, заданным в STL. Метод не требует переучивания модели, а вместо этого использует готовый модельный фреймворк, добавив слой ограничений на выход. Мы предлагаем алгоритм, который реализует это ограничение в ходе вывода действий в реальном времени, используя оптимизационные техники. Это позволяет гарантировать, что выходной траектории не только эффективны, но и соответствуют требованиям безопасности и функциональности. Мы также поддерживаем агностизм к основной модели, что делает нашу технику легко пригодной для различных моделей. ## Результаты Мы проводили тщательную оценку нашей техники в рамках трех робототехнических моделей, основанных на фундаментальных моделях, работающих на основе пространственных и динамических задач. Мы показали, что наш метод может эффективно отфильтровать небезопасные действия, созданные моделью, при этом не приводя к потерям в производительности. Кроме того, мы продемонстрировали, что наша техника может быть использована для условного генерирования действий в зависимости от выполнения STL-условий. Эксперименты проводились на сложных, реальных данных, в том числе на задачах навигации в различных средах. Мы также разместили видео демонстраций на нашем сайте для демонстрации реальных применений. ## Значимость Наша работа вносит вклад в развитие универсальных роботоведчиков, которые могут применяться в различных сферах, где требуется безопасность и точность действий. Нашим фреймворком легко могут воспользоваться разработчики моделей для динамических систем, не требуя полного пере

Annotation:

Recent advances in the development of robotic foundation models have led to promising end-to-end and general-purpose capabilities in robotic systems. These models are pretrained on vast datasets of robot trajectories to process multi-modal inputs and directly output a sequence of action that the system then executes in the real world. Although this approach is attractive from the perspective of improved generalization across diverse tasks, these models are still data-driven and, therefore, lack ...

ID: 2509.01728v1 cs.RO, cs.LG, cs.LO

arXiv PDF

📄 Multi-Embodiment Locomotion at Scale with extreme Embodiment Randomization

2025-09-05

Авторы:

Nico Bohlinger, Jan Peters

## Контекст Исследование сосредоточено на развитии общей политики подвижности для многообразия легковушких роботов жесткого конструктива. Область задачи нейросетевых политик на уровне сенсорных-эффекторов (NN-POLA) включает в себя поиск эффективных решений для управления роботов с различными физическими характеристиками. Существующий подход сталкивается с рядом проблем, включая необходимость настройки политики для каждого конкретного робота, ограниченность в обработке ряда сенсорных и эффекторных параметров, а также невозможность достижения высокой нормализации между различными моделями. Мотивация заключается в развитии универсального подхода, который может работать с многообразием физических характеристик роботов без предварительной настройки. ## Метод Предлагаемая методология основывается на сочетании двух ключевых компонентов. Во-первых, использована усовершенствованная версия архитектуры URMAv1, которая включает в себя трехслойную рекуррентную нейронную сеть (GRU) с внедрением параметров эмбодимента. Во-вторых, разработана стратегия подвижности, основанная на подходе к курсиву (curriculum-based), которая позволяет обучаться в условиях сильной рандомизации морфологии робота. Эта стратегия отталкивается от прогресса в решении задач, чтобы гарантировать эффективное обучение в условиях высокой локальной рандомизации. Таким образом, архитектура и метод объединяются для обеспечения универсальной политики подвижности, которая может работать с множеством значительно различающихся морфологических характеристик роботов. ## Результаты Использовались 50 различных моделей легковушких роботов с различными физическими характеристиками. Набор используемых данных включал в себя обучающиеся и тестовые выборки, представляющие собой различные ситуации подвижности и ситуации с рандомизацией морфологии. Результаты показали, что политика подвижности может успешно управлять различными моделями без предварительной настройки. Также были проведены эксперименты с реальными роботами, включая humanoid-роботов и quadruped-роботов, продемонстрировав значительную надежность и точность управления в реальной среде. ## Значимость Предлагаемый подход имеет широкие области применения в сфере робототехники, в частности в управлении легковушким роботами. Он может быть применен в реальных ситуациях, где необходимо гибкое и точное управление роботами, необходимостью которых возникает в таких областях, как поиск-и-спасение, интеллектуальная автоматизация производств, и других. Выгодной особенностью является то,

Annotation:

We present a single, general locomotion policy trained on a diverse collection of 50 legged robots. By combining an improved embodiment-aware architecture (URMAv2) with a performance-based curriculum for extreme Embodiment Randomization, our policy learns to control millions of morphological variations. Our policy achieves zero-shot transfer to unseen real-world humanoid and quadruped robots.

ID: 2509.02815v1 cs.RO, cs.LG

arXiv PDF

1
2
9
10
11
12
13

Показано 101 - 110 из 125 записей