📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Gawon Lee, Daesol Cho, H. Jin Kim
## Контекст
Multi-task reinforcement learning (MTRL) является прорывом в области обучения с подкреплением (reinforcement learning, RL), позволяющим агентам эффективнее учиться нескольким задачам одновременно. Эта методика применима в различных областях, включая робототехнику и искусственный интеллект. Однако применение MTRL к робототехническим задачам сталкивается с рядом сложностей. В частности, сбор разнообразных данных для обучения становится дорогостоящим и сложным. Избыточная зависимость от большого объема данных снижает эффективность и масштабируемость системы. В этом контексте возникает потребность в новых методах, которые могут улучшить семпловую эффективность и устойчивость моделей MTRL в робототехнике.
## Метод
Разработанная модель, названа **MT-L\'evy**, представляет собой новую подход к эффективному исследованию пространства состояний в MTRL. Основной идеей является комбинация **behavior sharing** (совместного использования поведения между задачами) и **temporally extended exploration** (расширенное исследование в течение временных отрезков). Это достигается при помощи политик, обученных на похожих задачах, которые направляют эксплуатацию к ключевым состояниям. Динамическая настройка уровня исследования основывается на **task success ratios** (успешности выполнения задач). Таким образом, MT-L\'evy обеспечивает более гибкое и эффективное исследование пространства состояний, даже в сложных робототехнических средах.
## Результаты
Исследования проводились в средах робототехники, где необходимо было эффективно обучить агента к различным задачам. Для экспериментов использовались различные наборы данных, охватывающие разные уровни сложности и разнообразия задач. Результаты показали, что MT-L\'evy показал значительное улучшение в **sample efficiency** (эффективности использования данных) и **exploration** (исследование пространства состояний). Количественные показатели, такие как reward accumulation (сбор наград) и success rate (успешность выполнения задач), подтвердили эффективность данного подхода. Кроме того, полученные результаты были подкреплены квалитативными анализами, демонстрирующими более эффективное использование пространства состояний в сравнении с существующими методами.
## Значимость
Модель MT-L\'evy может быть применена в различных областях, включая робототехнику, искусственный интеллект и системы управления. Основные преимущества заключаются в улучшенной **sample efficiency**, увеличенной **exploration efficiency** и мощности в обработке сложных задач. Влияние этого подхода может быть особенно ощутимо в ситуациях, где данных для обучения ограничено, но требуется высокая эффективность и устойчивость. Такие результаты открывают путь к более эффе
Annotation:
Multi-task reinforcement learning (MTRL) offers a promising approach to
improve sample efficiency and generalization by training agents across multiple
tasks, enabling knowledge sharing between them. However, applying MTRL to
robotics remains challenging due to the high cost of collecting diverse task
data. To address this, we propose MT-L\'evy, a novel exploration strategy that
enhances sample efficiency in MTRL environments by combining behavior sharing
across tasks with temporally extended ex...
Авторы:
Mahya Ramezani, M. Amin Alandihallaj, Barış Can Yalçın, Miguel Angel Olivares Mendez, Holger Voos
## Контекст
Автоматическая система контроля и дизайн спутниковых технологий становятся все более важными в области аэрокосмических исследований. Одной из самых вызовов при автоматизации спутникового управления является управление во время причаливания (др. docking) в условиях микрогравитации. Традиционный подход сталкивается с рядом проблем, в частности, динамикой топливного слабостьевания (fuel sloshing). Это процесс, при котором топливо, находящееся в движении внутри ёмкости, создает непредсказуемые вращательные моменты, что вызывает вибрации и ухудшает стабильность спутника. Разработка эффективных методов управления при причаливании становится критически важной для функционирования на-орбитных услуг, таких как ремонт и пополнение топлива. Этот работа посвящена разработке интегрированного подхода, который объединяет глубинное обучение с подкреплением (deep reinforcement learning, DRL) и моделирующий контроль (model predictive control, MPC) для решения проблемы топливного слабостьевания.
## Метод
Предлагаемый подход основывается на интеграции двух различных подходов к управлению: глубинного обучения с подкреплением (DRL) и моделирующего контроля (MPC). Глубинное обучение с подкреплением обеспечивает выполнение задачи в реальном времени и оптимизацию динамического поведения системы. Моделирующий контроль, с другой стороны, обеспечивает точное управление силовыми действиями, которые влияют на движение спутника. Метод PPO и SAC, в частности, используется для улучшения обучения DRL, в то время как MPC применяется для управления точной внедрения силы в систему. Архитектура представляет собой пространственную модель системы, включая динамику топливного слабостьевания, а также математическое описание управляющих сил, которые могут быть применены для управления движением.
## Результаты
Для симуляции проводились эксперименты как в условиях микрогравитации, так и в нормальных условиях. Для этого использовалась платформа Zero-G Lab of SnT для планарного стабилизации и высокоточных цифровых моделей для 6-DOF docking с динамикой топливного слабостьевания. Результаты показали, что интегрированный подход, который использует SAC-MPC, превосходит отдельные DRL-методы, такие как PPO и SAC, а также MPC-методы в сочетании. Наблюдалось улучшение точности причаливания, увеличение успешности действий и сокращение потребления топлива. Это свидетельствует о высокой эффективности интегрированного подхода в решении проблемы топливного слабостьевания.
## Значимость
Предлагаемый подход может быть использован в различных областях, включая на-орбитные услуги, такие как на-орбитное пополнение топлива
Annotation:
This paper presents an integrated Reinforcement Learning (RL) and Model
Predictive Control (MPC) framework for autonomous satellite docking with a
partially filled fuel tank. Traditional docking control faces challenges due to
fuel sloshing in microgravity, which induces unpredictable forces affecting
stability. To address this, we integrate Proximal Policy Optimization (PPO) and
Soft Actor-Critic (SAC) RL algorithms with MPC, leveraging MPC's predictive
capabilities to accelerate RL training an...
Авторы:
Luis Augenstein, Noémie Jaquier, Tamim Asfour, Leonel Rozo
## Контекст
Генерация динамичных движений для роботов, нацеленных на поддержку человеческих техник, является актуальной областью исследований в широкой области робототехники и искусственного интеллекта. Одной из основных проблем в данном домене является то, что существующие модели часто игнорируют биомеханические и структурные аспекты при генерации движений. Это приводит к разрыву между наблюдаемыми движениями и их природой. Аннотированные телом научных работ категорий движений часто остаются неиспользованными в моделях, что существенно снижает качество генерируемых последовательностей движений. Наша мотивация заключается в том, чтобы разработать модель, которая не только учитывала бы структурные особенности движений, но и их геометрические и динамические свойства.
## Метод
Мы предлагаем **GPHDM (Gaussian Process Hyperbolic Dynamics Model)** — модель, которая учитывает иерархическую структуру движений в сочетании с их временными характеристиками. Главная идея заключается в расширении **Gaussian Process Dynamical Model (GPDM)** на **гиперболическую маннифольду**, которая хорошо подходит для представления структуры изоморфных структур. Мы также интегрировали **аксиомы тектоноский**, чтобы сохранить геометрические связи между движениями, связанными с их биомеханическими характеристиками. Модель учится в задаче динамической рекурсии вида "известный движение — подвижение-детиллированные проекции", что позволяет генерировать новые движения учитывая их структуру и физическую консистентность.
## Результаты
Мы провели эксперименты, используя тренировочные данные из набора **hand grasping taxonomy**, который включал различные типы жесткости и ориентаций рук. Наши результаты показали, что **GPHDM** может точно генерировать движения, сохраняя их физическую консистентность и структурную наследованность. Мы сравнили нашу модель с **GPDM** и другими подходами, и убедились, что **GPHDM** демонстрирует значительное улучшение качества генерируемых последовательностей. Мы также проверяли возможность модели генерировать новые движения с новыми категориями жесткости, которые не были представлены в обучающих данных, и продемонстрировали ее гибкость.
## Значимость
Наш подход имеет широкое применение в робототехнике, в особенности в области интерактивных роботов, где генерируемые движения должны быть как физически консистентными, так и интуитивно понятными для пользователей. Наши результаты показали, что **GPHDM** может быть применен для генерирования движений в таких областях, как **логистика**, **медицина** и **робот-компаньон**. Данная модель позволяет улучшить качество движений, уменьшить моделируемые о
Annotation:
Human-like motion generation for robots often draws inspiration from
biomechanical studies, which often categorize complex human motions into
hierarchical taxonomies. While these taxonomies provide rich structural
information about how movements relate to one another, this information is
frequently overlooked in motion generation models, leading to a disconnect
between the generated motions and their underlying hierarchical structure. This
paper introduces the \ac{gphdm}, a novel approach that l...
Авторы:
Noriaki Hirose, Catherine Glossop, Dhruv Shah, Sergey Levine
#### Контекст
Построение надежных систем для навигации роботов является ключевым заданием в области автоматизации и робототехники. Одним из основных трудностей является то, что роботы должны интерпретировать различные типы входных данных, таких как естественноязыковые инструкции, эгеоцентрические изображения и координаты в пространстве, чтобы безопасно и эффективно перемещаться в различных средах. Существующие подходы часто ограничиваются одной модальностью ввода, что приводит к ограниченной гибкости и плохой общности в решении разнообразных проблем навигации. Наша мотивация заключается в развитии одной модели, которая могла бы обрабатывать различные модальности и гибко реагировать на новые потребности.
#### Метод
Мы предлагаем представление целей навигации, которое объединяет несколько модальностей в одном фреймворке. Наша модель, OmniVLA, основана на глубокой архитектуре Vision-Language-Action (VLA), которая объединяет в себе возможности обработки изображений, естественного языка и координатных данных. Мы используем стратегию случайной слияния модальностей, чтобы обучить модель к устойчивости в работе с различными видами входных данных. Эта модель выполняет различные задачи навигации, используя синергетические представления из нескольких модальностей, что увеличивает её гибкость и точность.
#### Результаты
Мы проверяли OmniVLA на нескольких тестовых средах, где робот должен был выполнить задачи навигации на основе различных модальных входных данных. Модель показала высокую точность и устойчивость в ситуациях, когда одна или несколько модальностей отсутствовали. Например, модель могла выполнять задачи по инструкциям на естественном языке, даже в ситуациях, когда изображения и координаты были недоступны. Она также показала значительное улучшение в сравнении с существующими моделями, которые оперировали только одной модальностью.
#### Значимость
OmniVLA может применяться в различных сценариях, таких как автономная доставка, домашняя автоматизация и промышленная робототехника. Её гибкость и общность позволяют использовать одну модель для множества различных задач, что экономит ресурсы на обучении и конфигурации. Одним из основных преимуществ является возможность расширения модели для новых модальностей и задач, что делает её привлекательной для развития систем, которые требуют высокой гибкости и подстройки под конкретные задачи.
#### Выводы
Мы представили OmniVLA, модель, которая объединяет в себе несколько модальностей для навигации роботов. Она обеспечивает улучшенную общность, гибкость и устойчивость в сравнении с существующими подходами. Наша работа
Annotation:
Humans can flexibly interpret and compose different goal specifications, such
as language instructions, spatial coordinates, or visual references, when
navigating to a destination. In contrast, most existing robotic navigation
policies are trained on a single modality, limiting their adaptability to
real-world scenarios where different forms of goal specification are natural
and complementary. In this work, we present a training framework for robotic
foundation models that enables omni-modal goa...
Авторы:
Sankalp Agrawal, Junwon Seo, Kensuke Nakamura, Ran Tian, Andrea Bajcsy
## Контекст
В последние годы становится все более очевидным, что безопасность роботов и автономных систем требует новых подходов, которые могут адаптироваться в реальном времени к различным условиям. Одним из ключевых аспектов является возможность контроля безопасности в сложных визуальных задачах, где определение безопасности не всегда может быть точно задано заранее. Этот фактор ограничивает применение методов, таких как Hamilton-Jacobi (HJ) reachability analysis, в области визуальных задач, так как эти методы требуют явного определения безопасности в момент разработки. Целью данной работы является развитие методов, позволяющих адаптировать безопасность в реальном времени, учитывая различные пользовательские задачи и условия окружения.
## Метод
Мы предлагаем **AnySafe: Adapting Latent Safety Filters at Runtime via Safety Constraint Parameterization in the Latent Space**, который является новым подходом к адаптивному управлению в задачах визуального контроля. Основная техническая идея заключается в том, чтобы определить безопасность в задаче управления, используя кодировку изображения, представляющего конкретный критерий безопасности. Для этого мы используем метод **latent-space similarity measure**, который позволяет объединить безопасность и пользовательский запрос в виде изображения. Для контроля "близости к сбою" мы применяем **conformal calibration**, чтобы гарантировать что система может близко подойти к пороговой безопасности, но не превысить его. Наша методика предусматривает тренировку безопасности внутри **world model's imagination**, что делает ее возможной для применения в любых визуальных задачах.
## Результаты
Мы проверили эффективность нашего метода в симуляционных и аппаратных экспериментах с использованием робота **Franka manipulator** в задачах визуального контроля. В экспериментах показано, что наша методика может адаптироваться к разным пользовательским задачам, изменяя безопасность в реальном времени. Мы проводили эксперименты с разными представлениями безопасности в качестве запроса (например, изображения с границами, которые не должны быть преодолены) и показали, что **AnySafe** может адаптироваться к этим изменениям безопасности без потери качества. Также, мы провели анализ того, как работает **conformal calibration** и показали, что она позволяет контролировать "близость к сбою", уменьшая риск нарушения безопасности.
## Значимость
Наш метод можно применять в различных сценариях, где визуальное управление требует быстрого адаптирования к разным условиям. Он может использоваться в задачах, где требуется контроль безопасности в реальном времени в сложных визуальных средах, таких как визуальное слежение за объектами, автономные транспортные системы, и други
Annotation:
Recent works have shown that foundational safe control methods, such as
Hamilton-Jacobi (HJ) reachability analysis, can be applied in the latent space
of world models. While this enables the synthesis of latent safety filters for
hard-to-model vision-based tasks, they assume that the safety constraint is
known a priori and remains fixed during deployment, limiting the safety
filter's adaptability across scenarios. To address this, we propose
constraint-parameterized latent safety filters that ca...
Авторы:
Devesh Nath, Haoran Yin, Glen Chou
## Контекст
Генерирующие планировщики движения (Generative Motion Planners, GMP) — это новая стратегия для планирования движения, которая использует нейронные сети для генерирования планов движения в реальном времени. Они отличаются от традиционных алгоритмов планирования движения тем, что не зависят от явного представления окружающей среды, что делает их более гибкими и эффективными. Однако, несмотря на их выгоды, генерирующие планировщики движения сталкиваются с трудностями в проверке безопасности и динамической выполнимости их планов движения. Действительно, нейронные сети, используемые в таких планировщиках, содержат миллионы параметров, что делает их проверку сложнее. Это затрудняет их использование в реальных ситуациях, где безопасность и надежность являются критичными. Наша мотивация заключается в разработке метода, который позволит проверить безопасность и динамическую выполнимость генерирующих планировщиков движения без потери их выразительности.
## Метод
Мы предлагаем метод для формальной проверки безопасности и рефинеймента генерирующих планировщиков движения с помощью стабилизированных локальных управлений. Мы стабилизируем выходные данные генерирующего планировщика движения с помощью небольшого нейронного управляющего модуля, который принимает в качестве входных данных сэмплы из выходов GMP. Затем мы применяем инструменты нейронной сетевой проверки (Neural Network Verification, NNV) для закрытого цикла динамики. Это позволяет получить достижимые множества, которые могут строго подтвердить безопасность закрытого цикла. Кроме того, управляющий модуль гарантирует динамическую выполнимость. Мы также создаем библиотеку стабилизированных генерирующих планировщиков движения, которая может быть использована в реальном времени. Этот подход позволяет имитировать дистрибуцию генерирующего планировщика движения в безопасных ситуациях, улучшая безопасность без необходимости переучивания.
## Результаты
Мы используем наши методы для проверки стабильности и безопасности генерирующих планировщиков движения, включая такие алгоритмы, как Diffusion Models, Flow Matching и Vision-Language Models. Мы проводим эксперименты на симуляциях (земных роботов и квадрокоптерах) и на реальном оборудовании (двухходовом роботе). Наши результаты показывают, что наш подход улучшает безопасность и отвечает высоким стандартам динамической выполнимости, не теряя выразительности генерирующих планировщиков движения.
## Значимость
Наш подход имеет широкие перспективы применения в сферах, где безопасность и надежность движения роботов играют критическую
Annotation:
We present a method for formal safety verification of learning-based
generative motion planners. Generative motion planners (GMPs) offer advantages
over traditional planners, but verifying the safety and dynamic feasibility of
their outputs is difficult since neural network verification (NNV) tools scale
only to a few hundred neurons, while GMPs often contain millions. To preserve
GMP expressiveness while enabling verification, our key insight is to imitate
the GMP by stabilizing references samp...
Авторы:
Jannick van Buuren, Roberto Giglio, Loris Roveda, Luka Peternel
## Контекст
Роботические системы, основанные на утилизации методов машинного обучения, возникают в более широких сферах применения. Одна из важных проблем в данной области — обеспечение диверсификации роботов в своих технических возможностях, чтобы они могли выполнять разнообразные задачи. Одним из перспективных подходов является использование методик машинного обучения с наградой (Reinforcement Learning, RL), но при этом возникают проблемы с синтезом многообразия стратегий и устойчивостью при обучении. Данная работа рассматривает способы стимулирования роботов к формированию разнообразных способностей в задаче полива жидкости, чтобы сделать их более универсальными и гибкими.
## Метод
Для стимулирования роботов к разнообразию способностей в рамках задачи полива жидкости разработана новая методика для мутации награды в RL. Использовалась модель награды, основанная на компромиссе между точностью, временем и усилиями. Мутация награды происходила применением гауссовского шума к весам различных термов модели. Эта методика была реализована в симуляционной среде NVIDIA Isaac Sim. Робот — Франка Эмика Панда — был использован для выполнения задачи полива жидкости из стакана в контейнер. Основной роботоводящий алгоритм — Proximal Policy Optimization. Для поиска разнообразия в роботоводущих стратегиях был проведен исследовательский эксперимент, в котором изменялись веса награды в модели для формирования различных поведенческих политик.
## Результаты
В результате исследования было показано, что различные конфигурации весов в модели награды приводят к появлению разнообразных поведенческих политик. Например, робот может не только выполнять основную задачу полива, но и выполнять дополнительные задачи, такие как подчистка края контейнера, перемешивание жидкости или полив. Полученные результаты демонстрируют широкий спектр роботоводящих стратегий, которые могут быть полезны в различных условиях. Эта методика демонстрирует потенциал для повышения гибкости роботов в выполнении задач в различных условиях.
## Значимость
Развитие роботов, способных изучать разнообразные способности в задачах, может привести к созданию более универсальных и адаптивных систем. Этот подход может быть применен в сферах, где необходимо выполнение различных ролей и задач, например, в автоматизации производственных процессов или в сфере роботов-помощников. Данный подход также может способствовать улучшению удобства и надежности роботов в работе с людьми.
## Выводы
Исследование показало, что мутация награды в RL может быть эффективной методикой для получения разнообразных способностей у роботов в задачах полива
Annotation:
This paper explores how deliberate mutations of reward function in
reinforcement learning can produce diversified skill variations in robotic
manipulation tasks, examined with a liquid pouring use case. To this end, we
developed a new reward function mutation framework that is based on applying
Gaussian noise to the weights of the different terms in the reward function.
Inspired by the cost-benefit tradeoff model from human motor control, we
designed the reward function with the following key te...
Авторы:
Ziyi Xu, Haohong Lin, Shiqi Liu, Ding Zhao
## Контекст
Роботическая сборка является ключевым заданием в поиске общих решений для роботов, особенно в контактно-богатых ситуациях. Это задача требует точного взаимодействия между составляющими, а также высокой точности управления. Наиболее распространенный подход предполагает два уровня: высокоуровневый планирований и низкоуровневый контроль. Однако на практике реализация такого подхода становится сложной из-за несоответствия между высокоуровневым управлением и точным выполнением. Это приводит к проблемам в сбалансированном управлении, в том числе в работе с неопределенностями данных в реальном времени. Мы предлагаем Query-Centric Diffusion Policy (QDP), современный подход к решению этой проблемы, который объединяет высокоуровневое планирование с низкоуровневым управлением.
## Метод
QDP — это достижение в области робототехники, которое работает на основе диффузионной модели. Оно включает в себя несколько этапов:
1. **Запрос-центричная структура**: QDP определяет требуемые действия, опираясь на запросы, в которых включены объекты, точки контакта и типы действий.
2. **Диффузионная модель**: Эта модель обнаруживает затрудненные области в задаче и учитывает их при выполнении.
3. **Обработка точечных облаков**: QDP использует точечные облака для улучшения точности и устойчивости.
Эта методология позволяет оптимизировать способность робота к точному выполнению задач, даже в условиях нестандартных условий.
## Результаты
Наши эксперименты проводились на двух уровнях: в симуляционной среде и на реальном роботе. Мы использовали данные из FurnitureBench, чтобы оценить качество управления в сложных задачах, таких как вставка и затяжка винтов. Результаты показывают, что QDP превышает базовые модели на 50% в сборе точных действий и увеличивает успешность в долгосрочных задачах. Особенно выдающимися результатами она демонстрируется в сложных задачах, где требуется точность в управлении.
## Значимость
Мы видим приложение QDP в области промышленного робототехнического управления, где необходима высокая точность и устойчивость. Метод может применяться в многообразных сферах, включая роботическую сборку и управление сложными системами. QDP демонстрирует повышение эффективности и надежности, что может привести к значительным преимуществам в промышленных приложениях.
## Выводы
Результаты QDP отличаются повышенной точностью и устойчивостью в сборочных задачах. Мы планируем продолжить исследования в области улучшения точности и быстродействия, а также расширить применение QDP в реальных роботических системах.
Annotation:
The robotic assembly task poses a key challenge in building generalist robots
due to the intrinsic complexity of part interactions and the sensitivity to
noise perturbations in contact-rich settings. The assembly agent is typically
designed in a hierarchical manner: high-level multi-part reasoning and
low-level precise control. However, implementing such a hierarchical policy is
challenging in practice due to the mismatch between high-level skill queries
and low-level execution. To address this,...
Авторы:
Masato Kobayashi, Thanpimon Buamanee
## Контекст
Существующие подходы к контролю роботов через бинарь контроля и имитационное обучение часто ограничиваются одной задачей, требуя специально настроенных моделей для каждой. Это ограничение сдерживает универсальность и эффективность таких систем. Одновременно, развитие технологий видения и естественного языка предоставляет возможность использовать визуальные сигналы и естественно языковые команды для улучшения точности и гибкости контроля. Наша модель Bi-VLA, используя новый подход к контролю, расширяет бинарный контроль, объединяя визуальные и естественно-языковые сигналы для более универсального и продуктивного обучения.
## Метод
Bi-VLA использует методы бинарного контроля с визуальными и естественно-языковыми сигналами для обучения. Модель основывается на технике bilateral control, в которой jointovyj angle, velocity, torque, и визуальные данные объединяются с текстовыми изображениями в формате естественного языка. Для обработки и объединения этих сигналов, мы применяем SigLIP и FiLM-based fusion, которые позволяют модели учиться на нескольких задачах в пределах одной модели. Этот подход решает проблему task-specific models в существующих методах, повышая универсальность и эффективность модели.
## Результаты
Мы проверили Bi-VLA на двух типах задач: одна, требующая визуальных и естественно-языковых сигналов для точного выполнения, и другая, где визуальные сигналы были основными источниками данных. Наши эксперименты на реальных роботах показали, что Bi-VLA не только улучшила точность выполнения задач, но и повысила успешность задач в сравнении с конвенциональными методами контроля. Особенно выделилось увеличение разнообразия задач, которые модель может обрабатывать внутри одной системы.
## Значимость
Bi-VLA может применяться в различных областях, включая автоматизацию, медицину, и рабочие процессы в производстве, где требуется универсальный и точный контроль. Эта модель предоставляет не только улучшение точности, но и простоту в изучении или реализации новых задач. Наш подход обогащает данные, позволяя роботу быть более гибким и реагировать на разнообразные ситуации, что делает его более эффективным в реальном мире.
## Выводы
Мы ставили цель расширить технику контроля при помощи видения и естественного языка, и наши результаты показывают, что это может быть эффективным в различных ситуациях. В будущих исследованиях мы планируем расширить модель для более сложных задач, используя реальные данные и методы обучения. Это может вводить новые возможности в области контроля роботов, способствуя развитию универсальных и производительных систем управления
Annotation:
We propose Bilateral Control-Based Imitation Learning via Vision-Language
Fusion for Action Generation (Bi-VLA), a novel framework that extends bilateral
control-based imitation learning to handle more than one task within a single
model. Conventional bilateral control methods exploit joint angle, velocity,
torque, and vision for precise manipulation but require task-specific models,
limiting their generality. Bi-VLA overcomes this limitation by utilizing robot
joint angle, velocity, and torque ...
Авторы:
Lars Ankile, Zhenyu Jiang, Rocky Duan, Guanya Shi, Pieter Abbeel, Anusha Nagabandi
## Контекст
Модели визуальной копирования (Behavior Cloning, BC) позволяют эффективно обучать политики визуального управления, опираясь на данные от демонстраций людей. Однако у них существуют ряд ограничений: зависимость от качества исходных демонстраций, высокая сложность сбора данных, ограниченность возможностей значительного увеличения обучающего корпуса. Напротив, усиление имитации (Reinforcement Learning, RL) демонстрирует выдающиеся результаты в условиях универсального обучения через интерактивную среда обучения. Однако тренировка RL-политик непосредственно на настоящих роботах чрезвычайно сложна из-за высокого потребления образцов, высокого риска безопасности и трудности научиться в задачах с небольшими наградами на протяжении долгого времени, особенно для систем с большим числом степеней свободы (DoF). Наша работа предлагает способ объединить преимущества BC и RL, используя фреймворм резидентного обучения (residual learning). Мы применяем научные подходы не только в симуляционных средах, но и в реальном мире, в том числе для тренировки политик на роботах-антропоидах с многоступенчатыми системами движения.
## Метод
Мы предлагаем развитие фреймворма смешанного обучения (hybrid learning), который использует BC-политики в качестве черного ящика и добавляет вычислительно эффективные корректировки через RL в оффлоадном режиме. Метод основывается на том, что BC-политики оптимизируют демонстрируемые траектории, а RL-политики корректируют их в процессе движения. Мы пользуемся реализацией методов офф-поли RL с резидентными корректировками, что позволяет избежать требования к большому количеству наградных сигналов и уменьшать размер памяти, необходимый для хранения данных. Это подходящее решение для долгосрочных задач на роботах с высоким числом степеней свободы, таких как роботы с руками-дикторами.
## Результаты
Мы провели эксперименты в симуляционной среде и на реальных роботах, в том числе на роботе-антропоиде с дексерными руками. Наши эксперименты подтверждают, что наш метод позволяет существенно улучшить результаты BC-политик. Мы применили нашу модель к задачам визуального управления, включая ловлю предметов, и получили результаты, которые превосходят многие аналогичные работы. Наш метод успешно работает в реальном мире, в том числе с участием робота-антропоида, и показывает, что RL может быть эффективно применено в реальных условиях, включая роботов с высокой степенью свободы.
## Значимость
Метод, примененный в нашей работе, демонстрирует широкие возможности для применения в сферах, где необходимы решения для визуального контроля, включая визуальную задачу лов
Annotation:
Recent advances in behavior cloning (BC) have enabled impressive visuomotor
control policies. However, these approaches are limited by the quality of human
demonstrations, the manual effort required for data collection, and the
diminishing returns from increasing offline data. In comparison, reinforcement
learning (RL) trains an agent through autonomous interaction with the
environment and has shown remarkable success in various domains. Still,
training RL policies directly on real-world robots ...
Показано 81 -
90
из 125 записей