📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Constraint-Aware Reinforcement Learning via Adaptive Action Scaling

2025-10-15

Авторы:

Murad Dawood, Usama Ahmed Siddiquie, Shahram Khorshidi, Maren Bennewitz

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Safe reinforcement learning (RL) seeks to mitigate unsafe behaviors that arise from exploration during training by reducing constraint violations while maintaining task performance. Existing approaches typically rely on a single policy to jointly optimize reward and safety, which can cause instability due to conflicting objectives, or they use external safety filters that override actions and require prior system knowledge. In this paper, we propose a modular cost-aware regulator that scales the...

ID: 2510.11491v1 cs.RO, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Stabilizing Humanoid Robot Trajectory Generation via Physics-Informed Learning and Control-Informed Steering

2025-10-01

Авторы:

Evelyn D'Elia, Paolo Maria Viceconte, Lorenzo Rapetti, Diego Ferigo, Giulio Romualdi, Giuseppe L'Erario, Raffaello Camoriano, Daniele Pucci

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent trends in humanoid robot control have successfully employed imitation learning to enable the learned generation of smooth, human-like trajectories from human data. While these approaches make more realistic motions possible, they are limited by the amount of available motion data, and do not incorporate prior knowledge about the physical laws governing the system and its interactions with the environment. Thus they may violate such laws, leading to divergent trajectories and sliding conta...

ID: 2509.24697v1 cs.RO, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Formal Safety Verification and Refinement for Generative Motion Planners via Certified Local Stabilization

2025-09-26

Авторы:

Devesh Nath, Haoran Yin, Glen Chou

## Контекст Генерирующие планировщики движения (Generative Motion Planners, GMP) — это новая стратегия для планирования движения, которая использует нейронные сети для генерирования планов движения в реальном времени. Они отличаются от традиционных алгоритмов планирования движения тем, что не зависят от явного представления окружающей среды, что делает их более гибкими и эффективными. Однако, несмотря на их выгоды, генерирующие планировщики движения сталкиваются с трудностями в проверке безопасности и динамической выполнимости их планов движения. Действительно, нейронные сети, используемые в таких планировщиках, содержат миллионы параметров, что делает их проверку сложнее. Это затрудняет их использование в реальных ситуациях, где безопасность и надежность являются критичными. Наша мотивация заключается в разработке метода, который позволит проверить безопасность и динамическую выполнимость генерирующих планировщиков движения без потери их выразительности. ## Метод Мы предлагаем метод для формальной проверки безопасности и рефинеймента генерирующих планировщиков движения с помощью стабилизированных локальных управлений. Мы стабилизируем выходные данные генерирующего планировщика движения с помощью небольшого нейронного управляющего модуля, который принимает в качестве входных данных сэмплы из выходов GMP. Затем мы применяем инструменты нейронной сетевой проверки (Neural Network Verification, NNV) для закрытого цикла динамики. Это позволяет получить достижимые множества, которые могут строго подтвердить безопасность закрытого цикла. Кроме того, управляющий модуль гарантирует динамическую выполнимость. Мы также создаем библиотеку стабилизированных генерирующих планировщиков движения, которая может быть использована в реальном времени. Этот подход позволяет имитировать дистрибуцию генерирующего планировщика движения в безопасных ситуациях, улучшая безопасность без необходимости переучивания. ## Результаты Мы используем наши методы для проверки стабильности и безопасности генерирующих планировщиков движения, включая такие алгоритмы, как Diffusion Models, Flow Matching и Vision-Language Models. Мы проводим эксперименты на симуляциях (земных роботов и квадрокоптерах) и на реальном оборудовании (двухходовом роботе). Наши результаты показывают, что наш подход улучшает безопасность и отвечает высоким стандартам динамической выполнимости, не теряя выразительности генерирующих планировщиков движения. ## Значимость Наш подход имеет широкие перспективы применения в сферах, где безопасность и надежность движения роботов играют критическую

Annotation:

We present a method for formal safety verification of learning-based generative motion planners. Generative motion planners (GMPs) offer advantages over traditional planners, but verifying the safety and dynamic feasibility of their outputs is difficult since neural network verification (NNV) tools scale only to a few hundred neurons, while GMPs often contain millions. To preserve GMP expressiveness while enabling verification, our key insight is to imitate the GMP by stabilizing references samp...

ID: 2509.19688v1 cs.RO, cs.LG, cs.SY, eess.SY, math.OC

arXiv PDF

📄 ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

2025-09-24

Авторы:

Bojan Derajić, Sebastian Bernhard, Wolfgang Hönig

## Контекст Современные автоматизированные системы, такие как роботы и автономные транспортные средства, требуют надежных методов управления для обеспечения безопасности и надежности. Control barrier functions (CBFs) широко применяются для решения задач безопасного управления в ситуациях, где существуют жесткие ограничения на состояние системы. Однако дизайн CBFs часто требует значительных усилий и является нетривиальной задачей. В этой работе авторы рассматривают проблему применения CBFs в частично наблюдаемых средах и применении их к решению задач, где необходимо учитывать дополнительные наблюдаемые параметры. Известно, что CBFs могут быть неэффективны в таких условиях, поэтому целью данной работы является разработка метода, обеспечивающего более точное учети этих факторов и повышающее безопасность системы. ## Метод В статье предлагается метод, основанный на Hamilton-Jacobi (HJ) reachability analysis, который позволяет приближенно определять максимально безопасные множества для системы. Для этого используется архитектура на основе hypernetwork, которая позволяет настраивать CBFs в зависимости от наблюдаемых параметров окружения. Эта архитектура допускает настройку в реальном времени на основе изменяющихся условий. Метод также включает новые технические решения для точного моделирования и оценки безопасных множеств в пространстве состояний. Эти решения основываются на свойствах HJ-функций, которые гарантируют, что предсказанные безопасные множества не будут пересекаться с ограничивающими условиями. ## Результаты Для проверки эффективности предлагаемого подхода проводились эксперименты в симуляторе и на реальном оборудовании. Были использованы данные из реальных ситуаций, включая работу с грунтовым роботом и квадрокоптером. В результате экспериментов, проведенных в симуляторе, был показан увеличение успешности системы в сравнении с традиционными CBFs. Также было продемонстрировано, что подход хорошо работает в условиях изменения окружения и применимости к неизвестным средам. Эксперименты на живом оборудовании подтвердили эти результаты, показав, что метод не только эффективен, но и может быть применен в реальных условиях, даже при ограниченной наличием информации. ## Значимость Предложенный подход может быть применен в различных областях, где необходимо обеспечить безопасность, включая автоматизированные системы, транспортные средства, а также системы с условиями высокой надежности. Одним из основных преимуществ является возможность учета дополнительных наблюдаемых параметров в модели, что позволяет значительно повысить безопасность и надежность. Этот подход также име

Annotation:

Control barrier functions (CBFs) have been demonstrated as an effective method for safety-critical control of autonomous systems. Although CBFs are simple to deploy, their design remains challenging, motivating the development of learning-based approaches. Yet, issues such as suboptimal safe sets, applicability in partially observable environments, and lack of rigorous safety guarantees persist. In this work, we propose observation-conditioned neural CBFs based on Hamilton-Jacobi (HJ) reachabili...

ID: 2509.16614v1 cs.RO, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Prepare Before You Act: Learning From Humans to Rearrange Initial States

2025-09-24

Авторы:

Yinlong Dai, Andre Keyser, Dylan P. Losey

## Контекст Imitation learning (IL) широко применяется для сложных манипулятивных задач, но сталкивается с ограничениями при работе с выходными данными, находящимися вне распределения обучающей выборки. Например, IL-политики неэффективны при работе с нестандартными начальными состояниями, такими как неожиданная позиция объекта или его полное или частичное окклюзирование. В таких ситуациях необходимы дополнительные демонстрации, чтобы IL-системы могли обеспечить высокую универсальность и надежность. Подобные ситуации часто встречаются в повседневной жизни: люди отрегулировывают окружающую среду для упрощения выполнения задачи. Например, вращают кружку для того, чтобы легче было захватить его, или двигают препятствие, чтобы получить доступ к цели. Мы предлагаем моделировать подобное поведение у роботов, чтобы они могли подготавливать окружение перед выполнением задачи. ## Метод Мы предлагаем ReSET — алгоритм, который автоматически редактирует сцену перед тем, как запустить политику IL. Решение включает следующие этапы: 1. **Диагностика нестандартного начального состояния**: Мы оцениваем, насколько состояние входит в распределение, задействуя task-agnostic human teleoperation data и action-agnostic human videos. 2. **Предсказание подходящих действий**: Мы моделируем действия, которые мог бы применить человек для переразмещения объектов и упрощения задачи. 3. **Реализация роботом**: Мы преобразуем предложенные действия в примитивы роботом, используя существующую модель политики IL. Эта стратегия позволяет сократить общее число демонстраций, необходимое для устойчивой и общительной работы. ## Результаты Мы проводили эксперименты на виртуальных и реальных сценах с различными задачами манипуляции. Результаты показывают, что ReSET позволяет улучшить универсальность и надежность IL-политик при одинаковом объеме обучающих данных. Мы сравнивали нашу модель с Diffusion Policies, VLAs и другими базовыми алгоритмами. В результате ReSET показала более высокую точность и большую устойчивость при выполнении задач в нестандартных начальных состояниях. ## Значимость Вычислительные эксперименты и практические исследования показали, что ReSET может быть применен в многочисленных манипулятивных задачах, включая домашние и промышленные сценарии. Основные преимущества: - Улучшенная универсальность IL-политик. - Относительно низкий затратный подход для достижения высокой надежности. - Увеличение гибкости в работе в условиях нестандартных начальных состояний. ## Выводы Мы представили ReSET — алгоритм, который мотивирует роботы воспроизводить роль человека в подготовке окружающей среды для упрощения задач. Наши теоретические

Annotation:

Imitation learning (IL) has proven effective across a wide range of manipulation tasks. However, IL policies often struggle when faced with out-of-distribution observations; for instance, when the target object is in a previously unseen position or occluded by other objects. In these cases, extensive demonstrations are needed for current IL methods to reach robust and generalizable behaviors. But when humans are faced with these sorts of atypical initial states, we often rearrange the environmen...

ID: 2509.18043v1 cs.RO, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Adaptive Model-Predictive Control of a Soft Continuum Robot Using a Physics-Informed Neural Network Based on Cosserat Rod Theory

2025-08-20

Авторы:

Johann Licher, Max Bartholdt, Henrik Krauss, Tim-Lukas Habich, Thomas Seel, Moritz Schappler

## Контекст Динамическое управление мягкими континуум-роботами (SCRs) представляет собой задачу высокой технологичности, которая может расширить их применения в различных областях, включая хирургию, роботизированные производства и поисковые операции. Однако этот вид управления связан с высокими вычислительными требованиями из-за необходимости точных динамических моделей, что требует больших вычислительных ресурсов. Несмотря на то, что существуют подходы, основанные на операторе Купмана, они часто не могут адаптироваться к изменениям среды и не полностью охватывают сложную модель робота. В данной работе предлагается решение, основанное на нейронных сетях и физически обоснованной теории Cosserat, для реализации эффективного управления SCRs с высокой скоростью и точностью. ## Метод Методология, предложенная в статье, основывается на сочетании нейросетевого подхода и физически обоснованной теории Cosserat. Используется доменно декомпозированная физически информированная нейронная сеть (DD-PINN), которая является суррогатом динамической модели Cosserat-рода и обеспечивает скорость работы на 44000 раз выше, чем динамическая модель. DD-PINN также используется для оценки состояний и степени кривизны робота на основе положения конечного элемента. Для реализации модели-предсказательного управления (MPC) применяется нелинейная эволюционная стратегия, которая работает в реальном времени на GPU с частотой 70 Гц. Это позволяет MPC адаптироваться к изменениям в задаче и сохранять точность в управлении. ## Результаты В экспериментах, проведенных в симуляционной и реальной среде, показано, что MPC, основанный на DD-PINN, достигает высокой точности в отслеживании динамических траекторий и управлении с направленными положениями. Точность контроллера достигает 3 мм (2,3% от длины активного узла) в симуляционной среде и показывает аналогичные результаты в реальном мире. Кроме того, робот показывает ускорение до 3,55 м/с², что демонстрирует эффективность и скорость работы системы. Это число значительно превышает требования для большинства приложений. ## Значимость Предложенная система может быть применена в различных областях, где требуется точное управление сложными мягкими системами, таких как хирургические роботы, трубные роботы и другие динамические системы. Основное преимущество заключается в том, что DD-PINN уменьшает вычислительные требования и обеспечивает реальностремя-контроль. Благодаря этому, применение SCRs может быть расширено на новые области, где высокая скорость и точность критичны. ## Выводы Результаты показывают, что предложенный подход является эф

Annotation:

Dynamic control of soft continuum robots (SCRs) holds great potential for expanding their applications, but remains a challenging problem due to the high computational demands of accurate dynamic models. While data-driven approaches like Koopman-operator-based methods have been proposed, they typically lack adaptability and cannot capture the full robot shape, limiting their applicability. This work introduces a real-time-capable nonlinear model-predictive control (MPC) framework for SCRs based ...

ID: 2508.12681v1 cs.RO, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Belief-Conditioned One-Step Diffusion: Real-Time Trajectory Planning with Just-Enough Sensing

2025-08-19

Авторы:

Gokul Puthumanaillam, Aditya Penumarti, Manav Vora, Paulo Padrao, Jose Fuentes, Leonardo Bobadilla, Jane Shin, Melkior Ornik

## Контекст Увеличение числа различных задач, с которыми сталкиваются роботы в реальном мире, приводит к появлению сложных проблем, связанных с энергоэффективностью и эффективностью динамической планирования маршрутов. Роботы, оснащенные разнообразными сенсорами, могут стабильно определять свое положение в полу-обнаруживаемых окружениях. Однако продолжительное включение всех сенсоров одновременно является не только энергоемким, но и неэффективным. Обычно используются методы, ориентированные на моделях, которые обрабатывают беззнаковые области, но они требуют постоянного включения сенсоров, что приводит к большим расходам. Исследователи пытаются разработать более эффективные методы, которые позволят роботам выполнять задачи с минимальным потреблением ресурсов. ## Метод Belief-Conditioned One-Step Diffusion (B-COD) — это планировщик, который способен в реальном времени выбирать минимальный набор сенсоров, необходимый для поддержания соответствующей расстояния позиционирования. Основная идея заключается в том, что данный планировщик способен вычислять расстояние до цели и прогнозировать распространение знаний о положении с помощью трех векторов: размера 10 метров, 10 миллисекунд и 10 терабайт. Метод использует распределенные сигналы, которые позволяют оптимизировать алгоритм для разных сценариев. Для улучшения достоверности решения используется метод прослойки размерности, который позволяет снизить количество вычислительных операций. ## Результаты Исследователи проверили систему на нескольких сценариях, в том числе на плавающих лодках в реальном времени. Отчеты обозначают, что B-COD способен уменьшить потребление энергии сенсоров на 50% в сравнении с базовыми методами. Оно показало способность точно определять местоположение без необходимости всегда включать все сенсоры. Кроме того, B-COD позволяет выделить лучший путь во время выполнения задачи, что делает его оптимальным в технических и энергетических аспектах. ## Значимость Этот подход может быть применен в различных областях, включая морские и авиационные операции, а также городские системы. Он позволяет экономить энергию, уменьшить время расчетов и обеспечить более точное навигационное положение. Благодаря своей гибкости, B-COD может быть усовершенствован для различных ситуаций и окружений, что делает его обширным инструментом для развития робототехники. ## Выводы Результаты исследований B-COD показывают, что этот метод может стать новой стандартной платформой для реального времени роботов, выполняющих точные задачи. Несмотря на то, что он уже демо

Annotation:

Robots equipped with rich sensor suites can localize reliably in partially-observable environments, but powering every sensor continuously is wasteful and often infeasible. Belief-space planners address this by propagating pose-belief covariance through analytic models and switching sensors heuristically--a brittle, runtime-expensive approach. Data-driven approaches--including diffusion models--learn multi-modal trajectories from demonstrations, but presuppose an accurate, always-on state estima...

ID: 2508.12166v1 cs.RO, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Aerobatic maneuvers in insect-scale flapping-wing aerial robots via deep-learned robust tube model predictive control

2025-08-09

Авторы:

Yi-Hsuan Hsiao, Andrea Tagliabue, Owen Matteson, Suhan Kim, Tong Zhao, Jonathan P. How, YuFeng Chen

## Контекст Летательные инсектоидные роботы, имитирующие поведение насекомых, широко используются в аэрокосмических и робототехнических исследованиях. Однако существуют значительные различия в их мобильности по сравнению с настоящими насекомыми. Насекомые способны выполнять впечатляющие маневры, такие как резкий тормоз, быстрые рефлексы и повороты, даже при воздействии внешних дисруптивных факторов. В то же время, инсектоидные роботы, особенно на масштабе инсектов, ограничены в их возможностях траектории и динамическими маневрами. Это связано с низким инерцией робота, быстрыми динамическими процессами, неоднородностью аэродинамических характеристик и восприимчивостью к внешним раздражителям. Для выполнения более сложных маневров необходимо создание агрессивных траекторий полета, которые подвергаются ограничениям железа, а также высокоточной динамической системы управления, учитывающей модельные и окружающие неопределенности. ## Метод Для достижения инсектоидной динамики и устойчивости в полете мы разработали модельный метод прогностического управления с глубоким обучением, который включает в себя контрмеры для устранения неопределенности. Мы использовали техники глубокого обучения для воспроизведения архитектуры управления насекомых, состоящей из центральной нервной системы и системы моторных нейронов. Для обеспечения высокой скорости реакции в реальном времени, необходимой для выполнения маневров, мы разрабатывали имитационное обучение для 2-уровневой полносвязной нейронной сети. Эта сеть моделирует функционал нервной системы насекомых, чтобы динамически реагировать на внешние воздействия. Мы также разработали методы управления трубным потоком, которые позволяют учитывать неопределенность в аэродинамических условиях и динамике робота. ## Результаты Мы провели эксперименты с полетным роботом, весом 750 миллиграмм, используя нашу модель управления. Маневры, которые мы смогли выполнить, включали резкие разгоны, быстрые повороты и 10 подряд выполненных поворотов в течение 11 секунд. Это представляет собой новую стандартную метрику для инсектоидных полётов. Мы также проверили устойчивость нашего робота под воздействием ветра с скоростью до 160 см/с и системными ошибками в генерации силы. Результаты показали, что наш робот выполняет маневры с увеличенной скоростью и ускорением, превышающими предыдущие показатели, в том числе 255% улучшение в ускорении и 447% в скорости. ## Значимость Наши работы открывают новые возмо

Annotation:

Aerial insects exhibit highly agile maneuvers such as sharp braking, saccades, and body flips under disturbance. In contrast, insect-scale aerial robots are limited to tracking non-aggressive trajectories with small body acceleration. This performance gap is contributed by a combination of low robot inertia, fast dynamics, uncertainty in flapping-wing aerodynamics, and high susceptibility to environmental disturbance. Executing highly dynamic maneuvers requires the generation of aggressive fligh...

ID: 2508.03043v1 cs.RO, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Residual Neural Terminal Constraint for MPC-based Collision Avoidance in Dynamic Environments

2025-08-09

Авторы:

Bojan Derajić, Mohamed-Khalil Bouzidi, Sebastian Bernhard, Wolfgang Hönig

## Контекст Планирование движения в динамических средах является ключевым задачей в робототехнике, автоматизированных системах и искусственном интеллекте. Одна из основных проблем в этой области — выживание и эффективное движение роботов в окружении движущихся объектов. Традиционные методы, основанные на моделях, часто сталкиваются с ограниченной точностью и реакцией на быстро меняющуюся среду. Задача заключается в разработке методов, которые обеспечат высокую точность и реакцию на изменения, сочетая в себе быстроту выполнения и эффективность. ## Метод Мы предлагаем гибридную локальную планировщик для моделирования движения (Model Predictive Control, MPC), который использует нейронные сети для оценки значения функции времени. Функция значения вычисляется с помощью анализа Хейвенда-Яки (HJ), но его реализация в реальном времени невозможна. Мы предлагаем структуру, где значение функции выражается как разность между сигнальным расстоянием (signed distance function, SDF) и негативной функцией резидента. Негативная функция резидента представляется в виде нейронной сети, которая гарантирует реальное время выполнения. Такая структура позволяет получить оценку значения функции, которая не менее безопасна, чем SDF. Мы также параметризуем нейронную сеть с помощью hypernetwork, чтобы увеличить скорость обучения и улучшить общие свойства. ## Результаты Мы провели эксперименты на симуляционных данных и на действительном оборудовании, сравнивая наш метод с тремя лучшими существующими методами. Результаты показывают, что наше решение позволяет повысить успешность задачи до 30% по сравнению с лучшим базовым методом. Наши результаты показали хорошую эффективность в реальном времени, не требуя значительного дополнительного ресурса. Это делает наш метод применимым в реальных ситуациях, где необходима быстрая реакция на изменения среды. ## Значимость Метод может быть применен в различных сферах, включая автомобильную индустрию, летательные аппараты, роботы-охотники в трудных условиях. В отличие от традиционных методов, наше решение обеспечивает высокую скорость и высокое качество решения задачи движения. Это делает его полезным для ситуаций, где необходима быстрая реакция на изменения окружения. Мы также отмечаем, что параметризация сети через hypernetwork может быть отправной точкой для дальнейших исследований в области улучшения скорости и точности планирования. ## Выводы Мы разработали новую модель MPC, которая использует нейронные сети для эффективного расчета значения функции времени в динамических средах. Это решение показало себя эффектив

Annotation:

In this paper, we propose a hybrid MPC local planner that uses a learning-based approximation of a time-varying safe set, derived from local observations and applied as the MPC terminal constraint. This set can be represented as a zero-superlevel set of the value function computed via Hamilton-Jacobi (HJ) reachability analysis, which is infeasible in real-time. We exploit the property that the HJ value function can be expressed as a difference of the corresponding signed distance function (SDF) ...

ID: 2508.03428v1 cs.RO, cs.LG, cs.SY, eess.SY

arXiv PDF