📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Manish Prajapat, Johannes Köhler, Melanie N. Zeilinger, Andreas Krause

## Контекст В современных системах автоматизированного управления, включая автомобильную автономную технику и дроны, поддержание баланса между достижением оптимального результата и обеспечением безопасности является ключевым заданием. Однако это становится сложнее в ситуациях, когда динамика системы неизвестна или плохо моделируется, что часто встречается в реальном мире. Традиционные методы, ориентированные на оптимальность, часто рискуют нарушением безопасности, в то время как методы, способствующие обеспечению безопасности, часто страдают от неэффективности в обучении или ограничений в производительности. Это сделало задачу безопасного обучения динамики системы открытой проблемой в области искусственного интеллекта и робототехники. Наша мотивация заключается в разработке фреймворка, который обеспечивает постоянную безопасность и максимально эффективное обучение динамик системы в реальном времени. ## Метод Мы предлагаем фреймворк, основанный на методе $\textit{pessimistically safe exploration}$ (пессимистическое безопасное обучение), который оптимистично исследует информативные состояния, при этом не достигая их из-за неопределенности модели. Данный подход обеспечивает непрерывное обучение динамик в режиме онлайн в процессе исполнения, не требуя запусков с нуля. Наша модель использует $\textit{probabilistic models}$ для оценки безопасности и динамик, а также $\textit{exploration strategy}$, которая максимизирует информационность каждого состояния при сохранении безопасности. Мы используем $\textit{Lyapunov-based approach}$ для моделирования безопасности и $\textit{finite-time convergence}$ теорем для гарантии достижения необходимой точности модели в квантифицированный промежуток времени. ## Результаты Мы проводим эксперименты в сложных сценариях, включая автомобильную гонку и летучую роботизированную технику, где безопасность является критически важной. Используя наши методы, мы показываем, что модель динамик может быть успешно изучена до установленного порога точности (с учетом шума) в ограниченном времени. Мы также показываем, что наш фреймворк позволяет максимизировать производительность (реализовав максимально возможный признак безопасности и баланса между безопасностью и производительностью), в то же время обеспечивая непрерывную безопасность во время обучения. Данные результаты по сравнению с традиционными методами RL (например, PPO или DDPG) показали значительное улучшение в безопасности и эффективности. ## Значимость Наш фреймворк имеет потенциал для широкого применения в реальном мире, включая автономную автомобильную технику,
Annotation:
Ensuring both optimality and safety is critical for the real-world deployment of agents, but becomes particularly challenging when the system dynamics are unknown. To address this problem, we introduce a notion of maximum safe dynamics learning via sufficient exploration in the space of safe policies. We propose a $\textit{pessimistically}$ safe framework that $\textit{optimistically}$ explores informative states and, despite not reaching them due to model uncertainty, ensures continuous online ...
ID: 2509.16650v1 eess.SY, cs.LG, cs.RO, cs.SY, math.DS, math.OC
Авторы:

Filip Bajraktari, Luke Bhan, Miroslav Krstic, Yuanyuan Shi

## Контекст Область исследования связана с интеллектуальным управлением систем, в которых возникают задержки в управлении. Такие системы встречаются в различных приложениях, таких как робототехника, авиация и системы саморегулирующегося регулирования. Задержки в управлении могут приводить к ухудшению производительности и даже к нестабильности системы. Одним из ключевых вопросов является достижение стабильности и эффективности управления в условиях существующих задержек. Наличие нескольких входов и различных задержек усложняет динамику системы, что делает её моделирование и компенсацию задержек высокоточным и сложным заданием. ## Метод Методология, предложенная в работе, основывается на преобразовании задачи компенсации задержек в управлении нелинейными системами с несколькими входами в задачу решения транспортного уравнения Лапласа. Для этого применяется подход, основанный на нейронных операторах, которые позволяют представить сложные нелинейные зависимости в виде дискретных операторов. Архитектура основывается на применении нейронных сетей с динамическим поведением для построения модели, которая корректно отражает неструктурированную динамику системы. Это позволяет преодолеть ограничения существующих методов, таких как неполная моделирования задержек и неточности в оценке нелинейных процессов. ## Результаты На основе предложенного подхода проводился экспериментальный анализ системы мобильного робота с несколькими входами и разными задержками. Для этих целей была применена модель, построенная на нейронных операторах, чтобы проверить её эффективность в условиях реальных задач. Эксперименты показали, что модель не только корректно компенсирует задержки, но и достигает высокой точности в предсказаниях динамики системы. Это продемонстрировано на примере мобильного робота, где компенсированная модель позволила более точно управлять роботом в условиях заданных задержек. ## Значимость Результаты данной работы имеют значительное значение для развития технологий управления нелинейными системами с разными задержками. Изложенный подход может быть применён в различных областях, включая робототехнику, автоматизированные системы и системы саморегулирующегося регулирования. Одним из основных преимуществ является улучшение точности и скорости управления системами, что приводит к избыточной производительности и большей надежности. Будущие исследования будут нацелены на расширение применения этого подхода к более сложным системам и дальнейшее улучшение моделей нейронных операторов для решения задач управления. ## Выводы Основные достижения этой работы заключаются в пре
Annotation:
In this work, we present the first stability results for approximate predictors in multi-input non-linear systems with distinct actuation delays. We show that if the predictor approximation satisfies a uniform (in time) error bound, semi-global practical stability is correspondingly achieved. For such approximators, the required uniform error bound depends on the desired region of attraction and the number of control inputs in the system. The result is achieved through transforming the delay int...
ID: 2509.17131v1 eess.SY, cs.LG, cs.RO, cs.SY, math.DS