Safe Guaranteed Dynamics Exploration with Probabilistic Models
2509.16650v1
eess.SY, cs.LG, cs.RO, cs.SY, math.DS, math.OC
2025-09-24
Авторы:
Manish Prajapat, Johannes Köhler, Melanie N. Zeilinger, Andreas Krause
Резюме на русском
## Контекст
В современных системах автоматизированного управления, включая автомобильную автономную технику и дроны, поддержание баланса между достижением оптимального результата и обеспечением безопасности является ключевым заданием. Однако это становится сложнее в ситуациях, когда динамика системы неизвестна или плохо моделируется, что часто встречается в реальном мире. Традиционные методы, ориентированные на оптимальность, часто рискуют нарушением безопасности, в то время как методы, способствующие обеспечению безопасности, часто страдают от неэффективности в обучении или ограничений в производительности. Это сделало задачу безопасного обучения динамики системы открытой проблемой в области искусственного интеллекта и робототехники. Наша мотивация заключается в разработке фреймворка, который обеспечивает постоянную безопасность и максимально эффективное обучение динамик системы в реальном времени.
## Метод
Мы предлагаем фреймворк, основанный на методе $\textit{pessimistically safe exploration}$ (пессимистическое безопасное обучение), который оптимистично исследует информативные состояния, при этом не достигая их из-за неопределенности модели. Данный подход обеспечивает непрерывное обучение динамик в режиме онлайн в процессе исполнения, не требуя запусков с нуля. Наша модель использует $\textit{probabilistic models}$ для оценки безопасности и динамик, а также $\textit{exploration strategy}$, которая максимизирует информационность каждого состояния при сохранении безопасности. Мы используем $\textit{Lyapunov-based approach}$ для моделирования безопасности и $\textit{finite-time convergence}$ теорем для гарантии достижения необходимой точности модели в квантифицированный промежуток времени.
## Результаты
Мы проводим эксперименты в сложных сценариях, включая автомобильную гонку и летучую роботизированную технику, где безопасность является критически важной. Используя наши методы, мы показываем, что модель динамик может быть успешно изучена до установленного порога точности (с учетом шума) в ограниченном времени. Мы также показываем, что наш фреймворк позволяет максимизировать производительность (реализовав максимально возможный признак безопасности и баланса между безопасностью и производительностью), в то же время обеспечивая непрерывную безопасность во время обучения. Данные результаты по сравнению с традиционными методами RL (например, PPO или DDPG) показали значительное улучшение в безопасности и эффективности.
## Значимость
Наш фреймворк имеет потенциал для широкого применения в реальном мире, включая автономную автомобильную технику,
Abstract
Ensuring both optimality and safety is critical for the real-world deployment
of agents, but becomes particularly challenging when the system dynamics are
unknown. To address this problem, we introduce a notion of maximum safe
dynamics learning via sufficient exploration in the space of safe policies. We
propose a $\textit{pessimistically}$ safe framework that
$\textit{optimistically}$ explores informative states and, despite not reaching
them due to model uncertainty, ensures continuous online learning of dynamics.
The framework achieves first-of-its-kind results: learning the dynamics model
sufficiently $-$ up to an arbitrary small tolerance (subject to noise) $-$ in a
finite time, while ensuring provably safe operation throughout with high
probability and without requiring resets. Building on this, we propose an
algorithm to maximize rewards while learning the dynamics $\textit{only to the
extent needed}$ to achieve close-to-optimal performance. Unlike typical
reinforcement learning (RL) methods, our approach operates online in a
non-episodic setting and ensures safety throughout the learning process. We
demonstrate the effectiveness of our approach in challenging domains such as
autonomous car racing and drone navigation under aerodynamic effects $-$
scenarios where safety is critical and accurate modeling is difficult.