Improving the Resilience of Quadrotors in Underground Environments by Combining Learning-based and Safety Controllers

2509.02808v1 cs.RO, cs.AI, cs.SY, eess.SY 2025-09-05
Авторы:

Isaac Ronald Ward, Mark Paral, Kristopher Riordan, Mykel J. Kochenderfer

Резюме на русском

#### Контекст Одна из самых вызовов при использовании автономных роботов в подземных окружениях является обеспечение их устойчивости и безопасности в условиях неопределенности и неизвестности. Такие окружения часто имеют уникальные, непредсказуемые характеристики, которые не могут быть полностью охвачены во время обучения. Это влечет за собой риск выхода из рабочего диапазона (out-of-distribution), что может привести к нежелательным последствиям. Для практического применения, таких как поисковые и спасательные операции, окраины минеральных ресурсов и окружающая среда, необходимо создать системы, которые обладают характеристикой быстрого реагирования (liveness) и безопасностью (safety). Наша мотивация заключается в создании метода, который объединяет преимущества обучения-на-борту (learning-based) и традиционных безопасных алгоритмов. #### Метод Мы предлагаем комбинированный подход к контролю автономных квадроторов, который использует модель нормализующего потока (normalizing flow) для оценки выхода квадротора за пределы обучающей выборки. Эта модель функционирует как раннее предупреждение (runtime monitor), которое срабатывает при выходе за допустимый диапазон. В случае выхода, алгоритм переключается на безопасный контроллер, а в случае возвращения к ожидаемому диапазону — на обученный, наушный робот. Мы использовали обученную модель для контроля движения в трехмерной симуляции лабиринта, основанной на реальных данных из DARPA Subterranean Challenge. Наша архитектура включает в себя два основных модуля: модель нормализующего потока для мониторинга и выборки контроллера, и саму систему контроля. #### Результаты Мы проводили эксперименты в симуляторе, сравнивая нашу систему с отдельными моделями — только обученным и только безопасным контроллером. Наши результаты показали, что комбинированный подход обеспечивает более быструю проходимость лабиринта (liveness), чем безопасный контроллер, при этом сохраняя безопасность (невозможность выхода за пределы между двумя контроллерами). Также мы проверили способность модели выявлять и реагировать на различные типы выходов за допустимый диапазон. Наши метрики показали, что у нашей системы лучшая производительность в отношении времени отклика и точности в сравнении с конкурентными подходами. #### Значимость Наш подход может быть применен в различных подземных операциях, таких как поисковые и спасательные задачи, измерение и мониторинг подземных ресурсов, а также сбор данных в условиях ограниченной видимости. Он обеспечивает высокую точность и быстроту действия, без ущерба для безопасности. Помимо этого, наш метод может быть расширен для других видов

Abstract

Autonomously controlling quadrotors in large-scale subterranean environments is applicable to many areas such as environmental surveying, mining operations, and search and rescue. Learning-based controllers represent an appealing approach to autonomy, but are known to not generalize well to `out-of-distribution' environments not encountered during training. In this work, we train a normalizing flow-based prior over the environment, which provides a measure of how far out-of-distribution the quadrotor is at any given time. We use this measure as a runtime monitor, allowing us to switch between a learning-based controller and a safe controller when we are sufficiently out-of-distribution. Our methods are benchmarked on a point-to-point navigation task in a simulated 3D cave environment based on real-world point cloud data from the DARPA Subterranean Challenge Final Event Dataset. Our experimental results show that our combined controller simultaneously possesses the liveness of the learning-based controller (completing the task quickly) and the safety of the safety controller (avoiding collision).

Ссылки и действия