Quadrotor Navigation using Reinforcement Learning with Privileged Information

2509.08177v1 cs.RO, cs.AI, cs.CV 2025-09-11
Авторы:

Jonathan Lee, Abhishek Rathod, Kshitij Goel, John Stecklein, Wennie Tabib

Резюме на русском

## Контекст Квадроторы в широких приложениях, таких как доставка, съемка и поиск-спасание, часто сталкиваются с проблемами навигации вокруг крупных препятствий, таких как стены или грунт. Существующие алгоритмы на основе оптимизации часто не могут эффективно решать эти задачи, в то время как методы на основе увеличения проблем успешно решают проблемы с тесными проходами, но сталкиваются с трудностями при работе в сложных средах. Это свидетельствует о необходимости разработки методов, которые могут обрабатывать широкий спектр сцен навигации. Мотивирует этот подход желание создать более универсальную систему навигации, которая могла бы использоваться в различных условиях. ## Метод Предложенный подход основывается на усиленном обучении (reinforcement learning), который использует симулятор с разностным дифференцированием (differentiable simulation) для эффективного обучения. В качестве дополнительной информации используется время прибытия (time-of-arrival, ToA), которое позволяет системе оценивать время, затраченное на достижение цели. Для решения проблем с якорным расположением (yaw alignment) внедрена новая функция потерь, которая помогает аккуратно направлять квадротор вокруг больших препятствий. Метод оценивается в средах с фотореалистичной симуляцией, включающих крупные препятствия, тупые углы и тупики. Это дает возможность проверить систему в условиях, напоминающих реальность. ## Результаты Эксперименты проводились в средах с фотореалистичной симуляцией, в которых квадротор должен был пройти маршрут, преодолевая крупные препятствия. Алгоритм показал успешность в 86% случаях, что значительно превосходит базовые стратегии, показывающие уровень 52%. Для проверки практической реальности, политика была развернута на квадроторе в реальных условиях. На внешних участках с нагруженной средой были проведены 20 полётов, пройденных на расстоянии 589 метров, без каких-либо коллизий и с максимальной скоростью 4 м/с. Это подтверждает эффективность метода в реальных условиях. ## Значимость Разработанный подход имеет широкие применения в различных областях, включая доставку посылок, поисковые операции и съемку в крупных городах, где наличие больших препятствий является обычным фактором. Он превосходит существующие методы, обеспечивая более высокую точность и надежность в сложных условиях. Это делает его привлекательным для использования в реальной жизни, где эффективность и безопасность являются приоритетными. ## Выводы Результаты показывают, что предложенный подход позволяет более эффективно

Abstract

This paper presents a reinforcement learning-based quadrotor navigation method that leverages efficient differentiable simulation, novel loss functions, and privileged information to navigate around large obstacles. Prior learning-based methods perform well in scenes that exhibit narrow obstacles, but struggle when the goal location is blocked by large walls or terrain. In contrast, the proposed method utilizes time-of-arrival (ToA) maps as privileged information and a yaw alignment loss to guide the robot around large obstacles. The policy is evaluated in photo-realistic simulation environments containing large obstacles, sharp corners, and dead-ends. Our approach achieves an 86% success rate and outperforms baseline strategies by 34%. We deploy the policy onboard a custom quadrotor in outdoor cluttered environments both during the day and night. The policy is validated across 20 flights, covering 589 meters without collisions at speeds up to 4 m/s.

Ссылки и действия