Quadrotor Navigation using Reinforcement Learning with Privileged Information
2509.08177v1
cs.RO, cs.AI, cs.CV
2025-09-11
Авторы:
Jonathan Lee, Abhishek Rathod, Kshitij Goel, John Stecklein, Wennie Tabib
Резюме на русском
## Контекст
Квадроторы в широких приложениях, таких как доставка, съемка и поиск-спасание, часто сталкиваются с проблемами навигации вокруг крупных препятствий, таких как стены или грунт. Существующие алгоритмы на основе оптимизации часто не могут эффективно решать эти задачи, в то время как методы на основе увеличения проблем успешно решают проблемы с тесными проходами, но сталкиваются с трудностями при работе в сложных средах. Это свидетельствует о необходимости разработки методов, которые могут обрабатывать широкий спектр сцен навигации. Мотивирует этот подход желание создать более универсальную систему навигации, которая могла бы использоваться в различных условиях.
## Метод
Предложенный подход основывается на усиленном обучении (reinforcement learning), который использует симулятор с разностным дифференцированием (differentiable simulation) для эффективного обучения. В качестве дополнительной информации используется время прибытия (time-of-arrival, ToA), которое позволяет системе оценивать время, затраченное на достижение цели. Для решения проблем с якорным расположением (yaw alignment) внедрена новая функция потерь, которая помогает аккуратно направлять квадротор вокруг больших препятствий. Метод оценивается в средах с фотореалистичной симуляцией, включающих крупные препятствия, тупые углы и тупики. Это дает возможность проверить систему в условиях, напоминающих реальность.
## Результаты
Эксперименты проводились в средах с фотореалистичной симуляцией, в которых квадротор должен был пройти маршрут, преодолевая крупные препятствия. Алгоритм показал успешность в 86% случаях, что значительно превосходит базовые стратегии, показывающие уровень 52%. Для проверки практической реальности, политика была развернута на квадроторе в реальных условиях. На внешних участках с нагруженной средой были проведены 20 полётов, пройденных на расстоянии 589 метров, без каких-либо коллизий и с максимальной скоростью 4 м/с. Это подтверждает эффективность метода в реальных условиях.
## Значимость
Разработанный подход имеет широкие применения в различных областях, включая доставку посылок, поисковые операции и съемку в крупных городах, где наличие больших препятствий является обычным фактором. Он превосходит существующие методы, обеспечивая более высокую точность и надежность в сложных условиях. Это делает его привлекательным для использования в реальной жизни, где эффективность и безопасность являются приоритетными.
## Выводы
Результаты показывают, что предложенный подход позволяет более эффективно
Abstract
This paper presents a reinforcement learning-based quadrotor navigation
method that leverages efficient differentiable simulation, novel loss
functions, and privileged information to navigate around large obstacles. Prior
learning-based methods perform well in scenes that exhibit narrow obstacles,
but struggle when the goal location is blocked by large walls or terrain. In
contrast, the proposed method utilizes time-of-arrival (ToA) maps as privileged
information and a yaw alignment loss to guide the robot around large obstacles.
The policy is evaluated in photo-realistic simulation environments containing
large obstacles, sharp corners, and dead-ends. Our approach achieves an 86%
success rate and outperforms baseline strategies by 34%. We deploy the policy
onboard a custom quadrotor in outdoor cluttered environments both during the
day and night. The policy is validated across 20 flights, covering 589 meters
without collisions at speeds up to 4 m/s.
Ссылки и действия
Дополнительные ресурсы: