RAPTOR: A Foundation Policy for Quadrotor Control
2509.11481v1
cs.RO, cs.AI, cs.LG
2025-09-17
Авторы:
Jonas Eschmann, Dario Albani, Giuseppe Loianno
Резюме на русском
## Контекст
Современные робот-дроны (quadrotors) требуют ценности данных и специализированных конфигураций для каждой конкретной среды и задачи. Отличие между моделью и реальным воздушным траекториями (Sim2Real-gap) может привести к сбою системы. Однако человеческий робот может переносить свои навыки с одного инструмента на другой с минимальными изменениями. Работа RAPTOR (Reusable Adaptive Policy for Trajectory Optimization and Robustness) направлена на создание универсальной политики для управления различными роботами-дронами.
## Метод
RAPTOR основывается на методе Meta-Imitation Learning, в котором для каждого из 1000 моделей дронов создается отдельный тестовый тестовый тестовый тестовый тест. Эти тестовые оценки объединяются в общую политику, которая учится внедряться в новые ситуации. Основная техника — воспользоваться повторностью в скрытой свертке, чтобы позволить политике значительно уменьшить требования к памяти и вычислительным ресурсам. Результатом является политика с 2084 параметрами, которая может адаптироваться сразу к многим дронам.
## Результаты
Изучено 10 реальных моделей дронов, весом от 32 г до 2,4 кг, с разными типами двигателей (шумные vs. бесшумные), рамками (мягкие vs. жесткие), пропеллерами (2/3/4-лопастные) и контроллерами (PX4, Betaflight, Crazyflie, M5StampFly). На основе этих моделей проведены тесты по траектории слежения, работе внутри/вне зала, влазье в ветру, тыкании и использовании разных пропеллеров. Отмечено, что политика RAPTOR не только достигает нулевого-шота подготовки, но и устойчиво выполняет задачи в разных условиях.
## Значимость
Работа RAPTOR открывает новые перспективы для широкого применения дронов в разных сферах. Универсальная политика RAPTOR уменьшает необходимость в пересоздании и повторном обучении под различные модели дронов, что облегчает их использование в практических задачах. Это может привести к экономии ресурсов и увеличению эффективности в робототехнических приложениях.
## Выводы
Результаты показывают, что RAPTOR является эффективным методом для создания универсальной политики, основанной на нейронной сети, для контроля различных роботов-дронов. Будущие исследования будут привлечь внимание к более сложным сценариям и увеличению емкости политики, чтобы обеспечить еще большую гибкость и надежность.
Abstract
Humans are remarkably data-efficient when adapting to new unseen conditions,
like driving a new car. In contrast, modern robotic control systems, like
neural network policies trained using Reinforcement Learning (RL), are highly
specialized for single environments. Because of this overfitting, they are
known to break down even under small differences like the Simulation-to-Reality
(Sim2Real) gap and require system identification and retraining for even
minimal changes to the system. In this work, we present RAPTOR, a method for
training a highly adaptive foundation policy for quadrotor control. Our method
enables training a single, end-to-end neural-network policy to control a wide
variety of quadrotors. We test 10 different real quadrotors from 32 g to 2.4 kg
that also differ in motor type (brushed vs. brushless), frame type (soft vs.
rigid), propeller type (2/3/4-blade), and flight controller
(PX4/Betaflight/Crazyflie/M5StampFly). We find that a tiny, three-layer policy
with only 2084 parameters is sufficient for zero-shot adaptation to a wide
variety of platforms. The adaptation through In-Context Learning is made
possible by using a recurrence in the hidden layer. The policy is trained
through a novel Meta-Imitation Learning algorithm, where we sample 1000
quadrotors and train a teacher policy for each of them using Reinforcement
Learning. Subsequently, the 1000 teachers are distilled into a single, adaptive
student policy. We find that within milliseconds, the resulting foundation
policy adapts zero-shot to unseen quadrotors. We extensively test the
capabilities of the foundation policy under numerous conditions (trajectory
tracking, indoor/outdoor, wind disturbance, poking, different propellers).
Ссылки и действия
Дополнительные ресурсы: