Integrating Symbolic RL Planning into a BDI-based Autonomous UAV Framework: System Integration and SIL Validation

2508.11890v1 cs.RO, cs.AI 2025-08-19
Авторы:

Sangwoo Jeon, Juchul Shin, YeonJe Cho, Gyeong-Tae Kim, Seongwoo Kim

Резюме на русском

## Контекст Автоматизация дронных миссий в течение последних десятилетий превратилась в кллючевую задачу в области робототехники и цифровых технологий. Благодаря их возможности автономного взаимодействия с окружающим миром, дроны нашли применение в различных сферах, включая силовые государственные органы, гражданские услуги и технологии информационных систем. Однако, тем не менее, проблемы с относительно низкой надежностью и развитием систем управления, способны вызывать серьезные проблемы в управлении автономным летательным аппаратом. Наиболее затруднительной проблемой является то, что существующие архитектуры не способны реагировать на динамически изменяющиеся окружающие условия, что приводит к неоптимальному выполнению задач. Исследование, основанное на новых базовых технологиях, направлено на развитие интегрированного квантового концепта, который позволяет применять динамические символьные планы в процессе динамического планирования. Над этим вопросом работают ученые и разработчики, но еще не достигнут согласие по поводу разработки методов, которые могли бы гарантировать устойчивость и надежность системы в различных операционных условиях. ## Метод Метод, используемый в работе, основывается на интеграции символьного управления в фреймворк BDI (Belief-Desire-Intention), применяя символьное управление для расширения возможностей системы. Для этих целей в работе применяется подход Planning Domain Definition Language (PDDL), позволяющий описывать ограничения и цели задач в достаточноей детализации. Эта модель позволяет генерировать символьные планы для автономных дронов, которые могут адаптироваться к внешним условиям. Для проверки эффективности работы алгоритма в рамках системы BDI, была использована архитектура AMAD-SRL (Autonomous Mission Agents for Drones), которая является предшествующим развитием фреймворка AMAD. В разработке внедрена новая компонента для символьного управления, которая позволяет оптимизировать взаимодействие с другими модулями системы. Для эмпирического определения совместимости алгоритмов, использовался Software-in-the-Loop (SIL) симулятор, который эмулировал работу системы на реальных условиях. Оценка производительности была произведена на основе сценария целевого обнаружения, в котором дрон должен был передвигаться по созданному пути, обнаруживать цель, а затем выполнить квадрокоптером систему для безопасного посадки. ## Результаты В результате исследований было подтверждено, что интегрированная система AMAD-SRL может значительно увеличить эффективность управления. Участники исследования успешно продемонстрировали, как моди

Abstract

Modern autonomous drone missions increasingly require software frameworks capable of seamlessly integrating structured symbolic planning with adaptive reinforcement learning (RL). Although traditional rule-based architectures offer robust structured reasoning for drone autonomy, their capabilities fall short in dynamically complex operational environments that require adaptive symbolic planning. Symbolic RL (SRL), using the Planning Domain Definition Language (PDDL), explicitly integrates domain-specific knowledge and operational constraints, significantly improving the reliability and safety of unmanned aerial vehicle (UAV) decision making. In this study, we propose the AMAD-SRL framework, an extended and refined version of the Autonomous Mission Agents for Drones (AMAD) cognitive multi-agent architecture, enhanced with symbolic reinforcement learning for dynamic mission planning and execution. We validated our framework in a Software-in-the-Loop (SIL) environment structured identically to an intended Hardware-In-the-Loop Simulation (HILS) platform, ensuring seamless transition to real hardware. Experimental results demonstrate stable integration and interoperability of modules, successful transitions between BDI-driven and symbolic RL-driven planning phases, and consistent mission performance. Specifically, we evaluate a target acquisition scenario in which the UAV plans a surveillance path followed by a dynamic reentry path to secure the target while avoiding threat zones. In this SIL evaluation, mission efficiency improved by approximately 75% over a coverage-based baseline, measured by travel distance reduction. This study establishes a robust foundation for handling complex UAV missions and discusses directions for further enhancement and validation.

Ссылки и действия