Agentic UAVs: LLM-Driven Autonomy with Integrated Tool-Calling and Cognitive Reasoning
2509.13352v1
cs.AI, cs.RO, 68T07, 68T40, 68T42, I.2.9; I.2.11; I.2.8; I.2.10
2025-09-19
Авторы:
Anis Koubaa, Khaled Gabr
Резюме на русском
#### Контекст
Unmannned Aerial Vehicles (UAVs) становятся важной частью различных секторов, включая оборону, мониторинг, и поиск-и-спасание. Однако, несмотря на их возможности, большинство UAV-систем закреплены на уровне 2-3 автономии по масштабу SAE. Ограниченные современными правилами управления и широко используемые нейросетевые модели, эти системы сталкиваются с проблемами в адаптации к динамичным и неопределенным ситуациям. Недостаток в контекстно-зависимом разумении, автономном принятии решений, и интеграции с экосистемой ограничивает их эффективность. Кроме того, ни одна из нынешних UAV-платформ не использует мощности Large Language Models (LLM) для реального времени доступа к знаниям. Этот труд раскрывает Agentic UAVs — расширенную платформу, которая обеспечивает UAVs мощью LLM-движения, контекстно-управляемых действий, и интеграции с инструментами и системами.
#### Метод
Agentic UAVs основываются на фреймворке из пяти слоев: 1) **Perception** (обработка входных данных), 2) **Reasoning** (контекстно-управляемое решающее модуль), 3) **Action** (реализация рекомендаций действий), 4) **Integration** (интеграция с другими системами), и 5) **Learning** (постоянное обучение и адаптация). Фреймворк реализован на ROS2 и Gazebo и интегрирует GPT-4 для LLM-движения, YOLOv11 для объектного распознавания, и Gemma-3 для локального развертывания. UAVs могут вызывать инструменты и системы в реальном времени для повышения производительности.
#### Результаты
В экспериментах, проводимых в сценариях поиска и спасения, Agentic UAVs показали существенные повышения в производительности по сравнению с существующими системами. Они достигли более высокой уверенности в детекции объектов (0.79 vs. 0.72), улучшили скорость детекции людей (91% vs. 75%), и значительно повысили долю рекомендаций действий (92% vs. 4.5%). Эти результаты доказывают, что небольшой дополнительный вычислительный стоимость дает необходимую мощь для достижения новых уровней автономии и интеграции.
#### Значимость
Приложения Agentic UAVs могут распространиться на сферы поиска-и-спасения, систем безопасности, и мониторинга. Особые преимущества включают увеличение эффективности, уменьшение времени реагирования, и улучшение адаптации к нестандартным ситуациям. Этот подход может повлиять существенно на развитие технологий UAV, предоставляя новый подход к автономному управлению и интеграции с экосистемой.
#### Выводы
Agentic UAVs достигли новых высот в автономии UAV-систем, используя LLM-движение и контекстное решающее моделирование. Наша работа подтверждает эффективность этого по
Abstract
Unmanned Aerial Vehicles (UAVs) are increasingly deployed in defense,
surveillance, and disaster response, yet most systems remain confined to SAE
Level 2--3 autonomy. Their reliance on rule-based control and narrow AI
restricts adaptability in dynamic, uncertain missions. Existing UAV frameworks
lack context-aware reasoning, autonomous decision-making, and ecosystem-level
integration; critically, none leverage Large Language Model (LLM) agents with
tool-calling for real-time knowledge access. This paper introduces the Agentic
UAVs framework, a five-layer architecture (Perception, Reasoning, Action,
Integration, Learning) that augments UAVs with LLM-driven reasoning, database
querying, and third-party system interaction. A ROS2 and Gazebo-based prototype
integrates YOLOv11 object detection with GPT-4 reasoning and local Gemma-3
deployment. In simulated search-and-rescue scenarios, agentic UAVs achieved
higher detection confidence (0.79 vs. 0.72), improved person detection rates
(91% vs. 75%), and markedly increased action recommendation (92% vs. 4.5%).
These results confirm that modest computational overhead enables qualitatively
new levels of autonomy and ecosystem integration.