Enhancing Low-Altitude Airspace Security: MLLM-Enabled UAV Intent Recognition
2509.06312v1
eess.SY, cs.LG, cs.SY, 68T07, 68T45, 93C85, 94A12, I.2.10; I.2.6; I.2.9; C.2.1
2025-09-10
Авторы:
Guangyu Lei, Tianhao Liang, Yuqi Ping, Xinglin Chen, Longyu Zhou, Junwei Wu, Xiyuan Zhang, Huahao Ding, Xingjian Zhang, Weijie Yuan, Tingting Zhang, Qinyu Zhang
Резюме на русском
## Контекст
В последние годы возрастает важность обеспечения безопасности низкоальтитудного космоса в связи с развитием низкоальтитудной экономики. Одной из ключевых задач в этой области является определение намерений неприятельских беспилотных летательных аппаратов (БПЛА), чтобы предотвратить потенциальные риски и угрозы. Несмотря на развитие технологий, существуют проблемы, такие как неточность в определении намерений БПЛА, ограниченность обнаружения с помощью существующих методов и недостаток реакции на изменения ситуации в реальном времени.
Мотивацией для этого исследования является необходимость в развитии более эффективных методов определения намерений БПЛА, которые могут обеспечить быстрое и точное распознавание целей, даже в условиях сложных внешних условий. Использование многомодальных больших языковых моделей (MLLMs) может стать решением задачи, так как они обладают высокой точностью и могут обрабатывать многообразие данных в реальном времени.
## Метод
Для решения поставленной задачи предлагается использовать архитектуру, основанную на MLLMs, для распознавания намерений БПЛА. Эта архитектура включает несколько этапов:
1. **Сбор данных**: Многомодальная система сбора данных позволяет получать реального времени информацию о движении и нагрузке БПЛА.
2. **Преобразование данных**: Данные, полученные из различных моделей, объединяются и обрабатываются с помощью специальных методов представления для формирования структурированной входной информации.
3. **Обучение и распознавание**: MLLM-модель использует полученную информацию, включая окружающую среду, предварительные знания и тактические предпочтения, для вывода результата распознавания намерения.
Эта модель включает в себя несколько модификаций, таких как подключение внешних источников данных, адаптивное обучение на основе реальных ситуаций и использование сложных логических моделей для оптимизации результатов.
## Результаты
Результаты исследования показали, что новая архитектура демонстрирует высокую точность распознавания намерений БПЛА в различных условиях. В ходе экспериментов был проведен сценарий угрозы в низкой альтитуде, где модель показала способность своевременно и точно определять намерения БПЛА. Данные были получены с помощью симуляции и реальных тестов, в том числе использовались многомодальные данные, такие как видео, звук и данные сенсоров. Отмечено, что модель показала лучшую точность по сравнению с другими подходами в сложных условиях.
## Значимость
Предложенная модель может быть применена в различных областях, таких как
Abstract
The rapid development of the low-altitude economy emphasizes the critical
need for effective perception and intent recognition of non-cooperative
unmanned aerial vehicles (UAVs). The advanced generative reasoning capabilities
of multimodal large language models (MLLMs) present a promising approach in
such tasks. In this paper, we focus on the combination of UAV intent
recognition and the MLLMs. Specifically, we first present an MLLM-enabled UAV
intent recognition architecture, where the multimodal perception system is
utilized to obtain real-time payload and motion information of UAVs, generating
structured input information, and MLLM outputs intent recognition results by
incorporating environmental information, prior knowledge, and tactical
preferences. Subsequently, we review the related work and demonstrate their
progress within the proposed architecture. Then, a use case for low-altitude
confrontation is conducted to demonstrate the feasibility of our architecture
and offer valuable insights for practical system design. Finally, the future
challenges are discussed, followed by corresponding strategic recommendations
for further applications.