Cooperative Target Detection with AUVs: A Dual-Timescale Hierarchical MARDL Approach

2509.13381v1 cs.RO, cs.LG, cs.MA 2025-09-19
Авторы:

Zhang Xueyao, Yang Bo, Yu Zhiwen, Cao Xuelin, George C. Alexandropoulos, Merouane Debbah, Chau Yuen

Резюме на русском

## Контекст В последние годы Autonomous Underwater Vehicles (AUVs) — подводные лодки с автономным управлением — приобрели важное место в области кооперативного обнаружения и разведки. Они обладают уникальными возможностями, такими как долговременное пребывание в акватории и незаметность для прицеливания. Однако использование таких лодок в совместных миссиях не без рисков. В адверсарских условиях возможность разглашения своего положения, обнаружения и атаки может ограничить эффективность выполнения задачи. Значительным технологическим вызовом является создание методов, которые позволят AUVs эффективно сотрудничать, при этом гарантируя низкую вероятность обнаружения. Эта проблема особенно актуальна в регионах, где акватория тщательно мониторится, например, рядом с военными базами или границами. Многие алгоритмы, предложенные ранее, не могут гарантировать как эффективность, так и безопасность в таких сценариях. Таким образом, необходимо разработать метод, который сможет компенсировать эти недостатки, обеспечив безопасность и эффективность в одновременном режиме. ## Метод Разрабатываемый подход основан на **Hierarchical Multi-Agent Proximal Policy Optimization (H-MAPPO)**, технике машинного обучения, которая применяется в задачах управления множеством агентов. Метод работает на двух разных временных масштабах: высоком (high-level) и низком (low-level). На высоком уровне, центральный AUV (центральное устройство) решает, какие агенты должны принимать участие в задаче, а также определяет их основные цели и задачи. На низком уровне, каждый участвующий AUV контролирует свои траектории и мощность передачи сигналов, чтобы снизить риск обнаружения. Здесь используется **Proximal Policy Optimization (PPO)**, метод оптимизации политик, который позволяет эффективно корректировать поведение AUVs в реальном времени. Архитектура H-MAPPO разделяет задачу на две части: стратегическую (высокого уровня) и траекторную (низкого уровня). Эта структура позволяет агентам быстро реагировать на изменения окружения, при этом оптимизируя время отклика и минимизируя вероятность разглашения. ## Результаты Эксперименты проводились в симуляторе, где были рассмотрены различные ситуации, в том числе с высокой вероятностью обнаружения, многорукими бандами врагов и сильным шумом фона. Запуски проводились с различными наборами параметров, включая различные конфигурации AUVs, различные уровни шума и различные виды атак врагов. Использовались данные, полученные от реальных подводных лодок, чтобы убедиться в реалистичности моделей. Результаты показали, что H-MAPPO успешно оптимизирует решения, снижая вероятность обнаруж

Abstract

Autonomous Underwater Vehicles (AUVs) have shown great potential for cooperative detection and reconnaissance. However, collaborative AUV communications introduce risks of exposure. In adversarial environments, achieving efficient collaboration while ensuring covert operations becomes a key challenge for underwater cooperative missions. In this paper, we propose a novel dual time-scale Hierarchical Multi-Agent Proximal Policy Optimization (H-MAPPO) framework. The high-level component determines the individuals participating in the task based on a central AUV, while the low-level component reduces exposure probabilities through power and trajectory control by the participating AUVs. Simulation results show that the proposed framework achieves rapid convergence, outperforms benchmark algorithms in terms of performance, and maximizes long-term cooperative efficiency while ensuring covert operations.

Ссылки и действия