DUViN: Diffusion-Based Underwater Visual Navigation via Knowledge-Transferred Depth Features

2509.02983v1 cs.RO, cs.CV 2025-09-05
Авторы:

Jinghe Yang, Minh-Quan Le, Mingming Gong, Ye Pu

Резюме на русском

#### Контекст Autonomous underwater navigation представляет собой весьма сложное задание из-за ограниченных способностей восприятия и сложности построения точных карт в подводных условиях. Несмотря на развитие технологий, на данный момент невозможно полностью заменить визуальную ориентацию, что ограничивает возможности автономных подводных роботов. В этой работе мы предлагаем DUViN — политику по Диффузионному Управлению Визуальной Навигацией с использованием знаний, передаваемых из глубинных признаков. Это система визуального контроля 4-DoF подвижности подводных роботов, которая позволяет им преодолевать препятствия и сохранять безопасный расстояний до земли. #### Метод DUViN использует diffusion-based модель для визуального управления подводным роботом, которая позволяет ему ориентироваться в неизвестных подводных средах. Основная идея заключается в передаче знаний из глубинных признаков, чтобы обеспечить безопасность и эффективность. Метод представляет собой две фазы. В первой фазе тренируется модель на основе данных в воздухе с использованием предобученного экстрактора глубинных признаков. Во второй фазе экстрактор переобучен на задаче оценки подводных глубин, после чего интегрируется в модель визуального управления. Это позволяет достичь точности и устойчивости в разных условиях. #### Результаты В экспериментах DUViN продемонстрировала высокую точность и устойчивость в симуляционных и реальных подводных условиях. Мы проводили тестирование на различных сценах, включая сложные обстановки с препятствиями. Наши результаты показали, что DUViN способна обнаруживать препятствия и управлять роботом без зависимости от карт. Эксперименты показали, что модель обладает робастностью при переходах между данными в воздухе и под водой. Видео результатов доступны по ссылке: https://www.youtube.com/playlist?list=PLqt2s-RyCf1gfXJgFzKjmwIqYhrP4I-7Y. #### Значимость Предложенная модель может быть применена в различных прикладных областях, таких как поиск и спасение, океанографические исследования и подводные добычи. Одним из основных преимуществ DUViN является возможность ориентироваться в реальном времени без необходимости использования дорогостоящих карт или данных о глубине. Это делает ее привлекательной для задач, где сбор карт сложно или невозможно. #### Выводы Результаты нашего исследования демонстрируют значительную улучшенную точность и устойчивость в подводной визуальной навигации. Будущие исследования будут сконцентрированы на улучшении модели, увеличении точности оценки глубины и расширении приложений в различных подводных средах.

Abstract

Autonomous underwater navigation remains a challenging problem due to limited sensing capabilities and the difficulty of constructing accurate maps in underwater environments. In this paper, we propose a Diffusion-based Underwater Visual Navigation policy via knowledge-transferred depth features, named DUViN, which enables vision-based end-to-end 4-DoF motion control for underwater vehicles in unknown environments. DUViN guides the vehicle to avoid obstacles and maintain a safe and perception awareness altitude relative to the terrain without relying on pre-built maps. To address the difficulty of collecting large-scale underwater navigation datasets, we propose a method that ensures robust generalization under domain shifts from in-air to underwater environments by leveraging depth features and introducing a novel model transfer strategy. Specifically, our training framework consists of two phases: we first train the diffusion-based visual navigation policy on in-air datasets using a pre-trained depth feature extractor. Secondly, we retrain the extractor on an underwater depth estimation task and integrate the adapted extractor into the trained navigation policy from the first step. Experiments in both simulated and real-world underwater environments demonstrate the effectiveness and generalization of our approach. The experimental videos are available at https://www.youtube.com/playlist?list=PLqt2s-RyCf1gfXJgFzKjmwIqYhrP4I-7Y.

Ссылки и действия