DUViN: Diffusion-Based Underwater Visual Navigation via Knowledge-Transferred Depth Features
2509.02983v1
cs.RO, cs.CV
2025-09-05
Авторы:
Jinghe Yang, Minh-Quan Le, Mingming Gong, Ye Pu
Резюме на русском
#### Контекст
Autonomous underwater navigation представляет собой весьма сложное задание из-за ограниченных способностей восприятия и сложности построения точных карт в подводных условиях. Несмотря на развитие технологий, на данный момент невозможно полностью заменить визуальную ориентацию, что ограничивает возможности автономных подводных роботов. В этой работе мы предлагаем DUViN — политику по Диффузионному Управлению Визуальной Навигацией с использованием знаний, передаваемых из глубинных признаков. Это система визуального контроля 4-DoF подвижности подводных роботов, которая позволяет им преодолевать препятствия и сохранять безопасный расстояний до земли.
#### Метод
DUViN использует diffusion-based модель для визуального управления подводным роботом, которая позволяет ему ориентироваться в неизвестных подводных средах. Основная идея заключается в передаче знаний из глубинных признаков, чтобы обеспечить безопасность и эффективность. Метод представляет собой две фазы. В первой фазе тренируется модель на основе данных в воздухе с использованием предобученного экстрактора глубинных признаков. Во второй фазе экстрактор переобучен на задаче оценки подводных глубин, после чего интегрируется в модель визуального управления. Это позволяет достичь точности и устойчивости в разных условиях.
#### Результаты
В экспериментах DUViN продемонстрировала высокую точность и устойчивость в симуляционных и реальных подводных условиях. Мы проводили тестирование на различных сценах, включая сложные обстановки с препятствиями. Наши результаты показали, что DUViN способна обнаруживать препятствия и управлять роботом без зависимости от карт. Эксперименты показали, что модель обладает робастностью при переходах между данными в воздухе и под водой. Видео результатов доступны по ссылке: https://www.youtube.com/playlist?list=PLqt2s-RyCf1gfXJgFzKjmwIqYhrP4I-7Y.
#### Значимость
Предложенная модель может быть применена в различных прикладных областях, таких как поиск и спасение, океанографические исследования и подводные добычи. Одним из основных преимуществ DUViN является возможность ориентироваться в реальном времени без необходимости использования дорогостоящих карт или данных о глубине. Это делает ее привлекательной для задач, где сбор карт сложно или невозможно.
#### Выводы
Результаты нашего исследования демонстрируют значительную улучшенную точность и устойчивость в подводной визуальной навигации. Будущие исследования будут сконцентрированы на улучшении модели, увеличении точности оценки глубины и расширении приложений в различных подводных средах.
Abstract
Autonomous underwater navigation remains a challenging problem due to limited
sensing capabilities and the difficulty of constructing accurate maps in
underwater environments. In this paper, we propose a Diffusion-based Underwater
Visual Navigation policy via knowledge-transferred depth features, named DUViN,
which enables vision-based end-to-end 4-DoF motion control for underwater
vehicles in unknown environments. DUViN guides the vehicle to avoid obstacles
and maintain a safe and perception awareness altitude relative to the terrain
without relying on pre-built maps. To address the difficulty of collecting
large-scale underwater navigation datasets, we propose a method that ensures
robust generalization under domain shifts from in-air to underwater
environments by leveraging depth features and introducing a novel model
transfer strategy. Specifically, our training framework consists of two phases:
we first train the diffusion-based visual navigation policy on in-air datasets
using a pre-trained depth feature extractor. Secondly, we retrain the extractor
on an underwater depth estimation task and integrate the adapted extractor into
the trained navigation policy from the first step. Experiments in both
simulated and real-world underwater environments demonstrate the effectiveness
and generalization of our approach. The experimental videos are available at
https://www.youtube.com/playlist?list=PLqt2s-RyCf1gfXJgFzKjmwIqYhrP4I-7Y.
Ссылки и действия
Дополнительные ресурсы: