StereoAdapter: Adapting Stereo Depth Estimation to Underwater Scenes

2509.16415v1 cs.CV, cs.RO 2025-09-24
Авторы:

Zhengri Wu, Yiran Wang, Yu Wen, Zeyu Zhang, Biao Wu, Hao Tang

Резюме на русском

#### Контекст Underwater stereo depth estimation является ключевым инструментом для робототехнических задач, включая навигацию, инспекцию и картирование подводных объектов. Она обеспечивает точное трёхмерное геометрическое построение с использованием дешёвых пассивных камер, избегая скольжения с масштаба, которое характерно для монокулярных методов. Несмотря на эти преимущества, существующие подходы сталкиваются с двумя ключевыми проблемами: (i) эффективной адаптацией больших визуальных фундаментальных моделей к подводной среде с ограниченным количеством меток данных, и (ii) совместной интеграцией глобально гармоничных, но scale-ambiguous монокулярных приближений с локально точными, но photometrically fragile stereo-соотношениями. Исследовательская группа AIGeeks призвана развить эффективные технические решения для этих проблем. #### Метод Для решения вышеперечисленных проблем, мы предлагаем StereoAdapter - параметр-эффективный self-supervised фреймворк, который интегрирует LoRA-adapted monocular foundation encoder с рекуррентным stereo refinement module. Модель LoRA-адаптирована для эффективного выбора ранга и предварительно обучается на synthetic UW-StereoDepth-40K датасете, чтобы улучшить устойчивость к различным подводным условиям. Эта архитектура представляет собой современное решение для обеспечения точности и устойчивости в underwater stereo depth estimation. #### Результаты Мы провели эксперименты на симулированных данных TartanAir и реальных данных SQUID. Наша модель StereoAdapter показала улучшение в 6.11% на TartanAir и 5.12% на SQUID по сравнению с текущими лучшими решениями. Реализация на практике с помощью BlueROV2-робота демонстрирует высокую устойчивость нашего подхода в реальных подводных условиях. Эти результаты подтверждают эффективность StereoAdapter в решении ключевых проблем underwater stereo depth estimation. #### Значимость StereoAdapter может применяться в многообразных подводных задачах, включая навигацию, инспекцию и картирование подводных объектов. Он предоставляет эффективные, точные и устойчивые трёхмерные построения, которые могут повысить качество и надежность подводных роботов. Этот подход также открывает новые возможности для улучшения многих других технологий, таких как autonomous underwater vehicles (AUVs) и underwater mapping. #### Выводы Мы представили StereoAdapter - эффективный, self-supervised фреймворк для underwater stereo depth estimation. Мы использовали LoRA-adapted monocular foundation encoder, рекуррентный stereo refinement module и synthetic UW-StereoDepth-40K датасет для тренировки. Наши результаты показали значительные улучшения по сравнению с текущими методами. Будущие исследования будут фокусироваться на улучшении скорости работы модели и её применении в более сложных подводных средах.

Abstract

Underwater stereo depth estimation provides accurate 3D geometry for robotics tasks such as navigation, inspection, and mapping, offering metric depth from low-cost passive cameras while avoiding the scale ambiguity of monocular methods. However, existing approaches face two critical challenges: (i) parameter-efficiently adapting large vision foundation encoders to the underwater domain without extensive labeled data, and (ii) tightly fusing globally coherent but scale-ambiguous monocular priors with locally metric yet photometrically fragile stereo correspondences. To address these challenges, we propose StereoAdapter, a parameter-efficient self-supervised framework that integrates a LoRA-adapted monocular foundation encoder with a recurrent stereo refinement module. We further introduce dynamic LoRA adaptation for efficient rank selection and pre-training on the synthetic UW-StereoDepth-40K dataset to enhance robustness under diverse underwater conditions. Comprehensive evaluations on both simulated and real-world benchmarks show improvements of 6.11% on TartanAir and 5.12% on SQUID compared to state-of-the-art methods, while real-world deployment with the BlueROV2 robot further demonstrates the consistent robustness of our approach. Code: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.

Ссылки и действия