DREAM: Domain-aware Reasoning for Efficient Autonomous Underwater Monitoring

2509.13666v1 cs.RO, cs.AI 2025-09-19
Авторы:

Zhenqi Wu, Abhinav Modi, Angelos Mavrogiannis, Kaustubh Joshi, Nikhil Chopra, Yiannis Aloimonos, Nare Karapetyan, Ioannis Rekleitis, Xiaomin Lin

Резюме на русском

## Контекст Мир океанов стал горячей темой в изучении климатических изменений. Угнетающее тепло и кислотность воды возбуждают опасения по поводу массовых потерь термосенситивных моллюсками, такими как устрицы. Эти феномены обнадёживают развитие системы продолжительного мониторинга. Однако человеческая работа в этих условиях не только дорогостояща, но и опасна, что делает роботизированные решения более привлекательными как более безопасные и эффективные альтернативы. Чтобы превратить автономных роботов в полноценных исследователей подводных ландшафтов, необходимо иметь умный "мозг", который обеспечивает решения в реальном времени и позволяет эффективно эксплуатировать средам. Это подчеркивает нужду в системах, которые обеспечивают продолжительное, широкомасштабное и стоимостно эффективное мониторинге подводных бентосных сред. Для этого мы предлагаем DREAM — рамформу для развития интеллектуальной автономности на основе Vision Language Model (VLM), которая позволяет обеспечивать долгосрочное подводное исследование и мониторинг окружающих сред. ## Метод DREAM — это инновационная архитектура, объединяющая подходы Vision Language Model (VLM) с интеллектуальным рисованием траекторий. Она включает в себя несколько ключевых компонентов: 1. **Сенсорно-роботическая система** — устройство, оснащённое видеокамерой и сенсорами, которое может изучать подводную среду. 2. **Обученная модель VLM** — это модель, которая пропагруит роботу информацией о объектах, исследуемых в среде. 3. **Компонент рисования траекторий** — алгоритм, который оптимизирует маршрут для эффективного и безопасного поиска и мониторинга объектов. 4. **Обработка естественного языка (NLP)** — система, которая позволяет роботу понимать и реагировать на команды пользователей в естественном языке. DREAM использует эти компоненты для решения задач, таких как эффективный поиск моллюсков, обнаружение и изучение судовых крушений, без предварительного знания их местоположения. ## Результаты Мы проводили эксперименты в условиях реального океана и подводных имитационных симуляторов. Наши результаты показывают, что DREAM выполняет мониторинг бентосных объектов (например, устриц) в 31,5% меньше времени по сравнению с существующими базовыми моделями, при этом не теряя точности. Он также уменьшает количество потребного шагов на 23%, увеличивая объём мониторинга на 8,88%. В сценариях с изучением гибитации подводных крушений, DREAM демонстрирует 100% покрытия области, при этом требуя 27,5% меньше шагов в сравнении с базовой модель

Abstract

The ocean is warming and acidifying, increasing the risk of mass mortality events for temperature-sensitive shellfish such as oysters. This motivates the development of long-term monitoring systems. However, human labor is costly and long-duration underwater work is highly hazardous, thus favoring robotic solutions as a safer and more efficient option. To enable underwater robots to make real-time, environment-aware decisions without human intervention, we must equip them with an intelligent "brain." This highlights the need for persistent,wide-area, and low-cost benthic monitoring. To this end, we present DREAM, a Vision Language Model (VLM)-guided autonomy framework for long-term underwater exploration and habitat monitoring. The results show that our framework is highly efficient in finding and exploring target objects (e.g., oysters, shipwrecks) without prior location information. In the oyster-monitoring task, our framework takes 31.5% less time than the previous baseline with the same amount of oysters. Compared to the vanilla VLM, it uses 23% fewer steps while covering 8.88% more oysters. In shipwreck scenes, our framework successfully explores and maps the wreck without collisions, requiring 27.5% fewer steps than the vanilla model and achieving 100% coverage, while the vanilla model achieves 60.23% average coverage in our shipwreck environments.

Ссылки и действия