Investigating Location-Regularised Self-Supervised Feature Learning for Seafloor Visual Imagery

2509.06660v1 cs.CV, cs.RO 2025-09-10

Авторы:

Cailei Liang, Adrian Bodenmann, Emma J Curtis, Samuel Simmons, Kazunori Nagano, Stan Brown, Adam Riese, Blair Thornton

Резюме на русском

## Контекст Исследование активно применяет роботизированные системы для собирания данных на дне океана, что позволяет эффективно отслеживать и изучать макро- и микробиоты, а также распределение ресурсов. Однако интерпретация больших объемов роботизированно полученных сеафлор-визуальных изображений остается трудоемкой и неэффективной. Несмотря на то, что метаданные о местоположении могут улучшить самообучающиеся методы обучения (Self-Supervised Learning, SSL), их польза для различных SSL-стратегий, моделей и наборов данных остается нередко недостаточно изученной. ## Метод Работа исследует воздействие регуляризации по местоположению на шесть современных SSL-фреймворков, включая Convolutional Neural Networks (CNN) и Vision Transformers (ViT) с различным размером latent-space. Эксперименты проводились на трех разных наборах данных, содержащих изображения сеафлора. Модели были тренированы с использованием метаданных о местоположении, чтобы оценить, насколько эта информация может улучшить классификационную точность. ## Результаты Результаты показывают, что регуляризация по местоположению последовательно улучшает классификационную точность для всех исследуемых моделей и наборов данных. Для CNNs F1-score увеличивается на среднем $4.9 \pm 4.0\%$, для ViTs — $6.3 \pm 8.9\%$. Особенно выгодной оказалась регуляризация для моделей с низкой размерностью latent-space. Хотя ViTs с высокой размерностью latent-space показали внушительные результаты, они не всегда превосходят location-regularised SSL. ## Значимость Исследование открывает перспективу использования метаданных о местоположении в SSL для улучшения обработки сеафлор-визуальных изображений. Это имеет большое значение в области морских исследований, маркерных исследований и макро- и микробиотических мониторингов. Использование подобных методов позволяет существенно повысить эффективность и точность анализа. ## Выводы Работа подтверждает значимость использования метаданных о местоположении для регуляризации SSL, особенно при использовании низкоразмерных latent-space. Однако high-dimensional ViTs показали сильную общительность и могут быть эффективными даже без использования location-regularisation. На будущем изучении следует фокусироваться на расширении применений данного подхода к различным моделям и наборам данных.

Abstract

High-throughput interpretation of robotically gathered seafloor visual imagery can increase the efficiency of marine monitoring and exploration. Although recent research has suggested that location metadata can enhance self-supervised feature learning (SSL), its benefits across different SSL strategies, models and seafloor image datasets are underexplored. This study evaluates the impact of location-based regularisation on six state-of-the-art SSL frameworks, which include Convolutional Neural Network (CNN) and Vision Transformer (ViT) models with varying latent-space dimensionality. Evaluation across three diverse seafloor image datasets finds that location-regularisation consistently improves downstream classification performance over standard SSL, with average F1-score gains of $4.9 \pm 4.0%$ for CNNs and $6.3 \pm 8.9%$ for ViTs, respectively. While CNNs pretrained on generic datasets benefit from high-dimensional latent representations, dataset-optimised SSL achieves similar performance across the high (512) and low (128) dimensional latent representations. Location-regularised SSL improves CNN performance over pre-trained models by $2.7 \pm 2.7%$ and $10.1 \pm 9.4%$ for high and low-dimensional latent representations, respectively. For ViTs, high-dimensionality benefits both pre-trained and dataset-optimised SSL. Although location-regularisation improves SSL performance compared to standard SSL methods, pre-trained ViTs show strong generalisation, matching the best-performing location-regularised SSL with F1-scores of $0.795 \pm 0.075$ and $0.795 \pm 0.077$, respectively. The findings highlight the value of location metadata for SSL regularisation, particularly when using low-dimensional latent representations, and demonstrate strong generalisation of high-dimensional ViTs for seafloor image analysis.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Investigating Location-Regularised Self-Supervised Feature Learning for Seafloor Visual Imagery

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация