Investigating Location-Regularised Self-Supervised Feature Learning for Seafloor Visual Imagery
2509.06660v1
cs.CV, cs.RO
2025-09-10
Авторы:
Cailei Liang, Adrian Bodenmann, Emma J Curtis, Samuel Simmons, Kazunori Nagano, Stan Brown, Adam Riese, Blair Thornton
Резюме на русском
## Контекст
Исследование активно применяет роботизированные системы для собирания данных на дне океана, что позволяет эффективно отслеживать и изучать макро- и микробиоты, а также распределение ресурсов. Однако интерпретация больших объемов роботизированно полученных сеафлор-визуальных изображений остается трудоемкой и неэффективной. Несмотря на то, что метаданные о местоположении могут улучшить самообучающиеся методы обучения (Self-Supervised Learning, SSL), их польза для различных SSL-стратегий, моделей и наборов данных остается нередко недостаточно изученной.
## Метод
Работа исследует воздействие регуляризации по местоположению на шесть современных SSL-фреймворков, включая Convolutional Neural Networks (CNN) и Vision Transformers (ViT) с различным размером latent-space. Эксперименты проводились на трех разных наборах данных, содержащих изображения сеафлора. Модели были тренированы с использованием метаданных о местоположении, чтобы оценить, насколько эта информация может улучшить классификационную точность.
## Результаты
Результаты показывают, что регуляризация по местоположению последовательно улучшает классификационную точность для всех исследуемых моделей и наборов данных. Для CNNs F1-score увеличивается на среднем $4.9 \pm 4.0\%$, для ViTs — $6.3 \pm 8.9\%$. Особенно выгодной оказалась регуляризация для моделей с низкой размерностью latent-space. Хотя ViTs с высокой размерностью latent-space показали внушительные результаты, они не всегда превосходят location-regularised SSL.
## Значимость
Исследование открывает перспективу использования метаданных о местоположении в SSL для улучшения обработки сеафлор-визуальных изображений. Это имеет большое значение в области морских исследований, маркерных исследований и макро- и микробиотических мониторингов. Использование подобных методов позволяет существенно повысить эффективность и точность анализа.
## Выводы
Работа подтверждает значимость использования метаданных о местоположении для регуляризации SSL, особенно при использовании низкоразмерных latent-space. Однако high-dimensional ViTs показали сильную общительность и могут быть эффективными даже без использования location-regularisation. На будущем изучении следует фокусироваться на расширении применений данного подхода к различным моделям и наборам данных.
Abstract
High-throughput interpretation of robotically gathered seafloor visual
imagery can increase the efficiency of marine monitoring and exploration.
Although recent research has suggested that location metadata can enhance
self-supervised feature learning (SSL), its benefits across different SSL
strategies, models and seafloor image datasets are underexplored. This study
evaluates the impact of location-based regularisation on six state-of-the-art
SSL frameworks, which include Convolutional Neural Network (CNN) and Vision
Transformer (ViT) models with varying latent-space dimensionality. Evaluation
across three diverse seafloor image datasets finds that location-regularisation
consistently improves downstream classification performance over standard SSL,
with average F1-score gains of $4.9 \pm 4.0%$ for CNNs and $6.3 \pm 8.9%$ for
ViTs, respectively. While CNNs pretrained on generic datasets benefit from
high-dimensional latent representations, dataset-optimised SSL achieves similar
performance across the high (512) and low (128) dimensional latent
representations. Location-regularised SSL improves CNN performance over
pre-trained models by $2.7 \pm 2.7%$ and $10.1 \pm 9.4%$ for high and
low-dimensional latent representations, respectively. For ViTs,
high-dimensionality benefits both pre-trained and dataset-optimised SSL.
Although location-regularisation improves SSL performance compared to standard
SSL methods, pre-trained ViTs show strong generalisation, matching the
best-performing location-regularised SSL with F1-scores of $0.795 \pm 0.075$
and $0.795 \pm 0.077$, respectively. The findings highlight the value of
location metadata for SSL regularisation, particularly when using
low-dimensional latent representations, and demonstrate strong generalisation
of high-dimensional ViTs for seafloor image analysis.
Ссылки и действия
Дополнительные ресурсы: