Ecologically Valid Benchmarking and Adaptive Attention: Scalable Marine Bioacoustic Monitoring

2509.04682v1 cs.SD, cs.AI, cs.CV, cs.IR, cs.LG, eess.AS 2025-09-09
Авторы:

Nicholas R. Rasmussen, Rodrigue Rizk, Longwei Wang, KC Santosh

Резюме на русском

## Контекст Устьевый пассивный акустический мониторинг (UPAM) предоставляет богатые данные по пространству и времени для длительного экологического анализа. Однако наличие встроенного шума и сложных зависимостей сигналов ставит под угрозу устойчивость моделей и их общезначимость. Несмотря на то, что мультислойная гладь улучшила локализацию целевых звуков, проблемы, такие как изменчивость изменчивого шума, различные эффекты распространения и смешанные биологические и антропогенные источники, требуют устойчивых архитектур и строгих экологических оценок. Поэтому требуется развитие методов, позволяющих эффективно работать с этими проблемами. ## Метод Разработан новый фреймворк для кросс-валидации, названный GetNetUPAM. Он разделяет данные на отдельные сегменты "сайт-год", сохраняя характеристики записи и обеспечивая, что каждая валидационная партия представляет собой уникальную экологическую подгруппу. Это снижает вероятность переобучения к местным шумам и артефактам сенсоров. Блокировка "сайт-год" включает общую экологическую разнообразность, в то время как классическая кросс-валидация на случайных подмножествах измеряет общую общую общую генерализацию, которая отсутствует в существующих бенчмарках. Используя GetNetUPAM, предлагается модель ARPA-N с адаптивным резолюционным пулингом и вниманием. Адаптивная пульпация с пространственным вниманием расширяет рецептурное поле, ловит крупномасштабную контекстную информацию без избытка параметров. ## Результаты В GetNetUPAM-окружении ARPA-N показала 14,4% увеличение средней точности по сравнению с DenseNet-базлами. Это привело к порядку меньшей вариабельности результатов во всех метриках. Эти результаты доказывают целесообразность ARPA-N в решении проблем устойчивости и общей эффективности моделей в UPAM. ## Значимость Разработанная архитектура и фреймворк могут быть применены в различных задачах мониторинга биоакустики, а также в других областях, где требуется обработка сложных акустических данных. Они обеспечивают более точную и консистентную обработку, что вносит вклад в улучшение оценок экосистем и развитие стоимостно эффективных решений для биоакустического мониторинга. ## Выводы Основным достижением является разработка универсального фреймворка для кросс-валидации и модели с адаптивным вниманием, которые позволяют увеличить точность и стабильность моделей в UPAM. Будущие исследования будут направлены на расширение возможностей модели для обработки более сложных сценариев и включения дополнительных источников данных для

Abstract

Underwater Passive Acoustic Monitoring (UPAM) provides rich spatiotemporal data for long-term ecological analysis, but intrinsic noise and complex signal dependencies hinder model stability and generalization. Multilayered windowing has improved target sound localization, yet variability from shifting ambient noise, diverse propagation effects, and mixed biological and anthropogenic sources demands robust architectures and rigorous evaluation. We introduce GetNetUPAM, a hierarchical nested cross-validation framework designed to quantify model stability under ecologically realistic variability. Data are partitioned into distinct site-year segments, preserving recording heterogeneity and ensuring each validation fold reflects a unique environmental subset, reducing overfitting to localized noise and sensor artifacts. Site-year blocking enforces evaluation against genuine environmental diversity, while standard cross-validation on random subsets measures generalization across UPAM's full signal distribution, a dimension absent from current benchmarks. Using GetNetUPAM as the evaluation backbone, we propose the Adaptive Resolution Pooling and Attention Network (ARPA-N), a neural architecture for irregular spectrogram dimensions. Adaptive pooling with spatial attention extends the receptive field, capturing global context without excessive parameters. Under GetNetUPAM, ARPA-N achieves a 14.4% gain in average precision over DenseNet baselines and a log2-scale order-of-magnitude drop in variability across all metrics, enabling consistent detection across site-year folds and advancing scalable, accurate bioacoustic monitoring.

Ссылки и действия