Ecologically Valid Benchmarking and Adaptive Attention: Scalable Marine Bioacoustic Monitoring
2509.04682v1
cs.SD, cs.AI, cs.CV, cs.IR, cs.LG, eess.AS
2025-09-09
Авторы:
Nicholas R. Rasmussen, Rodrigue Rizk, Longwei Wang, KC Santosh
Резюме на русском
## Контекст
Устьевый пассивный акустический мониторинг (UPAM) предоставляет богатые данные по пространству и времени для длительного экологического анализа. Однако наличие встроенного шума и сложных зависимостей сигналов ставит под угрозу устойчивость моделей и их общезначимость. Несмотря на то, что мультислойная гладь улучшила локализацию целевых звуков, проблемы, такие как изменчивость изменчивого шума, различные эффекты распространения и смешанные биологические и антропогенные источники, требуют устойчивых архитектур и строгих экологических оценок. Поэтому требуется развитие методов, позволяющих эффективно работать с этими проблемами.
## Метод
Разработан новый фреймворк для кросс-валидации, названный GetNetUPAM. Он разделяет данные на отдельные сегменты "сайт-год", сохраняя характеристики записи и обеспечивая, что каждая валидационная партия представляет собой уникальную экологическую подгруппу. Это снижает вероятность переобучения к местным шумам и артефактам сенсоров. Блокировка "сайт-год" включает общую экологическую разнообразность, в то время как классическая кросс-валидация на случайных подмножествах измеряет общую общую общую генерализацию, которая отсутствует в существующих бенчмарках. Используя GetNetUPAM, предлагается модель ARPA-N с адаптивным резолюционным пулингом и вниманием. Адаптивная пульпация с пространственным вниманием расширяет рецептурное поле, ловит крупномасштабную контекстную информацию без избытка параметров.
## Результаты
В GetNetUPAM-окружении ARPA-N показала 14,4% увеличение средней точности по сравнению с DenseNet-базлами. Это привело к порядку меньшей вариабельности результатов во всех метриках. Эти результаты доказывают целесообразность ARPA-N в решении проблем устойчивости и общей эффективности моделей в UPAM.
## Значимость
Разработанная архитектура и фреймворк могут быть применены в различных задачах мониторинга биоакустики, а также в других областях, где требуется обработка сложных акустических данных. Они обеспечивают более точную и консистентную обработку, что вносит вклад в улучшение оценок экосистем и развитие стоимостно эффективных решений для биоакустического мониторинга.
## Выводы
Основным достижением является разработка универсального фреймворка для кросс-валидации и модели с адаптивным вниманием, которые позволяют увеличить точность и стабильность моделей в UPAM. Будущие исследования будут направлены на расширение возможностей модели для обработки более сложных сценариев и включения дополнительных источников данных для
Abstract
Underwater Passive Acoustic Monitoring (UPAM) provides rich spatiotemporal
data for long-term ecological analysis, but intrinsic noise and complex signal
dependencies hinder model stability and generalization. Multilayered windowing
has improved target sound localization, yet variability from shifting ambient
noise, diverse propagation effects, and mixed biological and anthropogenic
sources demands robust architectures and rigorous evaluation. We introduce
GetNetUPAM, a hierarchical nested cross-validation framework designed to
quantify model stability under ecologically realistic variability. Data are
partitioned into distinct site-year segments, preserving recording
heterogeneity and ensuring each validation fold reflects a unique environmental
subset, reducing overfitting to localized noise and sensor artifacts. Site-year
blocking enforces evaluation against genuine environmental diversity, while
standard cross-validation on random subsets measures generalization across
UPAM's full signal distribution, a dimension absent from current benchmarks.
Using GetNetUPAM as the evaluation backbone, we propose the Adaptive Resolution
Pooling and Attention Network (ARPA-N), a neural architecture for irregular
spectrogram dimensions. Adaptive pooling with spatial attention extends the
receptive field, capturing global context without excessive parameters. Under
GetNetUPAM, ARPA-N achieves a 14.4% gain in average precision over DenseNet
baselines and a log2-scale order-of-magnitude drop in variability across all
metrics, enabling consistent detection across site-year folds and advancing
scalable, accurate bioacoustic monitoring.