No Free Lunch from Audio Pretraining in Bioacoustics: A Benchmark Study of Embeddings

2508.10230v1 cs.SD, cs.AI 2025-08-16
Авторы:

Chenggang Chen, Zhiyu Yang

Резюме на русском

#### Контекст Биоакустика, или исследование звуков животных, представляет собой неинвазивный метод мониторинга экосистем, который позволяет изучать поведение и здоровье животных. Одним из актуальных подходов в этой области является использование высокоточных аудио-предобученных моделей глубокого обучения (DL) для извлечения признаков из аудиоданных. Однако недавняя бенчмарк-исследовательская работа показала, что даже самые совершенные модели не всегда эффективны для всех задач в биоакустике. Это подчеркивает необходимость более глубокого понимания и оптимизации этих моделей для конкретных задач. Наша исследовательская работа ориентирована на детальное сравнение различных моделей и оценку их эффективности в задачах биоакустического мониторинга. #### Метод Мы провели бенчмарк-исследование 11 DL-моделей, оценив их эффективность в задаче кластеризации звуков без дополнительной файн-тюнинга. Для этого данные были подготовлены с помощью уменьшения размерности эмбеддингов, а полученные модели были сравнивались по метрикам качества кластеризации. Мы использовали две группы задач: с одной стороны, модели были оценивали на своий результат в предварительно обученных условиях, а с другой — с файн-тюнингом. Данные для исследования были получены из реальных биоакустических наблюдений, что дало возможность оценить модели на реальных данных. Таким образом, мы могли протестировать не только результаты моделей в предобученных условиях, но и после их дообучения. #### Результаты Наши результаты показали, что хотя файн-тюнингованные модели VGG и transformer показывают высокую эффективность в некоторых биоакустических задачах, они оказываются неэффективными в других. Без дообучения, эти модели даже хуже работают, чем AlexNet без файн-тюнинга. Мы также обнаружили, что ResNet, без дообучения, удается лучше отделять звуки от фонового шума, чем другие модели. Также, мы обнаружили, что при меньшем количестве фоновых звуков во время дообучения, модель VGG начинает показывать лучшие результаты. Эти результаты подтверждают необходимость файн-тюнинга и контроля качества эмбеддингов после дообучения. #### Значимость Наши находки имеют важное значение для биоакустической моделирования и мониторинга экосистем. Мы показали, что хотя аудио-предобученные модели DL полезны, необходимо файн-тюнинг и последующую оценку их качества. Это позволяет увеличить их эффективность в различных задачах биоакустики. Наши полученные результаты могут быть применены в различных областях, включая мониторинг животных, оценку их поведения и защиту экосистем. Также, наши нахо

Abstract

Bioacoustics, the study of animal sounds, offers a non-invasive method to monitor ecosystems. Extracting embeddings from audio-pretrained deep learning (DL) models without fine-tuning has become popular for obtaining bioacoustic features for tasks. However, a recent benchmark study reveals that while fine-tuned audio-pretrained VGG and transformer models achieve state-of-the-art performance in some tasks, they fail in others. This study benchmarks 11 DL models on the same tasks by reducing their learned embeddings' dimensionality and evaluating them through clustering. We found that audio-pretrained DL models 1) without fine-tuning even underperform fine-tuned AlexNet, 2) both with and without fine-tuning fail to separate the background from labeled sounds, but ResNet does, and 3) outperform other models when fewer background sounds are included during fine-tuning. This study underscores the necessity of fine-tuning audio-pretrained models and checking the embeddings after fine-tuning. Our codes are available: https://github.com/NeuroscienceAI/Audio\_Embeddings

Ссылки и действия