No Free Lunch from Audio Pretraining in Bioacoustics: A Benchmark Study of Embeddings
2508.10230v1
cs.SD, cs.AI
2025-08-16
Авторы:
Chenggang Chen, Zhiyu Yang
Резюме на русском
#### Контекст
Биоакустика, или исследование звуков животных, представляет собой неинвазивный метод мониторинга экосистем, который позволяет изучать поведение и здоровье животных. Одним из актуальных подходов в этой области является использование высокоточных аудио-предобученных моделей глубокого обучения (DL) для извлечения признаков из аудиоданных. Однако недавняя бенчмарк-исследовательская работа показала, что даже самые совершенные модели не всегда эффективны для всех задач в биоакустике. Это подчеркивает необходимость более глубокого понимания и оптимизации этих моделей для конкретных задач. Наша исследовательская работа ориентирована на детальное сравнение различных моделей и оценку их эффективности в задачах биоакустического мониторинга.
#### Метод
Мы провели бенчмарк-исследование 11 DL-моделей, оценив их эффективность в задаче кластеризации звуков без дополнительной файн-тюнинга. Для этого данные были подготовлены с помощью уменьшения размерности эмбеддингов, а полученные модели были сравнивались по метрикам качества кластеризации. Мы использовали две группы задач: с одной стороны, модели были оценивали на своий результат в предварительно обученных условиях, а с другой — с файн-тюнингом. Данные для исследования были получены из реальных биоакустических наблюдений, что дало возможность оценить модели на реальных данных. Таким образом, мы могли протестировать не только результаты моделей в предобученных условиях, но и после их дообучения.
#### Результаты
Наши результаты показали, что хотя файн-тюнингованные модели VGG и transformer показывают высокую эффективность в некоторых биоакустических задачах, они оказываются неэффективными в других. Без дообучения, эти модели даже хуже работают, чем AlexNet без файн-тюнинга. Мы также обнаружили, что ResNet, без дообучения, удается лучше отделять звуки от фонового шума, чем другие модели. Также, мы обнаружили, что при меньшем количестве фоновых звуков во время дообучения, модель VGG начинает показывать лучшие результаты. Эти результаты подтверждают необходимость файн-тюнинга и контроля качества эмбеддингов после дообучения.
#### Значимость
Наши находки имеют важное значение для биоакустической моделирования и мониторинга экосистем. Мы показали, что хотя аудио-предобученные модели DL полезны, необходимо файн-тюнинг и последующую оценку их качества. Это позволяет увеличить их эффективность в различных задачах биоакустики. Наши полученные результаты могут быть применены в различных областях, включая мониторинг животных, оценку их поведения и защиту экосистем. Также, наши нахо
Abstract
Bioacoustics, the study of animal sounds, offers a non-invasive method to
monitor ecosystems. Extracting embeddings from audio-pretrained deep learning
(DL) models without fine-tuning has become popular for obtaining bioacoustic
features for tasks. However, a recent benchmark study reveals that while
fine-tuned audio-pretrained VGG and transformer models achieve state-of-the-art
performance in some tasks, they fail in others. This study benchmarks 11 DL
models on the same tasks by reducing their learned embeddings' dimensionality
and evaluating them through clustering. We found that audio-pretrained DL
models 1) without fine-tuning even underperform fine-tuned AlexNet, 2) both
with and without fine-tuning fail to separate the background from labeled
sounds, but ResNet does, and 3) outperform other models when fewer background
sounds are included during fine-tuning. This study underscores the necessity of
fine-tuning audio-pretrained models and checking the embeddings after
fine-tuning. Our codes are available:
https://github.com/NeuroscienceAI/Audio\_Embeddings
Ссылки и действия
Дополнительные ресурсы: