What Matters for Bioacoustic Encoding
2508.11845v2
cs.SD, cs.AI, cs.IR, cs.LG
2025-08-20
Авторы:
Marius Miron, David Robinson, Milad Alizadeh, Ellen Gilsenan-McMahon, Gagan Narula, Emmanuel Chemla, Maddie Cusimano, Felix Effenberger, Masato Hagiwara, Benjamin Hoffman, Sara Keen, Diane Kim, Jane Lawton, Jen-Yu Liu, Aza Raskin, Olivier Pietquin, Matthieu Geist
Резюме на русском
## Контекст
Биоакустика — это область исследований, которая изучает звуки, вырабатываемые живыми организмами. Она играет кллючевую роль в защите природы, мониторинге биоразнообразия и изучении поведения. Многие задачи в этой области, такие как классификация видов, идентификация индивидов, определение поведения и детекция, хорошо подходят для применения машинного обучения. Однако эти задачи часто сталкиваются с ограниченным количеством отмеченных данных, что создает необходимость в разработке универсального биоакустического кодировщика, который мог бы извлекать полезные представления для различных задач. Однако, существующие подобные модели часто ограничены в своем применении, ориентируясь только на определенные виды (например, птиц) и ограничиваются одним конкретным архитектурным решением или подходом к обучению. В настоящем исследовании мы стремимся охватить более широкий круг факторов, влияющих на эффективность биоакустических моделей, включая разнообразие данных, архитектуры моделей и их применение к различным задачам.
## Метод
Мы проводим широкомасштабное эмпирическое исследование, которое включает в себя различные аспекты биоакустики, которые ранее не получали должного внимания. Обучаемая данная модель должна работать с разнообразными биоакустическими данными, включая звуки птиц, животных и других организмов. Мы используем две стадии обучения: пре-тренировку самостоятельного основанного на аудио и последующую супервизированную подготовку на смешанном корпусе биоакустических и общих аудиоданных. Эта модель проверяется на 26 различных данных, включая классификацию видов, определение индивидов, детекцию и возможность открытия вокального репертора. Мы оцениваем архитектуры моделей, варианты обучения и различные варианты предварительной обработки данных. Эксперименты проводятся на различных уровнях абстракции, чтобы понять, какие факторы имеют наибольшее значение для работы модели.
## Результаты
Мы получили модели с самыми высокими показателями на существующих и проведенных нами бенчмарках. Мы провели подробный анализ, в котором выявили, что самостоятельная предварительная обученность (self-supervised pre-training), следующая за супервизированной подготовкой на смешанном корпусе данных, дает наилучший результат как на одной конкретной дате, так и при переносе модели на другие таски и данные. Мы также показали, что разнообразие данных, как в предварительной, так и в последующей стадии обучения, является критическим для достижения лучших результатов. Мы также выявили, что увеличение различных типов задач и разнообразия данных
Abstract
Bioacoustics, the study of sounds produced by living organisms, plays a vital
role in conservation, biodiversity monitoring, and behavioral studies. Many
tasks in this field, such as species, individual, and behavior classification
and detection, are well-suited to machine learning. However, they often suffer
from limited annotated data, highlighting the need for a general-purpose
bioacoustic encoder capable of extracting useful representations for diverse
downstream tasks. Such encoders have been proposed before, but are often
limited in scope due to a focus on a narrow range of species (typically birds),
and a reliance on a single model architecture or training paradigm. Moreover,
they are usually evaluated on a small set of tasks and datasets. In this work,
we present a large-scale empirical study that covers aspects of bioacoustics
that are relevant to research but have previously been scarcely considered:
training data diversity and scale, model architectures and training recipes,
and the breadth of evaluation tasks and datasets. We obtain encoders that are
state-of-the-art on the existing and proposed benchmarks. We also identify what
matters for training these encoders, such that this work can be extended when
more data are available or better architectures are proposed. Specifically,
across 26 datasets with tasks including species classification, detection,
individual ID, and vocal repertoire discovery, we find self-supervised
pre-training followed by supervised post-training on a mixed bioacoustics +
general-audio corpus yields the strongest in- and out-of-distribution
performance. We show the importance of data diversity in both stages. To
support ongoing research and application, we will release the model
checkpoints.