What Matters for Bioacoustic Encoding
2508.11845v1
cs.SD, cs.AI, cs.IR, cs.LG
2025-08-19
Авторы:
Marius Miron, David Robinson, Milad Alizadeh, Ellen Gilsenan-McMahon, Gagan Narula, Olivier Pietquin, Matthieu Geist, Emmanuel Chemla, Maddie Cusimano, Felix Effenberger, Masato Hagiwara, Benjamin Hoffman, Sara Keen, Diane Kim, Jane Lawton, Jen-Yu Liu, Aza Raskin
Резюме на русском
## Контекст
Биоакустика — это наука, изучающая звуки, вырабатываемые живыми организмами. Она играет ключевую роль в защите природы, мониторинге биоразнообразия и изучении поведения животных. Однако многие задачи в этой области, такие как классификация видов, идентификация индивидуумов и изучение поведения, сталкиваются с ограничениями по объему аннотированных данных. Это сподвигло исследователей искать общего назначения модели, которая могла бы эффективно извлекать представления для различных задач. Несмотря на то, что такие модели были предложены ранее, они часто ограничиваются спецификой видов (обычно птиц) и ограниченным набором задач и данных. Данная работа предлагает широкомасштабное исследование новых аспектов биоакустики, которые до сих пор не были достаточно раскрыты, включая разнообразие и объем выборок, архитектуры моделей и широту задач, на которых они тестируются.
## Метод
Работа представляет собой широкомасштабное исследование, охватывающее 26 датасетов с задачами, такими как классификация видов, идентификация индивидуумов, выявление голосовых реперториев и другие. Использовались различные модели и архитектуры, включая самостоятельно предсказуемые модели, которые получали предварительную обученность на биоакустических данных и дополнительной обученностью на общей коллекции аудио. Основной фокус был на сравнении различных архитектур, способов обучения и методов предварительной обученности, чтобы определить, что действительно влияет на эффективность решения задач биоакустики. Были проведены эксперименты для определения взаимосвязей между различными факторами, такими как объем данных, виды архитектур моделей и методы обучения.
## Результаты
Предложенные модели показали состояние техники на широком спектре задач и датасетов. Оказалось, что самостоятельно предсказуемые модели, которые прошли предварительное обучение на биоакустических данных и дополнительно обучались на общей коллекции аудио, демонстрируют лучшие результаты в классификации видов, идентификации индивидуумов и других задачах. Было выявлено, что данные, использованные для обучения, имеют большое значение — как для процесса предварительного обучения, так и для последующего супервизованного обучения. Особое внимание было уделено влиянию различных архитектур и методов обучения на качество решения задач. Результаты показали, что модели, которые прошли предварительное обучение и дополнительно обучались на миксе биоакустических и общих аудиоданных, показали лучшие результаты в кросс-датасетных экспериментах.
## Значимость
Ис
Abstract
Bioacoustics, the study of sounds produced by living organisms, plays a vital
role in conservation, biodiversity monitoring, and behavioral studies. Many
tasks in this field, such as species, individual, and behavior classification
and detection, are well-suited to machine learning. However, they often suffer
from limited annotated data, highlighting the need for a general-purpose
bioacoustic encoder capable of extracting useful representations for diverse
downstream tasks. Such encoders have been proposed before, but are often
limited in scope due to a focus on a narrow range of species (typically birds),
and a reliance on a single model architecture or training paradigm. Moreover,
they are usually evaluated on a small set of tasks and datasets. In this work,
we present a large-scale empirical study that covers aspects of bioacoustics
that are relevant to research but have previously been scarcely considered:
training data diversity and scale, model architectures and training recipes,
and the breadth of evaluation tasks and datasets. We obtain encoders that are
state-of-the-art on the existing and proposed benchmarks. We also identify what
matters for training these encoders, such that this work can be extended when
more data are available or better architectures are proposed. Specifically,
across 26 datasets with tasks including species classification, detection,
individual ID, and vocal repertoire discovery, we find self-supervised
pre-training followed by supervised post-training on a mixed bioacoustics +
general-audio corpus yields the strongest in- and out-of-distribution
performance. We show the importance of data diversity in both stages. To
support ongoing research and application, we will release the model
checkpoints.