Perch 2.0: The Bittern Lesson for Bioacoustics
2508.04665v1
cs.LG, cs.SD, eess.AS
2025-08-09
Авторы:
Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, Lauren Harrell, Andrea Burns, Tom Denton
Резюме на русском
Perch 2.0 — это подходящая для работы модель для биоакустики, развитая на основе ее предшественника, Perch. Оригинальная модель Perch была обучена классифицировать звуки тысяч воронобезьяных видов, в то время как Perch 2.0 расширена до обучения на многотельном датасете, включающем не только птиц, но и другие таксоны. Для обучения использовались самораспределение (self-distillation) и новый критерий тренировки — предсказание источника (source-prediction). Эти изменения позволили Perch 2.0 достичь состояния лидера на различных биоакустических бенчмарках, включая BirdSet и BEANS. Несмотря на то, что модель имела мало полезной данной для малой мартинки, она также выйдла в перекрёстной обучении на данных мирового океана. Основной вывод — предсказание тонкого классификационного фонда — является выносливым предпосылкой для биоакустических моделей.
Abstract
Perch is a performant pre-trained model for bioacoustics. It was trained in
supervised fashion, providing both off-the-shelf classification scores for
thousands of vocalizing species as well as strong embeddings for transfer
learning. In this new release, Perch 2.0, we expand from training exclusively
on avian species to a large multi-taxa dataset. The model is trained with
self-distillation using a prototype-learning classifier as well as a new
source-prediction training criterion. Perch 2.0 obtains state-of-the-art
performance on the BirdSet and BEANS benchmarks. It also outperforms
specialized marine models on marine transfer learning tasks, despite having
almost no marine training data. We present hypotheses as to why fine-grained
species classification is a particularly robust pre-training task for
bioacoustics.
Ссылки и действия
Дополнительные ресурсы: