Identifying birdsong syllables without labelled data
2509.18412v1
cs.SD, cs.LG, eess.AS
2025-09-25
Авторы:
Mélisande Teng, Julien Boussard, David Rolnick, Hugo Larochelle
Резюме на русском
## Контекст
Обработка звуков птиц является важной задачей в области природных языков и акустических исследований. Последовательности силаб ус в птичьих певучих творчествах играют ключевую роль в таких вопросах, как идентификация индивидуальности птиц, изучение их коммуникации и сенсорно-моторного обучения. Однако машинное обучение, используемое в этой области, часто требует ручной маркировки данных, что ограничивает его применение к небольшому числу видов и наборов данных. Это ограничение может быть существенным подводным камнем для изучения менее изученных видов птиц. В нашей работе мы предлагаем первый полностью неучитывающий данных алгоритм для разделения звуков птиц на силабусы. Мы используем автономный подход для выявления силабусных событий, создания шаблонов и анализа записи с помощью метода поиска и сочетания. Наши результаты показывают, что этот алгоритм может эффективно работать без ручной маркировки.
## Метод
Мы предлагаем новую методологию для обработки звуков птиц, основанную на неучитывающей данных методе. Алгоритм работает в несколько этапов: (1) **Обнаружение силабусных событий:** Мы используем автономное обнаружение, чтобы выявить периоды, которые могут быть силабусами. (2) **Кластеризация шаблонов:** Мы используем кластеризацию для создания шаблонов силабуса (силабусов). Эти шаблоны являются представлениями силабуса, которые могут быть использованы для дальнейшего разбора. (3) **Метод поиска и сочетания (Matching Pursuit):** Мы разбиваем звуковую запись на последовательность силабусов с помощью метода поиска и сочетания. Это позволяет получить подробный разбор звуковой записи на отдельные силабусы. Мы оцениваем наш алгоритм с помощью ручных меток на датасете звуков Бенгальских финчей и другого вида птиц, горелки. Наши результаты показывают, что неучитывающий данных подход дает высокую точность. Мы также демонстрируем, что наш метод может различать индивидуальность птиц через уникальные вокальные знаки, на примере Бенгальских финчей и горелки.
## Результаты
Мы проводили эксперименты с нашим алгоритмом на датасете звуков Бенгальских финчей и горелки. Наши результаты показали, что неучитывающий данных подход дает высокую точность в определении силабусов и может различать индивидуальность птиц. Мы также проверили наши результаты с помощью ручных меток, и они подтвердили, что наш алгоритм дает высокое качество распознавания силабусов и может помочь в изучении музыкальных структур птичьих творчеств. Эти результаты демонстрируют успех неучитываю
Abstract
Identifying sequences of syllables within birdsongs is key to tackling a wide
array of challenges, including bird individual identification and better
understanding of animal communication and sensory-motor learning. Recently,
machine learning approaches have demonstrated great potential to alleviate the
need for experts to label long audio recordings by hand. However, they still
typically rely on the availability of labelled data for model training,
restricting applicability to a few species and datasets. In this work, we build
the first fully unsupervised algorithm to decompose birdsong recordings into
sequences of syllables. We first detect syllable events, then cluster them to
extract templates --syllable representations-- before performing matching
pursuit to decompose the recording as a sequence of syllables. We evaluate our
automatic annotations against human labels on a dataset of Bengalese finch
songs and find that our unsupervised method achieves high performance. We also
demonstrate that our approach can distinguish individual birds within a species
through their unique vocal signatures, for both Bengalese finches and another
species, the great tit.
Ссылки и действия
Дополнительные ресурсы: