📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Crossing the Species Divide: Transfer Learning from Speech to Animal Sounds

2025-09-06

Авторы:

Jules Cauzinille, Marius Miron, Olivier Pietquin, Masato Hagiwara, Ricard Marxer, Arnaud Rey, Benoit Favre

## Контекст Область исследования, посвященная методам обучения с малоизвестным наблюдением, набирает популярность в области обработки звука, в том числе для задач классификации животных и вредителей в сельскохозяйственных системах. Несмотря на прогресс в области самостоятельного обучения с использованием самостоятельных контекстов, эффективность таких методов на животных звуках остается достаточно неизученной. Установлено, что существуют специфические семантические и акустические особенности в животных звуках, которые могут снизить эффективность предварительно обученных моделей, ориентированных на звуковые данные. В статье рассматривается потенциал самостоятельного обучения с помощью говорения для системы классификации животных звуков. ## Метод В статье применяется методология, основанная на самостоятельном обучении для построения моделей, моделирующих звуки. Рассматриваются модели HuBERT, WavLM и XEUS, обученные на говорении, для генерирования богатых латентных представлений звуков животных. Были использованы техники линейной пробинга и расширенных архитектур для эффективного использования звуковых данных. Было осуществлено изучение представлений в акустической области, где были проанализированы влияние частотного диапазона и шума на результаты классификации. ## Результаты Исследования показали, что модели HuBERT, WavLM и XEUS могут эффективно генерировать латентные представления звуков животных, аналогичные результатам, полученным с использованием моделей, обученных на животных звуках. Было продемонстрировано, что линейная пробинга позволяет эффективно использовать звуковые представления, но с учетом временных данных результаты улучшаются. Также было проверено, что модели гибко реагируют на изменения частотного диапазона и шума, что демонстрирует их высокую резильтативность в трудных условиях. ## Значимость Высокая эффективность моделей, обученных на говорении, может быть использована в различных сельскохозяйственных приложениях, включая классификацию животных звуков и вредителей. Эти модели позволяют экономить время и ресурсы на подготовку данных, а также снижают необходимость в тщательном фине-тюнинге. Таким образом, создается возможность ускорения развития систем мониторинга и контроля животных в сельскохозяйственной сфере. ## Выводы Исследование показало, что модели, обученные на говорении, могут эффективно использоваться для классификации животных звуков. Однако для достижения максимальной эффективности требуется учесть актуальные свойства звуков

Annotation:

Self-supervised speech models have demonstrated impressive performance in speech processing, but their effectiveness on non-speech data remains underexplored. We study the transfer learning capabilities of such models on bioacoustic detection and classification tasks. We show that models such as HuBERT, WavLM, and XEUS can generate rich latent representations of animal sounds across taxa. We analyze the models properties with linear probing on time-averaged representations. We then extend the ap...

ID: 2509.04166v1 cs.LG, cs.AI, cs.CL, cs.SD, 68T07, I.5.4; I.2.6; H.5.5

arXiv PDF