📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Guillem Bonafos, Jéremy Rouch, Lény Lego, David Reby, Hugues Patural, Nicolas Mathevon, Rémy Emonet
## Контекст
### Область исследования и мотивация
Задачи классификации и анализа аудиоданных часто сталкиваются с проблемой недостатка меток в тренировочных данных, что существенно снижает качество обучения моделей. Биоакустические задачи, такие как классификация звуков животных, не исключение. Однако в последние годы появились модели трансформера, ориентированные на обработку речи, которые доказали свою эффективность в задачах классификации. Несмотря на это, их применение к не-речевым аудиоданным, таким как голоса животных или детские кокетки, остается практически не изученным.
### Мотивация исследования
Изучение возможности использования моделей трансформера для классификации голоса детей и других звуков животных может открыть новые пути для обработки не-речевых аудиоданных. Этот подход может существенно повысить эффективность распознавания аудио звуков в биоакустике и других областях, где требуется высокая точность и минимальное количество меток.
## Метод
### Описание методологии
В работе использовались пять предварительно обученных моделей трансформера, разработанных для обработки речи. Эти модели были применены к классификации звуков детских криков, полученных из 960 ребенков в разных условиях. Оценка производилась на 115 часов аудио, содержащих 8 классов криков. Модели были сравнены по способности выделять ключевую информацию из звуков, такую как источник звука и голосовая идентичность младенца.
### Технические решения
Архитектуры моделей были адаптированы для работы с звуковыми признаками, которые отличаются от речевых. Была применена предварительная обработка звуков, включая нормализацию и разделение сигнала на фрагменты. Эти методы позволили моделям более эффективно обрабатывать не-речевые звуки.
## Результаты
### Оценка моделей
Эксперименты показали, что модели трансформера эффективно классифицируют звуки детских криков, достигая высокой точности. Они показали способность выделять важные признаки, такие как громкость, интонация и даже визуальные признаки, связанные с голосовым источником. Наилучшую точность показала одна из моделей, которая выбилась из сравнения за счет более настроенных параметров и адаптации к специфике аудиоданных.
### Описание результатов
Полученные результаты определяют, что модели трансформера могут быть успешно применены к классификации звуков животных и детских криков. Они не только распознают звуковые признаки, но и могут интерпретировать информацию о расхождении в голосе, что может быть полезно для диагностики
Annotation:
Transfer learning using latent representations from pre-trained speech models
achieves outstanding performance in tasks where labeled data is scarce.
However, their applicability to non-speech data and the specific acoustic
properties encoded in these representations remain largely unexplored. In this
study, we investigate both aspects. We evaluate five pre-trained speech models
on eight baby cries datasets, encompassing 115 hours of audio from 960 babies.
For each dataset, we assess the latent ...