📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Guillem Bonafos, Jéremy Rouch, Lény Lego, David Reby, Hugues Patural, Nicolas Mathevon, Rémy Emonet

## Контекст ### Область исследования и мотивация Задачи классификации и анализа аудиоданных часто сталкиваются с проблемой недостатка меток в тренировочных данных, что существенно снижает качество обучения моделей. Биоакустические задачи, такие как классификация звуков животных, не исключение. Однако в последние годы появились модели трансформера, ориентированные на обработку речи, которые доказали свою эффективность в задачах классификации. Несмотря на это, их применение к не-речевым аудиоданным, таким как голоса животных или детские кокетки, остается практически не изученным. ### Мотивация исследования Изучение возможности использования моделей трансформера для классификации голоса детей и других звуков животных может открыть новые пути для обработки не-речевых аудиоданных. Этот подход может существенно повысить эффективность распознавания аудио звуков в биоакустике и других областях, где требуется высокая точность и минимальное количество меток. ## Метод ### Описание методологии В работе использовались пять предварительно обученных моделей трансформера, разработанных для обработки речи. Эти модели были применены к классификации звуков детских криков, полученных из 960 ребенков в разных условиях. Оценка производилась на 115 часов аудио, содержащих 8 классов криков. Модели были сравнены по способности выделять ключевую информацию из звуков, такую как источник звука и голосовая идентичность младенца. ### Технические решения Архитектуры моделей были адаптированы для работы с звуковыми признаками, которые отличаются от речевых. Была применена предварительная обработка звуков, включая нормализацию и разделение сигнала на фрагменты. Эти методы позволили моделям более эффективно обрабатывать не-речевые звуки. ## Результаты ### Оценка моделей Эксперименты показали, что модели трансформера эффективно классифицируют звуки детских криков, достигая высокой точности. Они показали способность выделять важные признаки, такие как громкость, интонация и даже визуальные признаки, связанные с голосовым источником. Наилучшую точность показала одна из моделей, которая выбилась из сравнения за счет более настроенных параметров и адаптации к специфике аудиоданных. ### Описание результатов Полученные результаты определяют, что модели трансформера могут быть успешно применены к классификации звуков животных и детских криков. Они не только распознают звуковые признаки, но и могут интерпретировать информацию о расхождении в голосе, что может быть полезно для диагностики
Annotation:
Transfer learning using latent representations from pre-trained speech models achieves outstanding performance in tasks where labeled data is scarce. However, their applicability to non-speech data and the specific acoustic properties encoded in these representations remain largely unexplored. In this study, we investigate both aspects. We evaluate five pre-trained speech models on eight baby cries datasets, encompassing 115 hours of audio from 960 babies. For each dataset, we assess the latent ...
ID: 2509.02259v1 cs.SD, cs.LG, stat.AP