Speech transformer models for extracting information from baby cries

2509.02259v1 cs.SD, cs.LG, stat.AP 2025-09-06
Авторы:

Guillem Bonafos, Jéremy Rouch, Lény Lego, David Reby, Hugues Patural, Nicolas Mathevon, Rémy Emonet

Резюме на русском

## Контекст ### Область исследования и мотивация Задачи классификации и анализа аудиоданных часто сталкиваются с проблемой недостатка меток в тренировочных данных, что существенно снижает качество обучения моделей. Биоакустические задачи, такие как классификация звуков животных, не исключение. Однако в последние годы появились модели трансформера, ориентированные на обработку речи, которые доказали свою эффективность в задачах классификации. Несмотря на это, их применение к не-речевым аудиоданным, таким как голоса животных или детские кокетки, остается практически не изученным. ### Мотивация исследования Изучение возможности использования моделей трансформера для классификации голоса детей и других звуков животных может открыть новые пути для обработки не-речевых аудиоданных. Этот подход может существенно повысить эффективность распознавания аудио звуков в биоакустике и других областях, где требуется высокая точность и минимальное количество меток. ## Метод ### Описание методологии В работе использовались пять предварительно обученных моделей трансформера, разработанных для обработки речи. Эти модели были применены к классификации звуков детских криков, полученных из 960 ребенков в разных условиях. Оценка производилась на 115 часов аудио, содержащих 8 классов криков. Модели были сравнены по способности выделять ключевую информацию из звуков, такую как источник звука и голосовая идентичность младенца. ### Технические решения Архитектуры моделей были адаптированы для работы с звуковыми признаками, которые отличаются от речевых. Была применена предварительная обработка звуков, включая нормализацию и разделение сигнала на фрагменты. Эти методы позволили моделям более эффективно обрабатывать не-речевые звуки. ## Результаты ### Оценка моделей Эксперименты показали, что модели трансформера эффективно классифицируют звуки детских криков, достигая высокой точности. Они показали способность выделять важные признаки, такие как громкость, интонация и даже визуальные признаки, связанные с голосовым источником. Наилучшую точность показала одна из моделей, которая выбилась из сравнения за счет более настроенных параметров и адаптации к специфике аудиоданных. ### Описание результатов Полученные результаты определяют, что модели трансформера могут быть успешно применены к классификации звуков животных и детских криков. Они не только распознают звуковые признаки, но и могут интерпретировать информацию о расхождении в голосе, что может быть полезно для диагностики

Abstract

Transfer learning using latent representations from pre-trained speech models achieves outstanding performance in tasks where labeled data is scarce. However, their applicability to non-speech data and the specific acoustic properties encoded in these representations remain largely unexplored. In this study, we investigate both aspects. We evaluate five pre-trained speech models on eight baby cries datasets, encompassing 115 hours of audio from 960 babies. For each dataset, we assess the latent representations of each model across all available classification tasks. Our results demonstrate that the latent representations of these models can effectively classify human baby cries and encode key information related to vocal source instability and identity of the crying baby. In addition, a comparison of the architectures and training strategies of these models offers valuable insights for the design of future models tailored to similar tasks, such as emotion detection.

Ссылки и действия