Speech transformer models for extracting information from baby cries
2509.02259v1
cs.SD, cs.LG, stat.AP
2025-09-06
Авторы:
Guillem Bonafos, Jéremy Rouch, Lény Lego, David Reby, Hugues Patural, Nicolas Mathevon, Rémy Emonet
Резюме на русском
## Контекст
### Область исследования и мотивация
Задачи классификации и анализа аудиоданных часто сталкиваются с проблемой недостатка меток в тренировочных данных, что существенно снижает качество обучения моделей. Биоакустические задачи, такие как классификация звуков животных, не исключение. Однако в последние годы появились модели трансформера, ориентированные на обработку речи, которые доказали свою эффективность в задачах классификации. Несмотря на это, их применение к не-речевым аудиоданным, таким как голоса животных или детские кокетки, остается практически не изученным.
### Мотивация исследования
Изучение возможности использования моделей трансформера для классификации голоса детей и других звуков животных может открыть новые пути для обработки не-речевых аудиоданных. Этот подход может существенно повысить эффективность распознавания аудио звуков в биоакустике и других областях, где требуется высокая точность и минимальное количество меток.
## Метод
### Описание методологии
В работе использовались пять предварительно обученных моделей трансформера, разработанных для обработки речи. Эти модели были применены к классификации звуков детских криков, полученных из 960 ребенков в разных условиях. Оценка производилась на 115 часов аудио, содержащих 8 классов криков. Модели были сравнены по способности выделять ключевую информацию из звуков, такую как источник звука и голосовая идентичность младенца.
### Технические решения
Архитектуры моделей были адаптированы для работы с звуковыми признаками, которые отличаются от речевых. Была применена предварительная обработка звуков, включая нормализацию и разделение сигнала на фрагменты. Эти методы позволили моделям более эффективно обрабатывать не-речевые звуки.
## Результаты
### Оценка моделей
Эксперименты показали, что модели трансформера эффективно классифицируют звуки детских криков, достигая высокой точности. Они показали способность выделять важные признаки, такие как громкость, интонация и даже визуальные признаки, связанные с голосовым источником. Наилучшую точность показала одна из моделей, которая выбилась из сравнения за счет более настроенных параметров и адаптации к специфике аудиоданных.
### Описание результатов
Полученные результаты определяют, что модели трансформера могут быть успешно применены к классификации звуков животных и детских криков. Они не только распознают звуковые признаки, но и могут интерпретировать информацию о расхождении в голосе, что может быть полезно для диагностики
Abstract
Transfer learning using latent representations from pre-trained speech models
achieves outstanding performance in tasks where labeled data is scarce.
However, their applicability to non-speech data and the specific acoustic
properties encoded in these representations remain largely unexplored. In this
study, we investigate both aspects. We evaluate five pre-trained speech models
on eight baby cries datasets, encompassing 115 hours of audio from 960 babies.
For each dataset, we assess the latent representations of each model across all
available classification tasks. Our results demonstrate that the latent
representations of these models can effectively classify human baby cries and
encode key information related to vocal source instability and identity of the
crying baby. In addition, a comparison of the architectures and training
strategies of these models offers valuable insights for the design of future
models tailored to similar tasks, such as emotion detection.
Ссылки и действия
Дополнительные ресурсы: