BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

2509.15001v1 eess.AS, cs.LG, cs.SD 2025-09-20

Авторы:

Théo Charlot, Tarek Kunze, Maxime Poli, Alejandrina Cristia, Emmanuel Dupoux, Marvin Lavechin

Резюме на русском

## Контекст Развитие речи у детей является ключевым аспектом их уникального роста и развития. Для исследования этого процесса речью детей в реальных условиях используются данные, записанные в домашних или школьных средах. Однако существующие модели синтеза и анализа речи, обученные на чистом говоре взрослых, часто оказываются неэффективными для работы с детскими записями, из-за значительных акустических и лексических различий. Это ставит дополнительные требования к созданию моделей, которые бы эффективно работали с данными, записанными в живых условиях у детей. ## Метод Мы предлагаем BabyHuBERT, первую модель самостоятельного самостоятельного обучения, обученную на огромном объеме данных — 13,000 часов мультиязычных данных, записанных в реальных условиях, с детьми разных возрастов. Метод основывается на алгоритме HuBERT, с помощью которого учитывается спектро-хроно-грамма аудиоданных. Модель прошла тренировку на данных, записанных в разных странах и языках, чтобы создать универсальную модель, которая может применяться в разных регионах. Мы тестировали модель на ситуациях, когда нужно отличать речь детей от речи взрослых и других детей. ## Результаты Мы проводили испытания BabyHuBERT на шести разных наборах данных в разных регионах. Модель показала F1-показатели от 52.1% до 74.4%, стабильно превосходя W2V2-LL4300 (обученную на английских данных) и стандартную HuBERT (обученную на чистом аудио взрослых). Особые улучшения были замечены на вангату (13.2 абсолютных очков) и на соломонских островах (15.9 очков), что демонстрирует эффективность BabyHuBERT на редко используемых языках. ## Значимость BabyHuBERT может применяться в различных областях, включая развитие новых способов изучения детской речи, моделирование дефектов речи и разработку моделей для предсказания детского развития. Эта модель является фундаментальным решением для обеспечения эффективной обработки данных в реальных условиях. ## Выводы BabyHuBERT достигает значительных улучшений в сегментации речи на детских записях, становится первой моделью, обученной на мультиязычных данных в реальных условиях. Мы разделяем код и модели, чтобы поддерживать дальнейшие исследования в области развития речи у детей. Будущие исследования будут сосредоточены на улучшении модели для новых сложностей и применении ее к другим языкам и региональным данным.

Abstract

Child-centered long-form recordings are essential for studying early language development, but existing speech models trained on clean adult data perform poorly due to acoustic and linguistic differences. We introduce BabyHuBERT, the first self-supervised speech representation model trained on 13,000 hours of multilingual child-centered long-form recordings spanning over 40 languages. We evaluate BabyHuBERT on speaker segmentation, identifying when target children speak versus female adults, male adults, or other children -- a fundamental preprocessing step for analyzing naturalistic language experiences. BabyHuBERT achieves F1-scores from 52.1% to 74.4% across six diverse datasets, consistently outperforming W2V2-LL4300 (trained on English long-forms) and standard HuBERT (trained on clean adult speech). Notable improvements include 13.2 absolute F1 points over HuBERT on Vanuatu and 15.9 points on Solomon Islands corpora, demonstrating effectiveness on underrepresented languages. By sharing code and models, BabyHuBERT serves as a foundation model for child speech research, enabling fine-tuning on diverse downstream tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

The Spheres Dataset: Multitrack Orchestral Recordings for Music Source Separatio...

Systematic Evaluation of Time-Frequency Features for Binaural Sound Source Local...

Systematic evaluation of time-frequency features for binaural sound source local...

Diffusion Buffer for Online Generative Speech Enhancement

Drax: Speech Recognition with Discrete Flow Matching

Навигация