Layer-Wise Analysis of Self-Supervised Representations for Age and Gender Classification in Children's Speech
2508.10332v1
eess.AS, cs.AI, cs.HC, cs.LG, cs.SD
2025-08-16
Авторы:
Abhijit Sinha, Harishankar Kumar, Mohit Joshi, Hemant Kumar Kathania, Shrikanth Narayanan, Sudarsana Reddy Kadiri
Резюме на русском
#### Контекст
Детская речь отличается высокой разнообразностью в звучании, которая возникает из-за развития физиологических характеристик, разнообразия в практике речи и индивидуальных различий. Эти особенности сделали детский голос сложной областью для задач классификации полов и возраста. Несмотря на то, что самостоятельно настроенные методы обучения (self-supervised learning, SSL) демонстрируют высокую эффективность при работе с аудио данными взрослых, их применимость к детской речи остается недостаточно исследована. Однако детская речь является важной областью, так как помогает в развитии интерактивных систем, таких как такие как речевые помощники, которые требуют точности в распознавании детских голосов. В работе предлагается широкомасштабный анализ слоёв моделей Wav2Vec2 для классификации возраста и пола детей, чтобы углубить понимание того, как эти модели кодируют детские голоса.
#### Метод
В ходе исследования проводился подробный анализ слоёв четырёх вариантов модели Wav2Vec2, которые были обучены с помощью метода self-supervised learning на обширных данных PFSTAR и CMU Kids. Для дальнейшего анализа использовалась методика PCA (Principal Component Analysis) с целью уменьшить размерность данных и выделить наиболее важные компоненты. Эксперименты проводились на классификации возраста и пола с использованием различных моделей Wav2Vec2, включая Wav2Vec2-large-lv60, Wav2Vec2-base-100h и другие. Этакие эксперименты позволили изучить, как слои моделей SSL кодируют говорящих характеристики, а также определить лучшие модели для классификации детских голосов.
#### Результаты
Результаты экспериментов показали, что ранние слои (с 1 по 7) моделей Wav2Vec2 эффективнее кодируют говорящие характеристики детей, в то время как диапазон глубже слоев (с 8 по 12) сосредотачивается на лингвистических свойствах речи. Применение PCA позволило уменьшить размерность данных и выделить самые важные компоненты. Лучшие результаты были достигнуты моделью Wav2Vec2-large-lv60, которая показала 97.14% точность при классификации возраста и 98.20% при классификации пола на CMU Kids dataset. На PFSTAR dataset базовая модель Wav2Vec2-base-100h показала 86.05% точность, в то время как Wav2Vec2-large-lv60 — 95.00%.
#### Значимость
Эти результаты имеют неоценимую значимость для применения SSL-моделей в детских системах распознавания речи. Они указывают на то, что ранние слои моделей более устойчивы к изменениям в детской речи, а дальнейшие слои отдают предпочтение лингвистическим особенностям. Это позволяет создавать более точные и настраиваемые системы распознавания, адаптированные к детским голосам. Изучение такого подхода имеет широкие применения
Abstract
Children's speech presents challenges for age and gender classification due
to high variability in pitch, articulation, and developmental traits. While
self-supervised learning (SSL) models perform well on adult speech tasks, their
ability to encode speaker traits in children remains underexplored. This paper
presents a detailed layer-wise analysis of four Wav2Vec2 variants using the
PFSTAR and CMU Kids datasets. Results show that early layers (1-7) capture
speaker-specific cues more effectively than deeper layers, which increasingly
focus on linguistic information. Applying PCA further improves classification,
reducing redundancy and highlighting the most informative components. The
Wav2Vec2-large-lv60 model achieves 97.14% (age) and 98.20% (gender) on CMU
Kids; base-100h and large-lv60 models reach 86.05% and 95.00% on PFSTAR. These
results reveal how speaker traits are structured across SSL model depth and
support more targeted, adaptive strategies for child-aware speech interfaces.