📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Layer-Wise Analysis of Self-Supervised Representations for Age and Gender Classification in Children's Speech

2025-08-16

Авторы:

Abhijit Sinha, Harishankar Kumar, Mohit Joshi, Hemant Kumar Kathania, Shrikanth Narayanan, Sudarsana Reddy Kadiri

#### Контекст Детская речь отличается высокой разнообразностью в звучании, которая возникает из-за развития физиологических характеристик, разнообразия в практике речи и индивидуальных различий. Эти особенности сделали детский голос сложной областью для задач классификации полов и возраста. Несмотря на то, что самостоятельно настроенные методы обучения (self-supervised learning, SSL) демонстрируют высокую эффективность при работе с аудио данными взрослых, их применимость к детской речи остается недостаточно исследована. Однако детская речь является важной областью, так как помогает в развитии интерактивных систем, таких как такие как речевые помощники, которые требуют точности в распознавании детских голосов. В работе предлагается широкомасштабный анализ слоёв моделей Wav2Vec2 для классификации возраста и пола детей, чтобы углубить понимание того, как эти модели кодируют детские голоса. #### Метод В ходе исследования проводился подробный анализ слоёв четырёх вариантов модели Wav2Vec2, которые были обучены с помощью метода self-supervised learning на обширных данных PFSTAR и CMU Kids. Для дальнейшего анализа использовалась методика PCA (Principal Component Analysis) с целью уменьшить размерность данных и выделить наиболее важные компоненты. Эксперименты проводились на классификации возраста и пола с использованием различных моделей Wav2Vec2, включая Wav2Vec2-large-lv60, Wav2Vec2-base-100h и другие. Этакие эксперименты позволили изучить, как слои моделей SSL кодируют говорящих характеристики, а также определить лучшие модели для классификации детских голосов. #### Результаты Результаты экспериментов показали, что ранние слои (с 1 по 7) моделей Wav2Vec2 эффективнее кодируют говорящие характеристики детей, в то время как диапазон глубже слоев (с 8 по 12) сосредотачивается на лингвистических свойствах речи. Применение PCA позволило уменьшить размерность данных и выделить самые важные компоненты. Лучшие результаты были достигнуты моделью Wav2Vec2-large-lv60, которая показала 97.14% точность при классификации возраста и 98.20% при классификации пола на CMU Kids dataset. На PFSTAR dataset базовая модель Wav2Vec2-base-100h показала 86.05% точность, в то время как Wav2Vec2-large-lv60 — 95.00%. #### Значимость Эти результаты имеют неоценимую значимость для применения SSL-моделей в детских системах распознавания речи. Они указывают на то, что ранние слои моделей более устойчивы к изменениям в детской речи, а дальнейшие слои отдают предпочтение лингвистическим особенностям. Это позволяет создавать более точные и настраиваемые системы распознавания, адаптированные к детским голосам. Изучение такого подхода имеет широкие применения

Annotation:

Children's speech presents challenges for age and gender classification due to high variability in pitch, articulation, and developmental traits. While self-supervised learning (SSL) models perform well on adult speech tasks, their ability to encode speaker traits in children remains underexplored. This paper presents a detailed layer-wise analysis of four Wav2Vec2 variants using the PFSTAR and CMU Kids datasets. Results show that early layers (1-7) capture speaker-specific cues more effectively...

ID: 2508.10332v1 eess.AS, cs.AI, cs.HC, cs.LG, cs.SD

arXiv PDF