Zero-Shot KWS for Children's Speech using Layer-Wise Features from SSL Models

2508.21248v1 eess.AS, cs.AI, cs.HC, cs.SD, eess.SP 2025-09-02
Авторы:

Subham Kutum, Abhijit Sinha, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Mahesh Chandra Govil

Резюме на русском

## Контекст Ключевое слово recognition (KWS) широко используется в различных системах, включая персональные помощников и умные дома. Однако существуют уникальные проблемы при распознавании речи детей из-за их характерных акустических и лингвистических характеристик. Эти проблемы часто приводят к повышенным ошибкам в сравнении с распознаванием речи взрослых. До сих пор было предложено множество методов для улучшения KWS в разговорах взрослых, но для распознавания речи детей эти подходы не всегда подходят. Данная работа предлагает использовать новый подход к KWS для детей, основанный на self-supervised learning (SSL) моделях, таких как Wav2Vec2, HuBERT и Data2Vec. Мы извлекаем леса слоёв как признаков для обучения DNN-системы под управлением Kaldi. Этот подход позволяет использовать штатные модели SSL для KWS без дополнительной подготовки данных. Это означает, что мы можем эффективно распознавать речь детей, даже если у нас нет доступа к их речи в обучающих наборах. Мы проверяем нашу модель на двух разных данных: WSJCAM0 (для моделирования взрослых) и PFSTAR (для моделирования речи детей). ## Метод Мы используем три различных модели SSL: Wav2Vec2, HuBERT и Data2Vec для извлечения признаков. Из каждой модели мы извлекаем признаки выходов каждого слоя (layer-wise features). Затем, эти признаки используются для обучения DNN-системы под управлением Kaldi. Для обучения мы использовали WSJCAM0 (для моделирования взрослых), а для тестирования — PFSTAR (для моделирования речи детей). Это позволяет продемонстрировать zero-shot возможность нашего подхода. Для оценки производительности мы использовали классические метрики: ATWV (активное time-weighted accuracy), MTWV (maximum time-weighted accuracy), а также метрики false alarm и miss probability. Мы также проверяли устойчивость модели к шумам, используя лучшую модель и слой. Для дополнительной общей оценки мы повторили эксперименты с другим датасетом CMU. ## Результаты Наш подход демонстрирует выдающиеся результаты по сравнению с базой (MFCC-based KWS). Использование SSL-макрослоев, особенно из Wav2Vec2 (слой 22), дало значительные пользы: ATWV составил 0.691, MTWV — 0.7003, false alarm — 0.0164, miss probability — 0.0547 для 30 ключевых слов. Мы также проверили работу модели в шумных условиях и показали, что она превосходит традиционный MFCC-подход. Мы также проверили работу модели для разных возрастных групп детей и показали, что она эффективна во всех случаях. Повторные тесты на датасете CMU подтвердили универсальность нашего подхода и его устойчивость к разным условиям. ## Значимость Наш подход имеет широкое применение в различных системах, где необходимо распознавание речи детей. Он может быть использован в ди

Abstract

Numerous methods have been proposed to enhance Keyword Spotting (KWS) in adult speech, but children's speech presents unique challenges for KWS systems due to its distinct acoustic and linguistic characteristics. This paper introduces a zero-shot KWS approach that leverages state-of-the-art self-supervised learning (SSL) models, including Wav2Vec2, HuBERT and Data2Vec. Features are extracted layer-wise from these SSL models and used to train a Kaldi-based DNN KWS system. The WSJCAM0 adult speech dataset was used for training, while the PFSTAR children's speech dataset was used for testing, demonstrating the zero-shot capability of our method. Our approach achieved state-of-the-art results across all keyword sets for children's speech. Notably, the Wav2Vec2 model, particularly layer 22, performed the best, delivering an ATWV score of 0.691, a MTWV score of 0.7003 and probability of false alarm and probability of miss of 0.0164 and 0.0547 respectively, for a set of 30 keywords. Furthermore, age-specific performance evaluation confirmed the system's effectiveness across different age groups of children. To assess the system's robustness against noise, additional experiments were conducted using the best-performing layer of the best-performing Wav2Vec2 model. The results demonstrated a significant improvement over traditional MFCC-based baseline, emphasizing the potential of SSL embeddings even in noisy conditions. To further generalize the KWS framework, the experiments were repeated for an additional CMU dataset. Overall the results highlight the significant contribution of SSL features in enhancing Zero-Shot KWS performance for children's speech, effectively addressing the challenges associated with the distinct characteristics of child speakers.

Ссылки и действия