📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Zero-Shot KWS for Children's Speech using Layer-Wise Features from SSL Models

2025-09-02

Авторы:

Subham Kutum, Abhijit Sinha, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Mahesh Chandra Govil

## Контекст Ключевое слово recognition (KWS) широко используется в различных системах, включая персональные помощников и умные дома. Однако существуют уникальные проблемы при распознавании речи детей из-за их характерных акустических и лингвистических характеристик. Эти проблемы часто приводят к повышенным ошибкам в сравнении с распознаванием речи взрослых. До сих пор было предложено множество методов для улучшения KWS в разговорах взрослых, но для распознавания речи детей эти подходы не всегда подходят. Данная работа предлагает использовать новый подход к KWS для детей, основанный на self-supervised learning (SSL) моделях, таких как Wav2Vec2, HuBERT и Data2Vec. Мы извлекаем леса слоёв как признаков для обучения DNN-системы под управлением Kaldi. Этот подход позволяет использовать штатные модели SSL для KWS без дополнительной подготовки данных. Это означает, что мы можем эффективно распознавать речь детей, даже если у нас нет доступа к их речи в обучающих наборах. Мы проверяем нашу модель на двух разных данных: WSJCAM0 (для моделирования взрослых) и PFSTAR (для моделирования речи детей). ## Метод Мы используем три различных модели SSL: Wav2Vec2, HuBERT и Data2Vec для извлечения признаков. Из каждой модели мы извлекаем признаки выходов каждого слоя (layer-wise features). Затем, эти признаки используются для обучения DNN-системы под управлением Kaldi. Для обучения мы использовали WSJCAM0 (для моделирования взрослых), а для тестирования — PFSTAR (для моделирования речи детей). Это позволяет продемонстрировать zero-shot возможность нашего подхода. Для оценки производительности мы использовали классические метрики: ATWV (активное time-weighted accuracy), MTWV (maximum time-weighted accuracy), а также метрики false alarm и miss probability. Мы также проверяли устойчивость модели к шумам, используя лучшую модель и слой. Для дополнительной общей оценки мы повторили эксперименты с другим датасетом CMU. ## Результаты Наш подход демонстрирует выдающиеся результаты по сравнению с базой (MFCC-based KWS). Использование SSL-макрослоев, особенно из Wav2Vec2 (слой 22), дало значительные пользы: ATWV составил 0.691, MTWV — 0.7003, false alarm — 0.0164, miss probability — 0.0547 для 30 ключевых слов. Мы также проверили работу модели в шумных условиях и показали, что она превосходит традиционный MFCC-подход. Мы также проверили работу модели для разных возрастных групп детей и показали, что она эффективна во всех случаях. Повторные тесты на датасете CMU подтвердили универсальность нашего подхода и его устойчивость к разным условиям. ## Значимость Наш подход имеет широкое применение в различных системах, где необходимо распознавание речи детей. Он может быть использован в ди

Annotation:

Numerous methods have been proposed to enhance Keyword Spotting (KWS) in adult speech, but children's speech presents unique challenges for KWS systems due to its distinct acoustic and linguistic characteristics. This paper introduces a zero-shot KWS approach that leverages state-of-the-art self-supervised learning (SSL) models, including Wav2Vec2, HuBERT and Data2Vec. Features are extracted layer-wise from these SSL models and used to train a Kaldi-based DNN KWS system. The WSJCAM0 adult speech...

ID: 2508.21248v1 eess.AS, cs.AI, cs.HC, cs.SD, eess.SP

arXiv PDF