Adaptive Knowledge Distillation for Device-Directed Speech Detection
2508.02801v1
cs.SD, cs.AI, eess.AS
2025-08-09
Авторы:
Hyung Gun Chi, Florian Pesce, Wonil Chang, Oggi Rudovic, Arturo Argueta, Stefan Braun, Vineet Garg, Ahmed Hussen Abdelaziz
Резюме на русском
**Резюме**
В статье рассматривается проблема детекции устного запроса пользователя к голосовому помощнику (Device-Directed Speech Detection, DDSD), которая критична для обеспечения естественного интерфейса. Авторы предлагают новую адаптивную методику сбыстрования модели через **Knowledge Distillation (KD)**. Уникальность этого подхода заключается в использовании адаптивных адаптеров, которые применяются над замороженным предварительно обученным акустическим кодировщиком (teacher), основанным на трансформере или конформере. Эти адаптеры взаимодействуют с моделью-учеником (student) для целевой задачи DDSD. Эксперименты показали, что такой подход повышает точность работы модели, снижая ошибку на ключевых запросах (Equal Error Rate) на +26% при ключевых запросах и на +19% при следующих (follow-up) запросах. Результаты доказали генерализируемость метода для разных архитектур моделей.
Abstract
Device-directed speech detection (DDSD) is a binary classification task that
separates the user's queries to a voice assistant (VA) from background speech
or side conversations. This is important for achieving naturalistic user
experience. To this end, we propose knowledge distillation (KD) to enhance DDSD
accuracy while ensuring efficient deployment. Specifically, we introduce a
novel adaptive KD method that transfers knowledge from general representations
of an ASR large pre-trained acoustic encoder (teacher). We apply task-specific
adapters, on top of the (frozen) teacher encoder, trained jointly with the
student model on DDSD. We demonstrate that the proposed adaptive KD outperforms
the student model without distillation in the keyword and keyword-free
(follow-up) invocations, with an improvement of +26% and +19% in terms of Equal
Error Rate, respectively. We also show that this approach generalizes across
the transformer and conformer-based model architectures.
Ссылки и действия
Дополнительные ресурсы: