Pitch Accent Detection improves Pretrained Automatic Speech Recognition
2508.04814v1
cs.CL, cs.SD, eess.AS
2025-08-09
Авторы:
David Sasu, Natalie Schluter
Резюме на русском
Мы рассмотрели проблему недостаточного учета просодических признаков, таких как питч-акцент, в системах автоматического распознавания речи (ASR). Для решения этой проблемы предложена модель, объединяющая ASR с модулем детекции питч-акцента. Этот модуль оказался эффективен: F1-метрика для детекции питч-акцента улучшилась на 41%, а значительное сокращение Word Error Rate (WER) — до 28,3% на LibriSpeech — доказывает, что внедрение просодических признаков улучшает работу ASR. Таким образом, решение позволяет значительно повысить точность распознавания речи, особенно при ограниченных ресурсах, и подчеркивает важность восстановления просодических признаков в моделях ASR.
Abstract
We show the performance of Automatic Speech Recognition (ASR) systems that
use semi-supervised speech representations can be boosted by a complimentary
pitch accent detection module, by introducing a joint ASR and pitch accent
detection model. The pitch accent detection component of our model achieves a
significant improvement on the state-of-the-art for the task, closing the gap
in F1-score by 41%. Additionally, the ASR performance in joint training
decreases WER by 28.3% on LibriSpeech, under limited resource fine-tuning. With
these results, we show the importance of extending pretrained speech models to
retain or re-learn important prosodic cues such as pitch accent.
Ссылки и действия
Дополнительные ресурсы: