Pitch Accent Detection improves Pretrained Automatic Speech Recognition

2508.04814v1 cs.CL, cs.SD, eess.AS 2025-08-09

Авторы:

David Sasu, Natalie Schluter

Резюме на русском

Мы рассмотрели проблему недостаточного учета просодических признаков, таких как питч-акцент, в системах автоматического распознавания речи (ASR). Для решения этой проблемы предложена модель, объединяющая ASR с модулем детекции питч-акцента. Этот модуль оказался эффективен: F1-метрика для детекции питч-акцента улучшилась на 41%, а значительное сокращение Word Error Rate (WER) — до 28,3% на LibriSpeech — доказывает, что внедрение просодических признаков улучшает работу ASR. Таким образом, решение позволяет значительно повысить точность распознавания речи, особенно при ограниченных ресурсах, и подчеркивает важность восстановления просодических признаков в моделях ASR.

Abstract

We show the performance of Automatic Speech Recognition (ASR) systems that use semi-supervised speech representations can be boosted by a complimentary pitch accent detection module, by introducing a joint ASR and pitch accent detection model. The pitch accent detection component of our model achieves a significant improvement on the state-of-the-art for the task, closing the gap in F1-score by 41%. Additionally, the ASR performance in joint training decreases WER by 28.3% on LibriSpeech, under limited resource fine-tuning. With these results, we show the importance of extending pretrained speech models to retain or re-learn important prosodic cues such as pitch accent.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Pitch Accent Detection improves Pretrained Automatic Speech Recognition

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tr...

Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Bas...

Proactive Hearing Assistants that Isolate Egocentric Conversations

Hallucination Benchmark for Speech Foundation Models

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Predic...

Навигация