Enhancing the Robustness of Contextual ASR to Varying Biasing Information Volumes Through Purified Semantic Correlation Joint Modeling

2509.05908v1 cs.CL, cs.SD, eess.AS 2025-09-10

Авторы:

Yue Gu, Zhihao Du, Ying Shi, Shiliang Zhang, Qian Chen, Jiqing Han

Резюме на русском

## Контекст Улучшение точности контекстной автоматической распознавания речи (ASR) в условиях изменчивости объема бизинг-информации является актуальной задачей, так как персонализированная распознаваемая информация часто встречается в различных речевых приложениях. Однако существующие модели ASR, основанные на перекрестной аттенции, часто сталкиваются с проблемами при работе с большими бизинг-списками, что приводит к понижению качества распознавания. Эта проблема становится особенно актуальной при работе с реальными данными, где объем бизинг-информации может значительно варьироваться. Наша мотивация заключается в поиске способа улучшить стабильность и точность ASR в таких условиях. ## Метод Мы предлагаем простой, но эффективный подход, который называется Purified Semantic Correlation Joint Modeling (PSC-Joint). Он основывается на определении и вычислении трех уровней семантических корреляций между ASR-представлением и бизинг-информацией: list-level, phrase-level и token-level. Эти корреляции централизованно моделируются и их интересование выполняется для получения наиболее важной бизинг-информации. Для того чтобы уменьшить вычислительные затраты, мы также предлагаем purification mechanism, основанный на grouped-and-competitive strategy, который позволяет исключить неинформативные фразы из рассмотрения. ## Результаты Мы проводили эксперименты на двух разных датасетах: AISHELL-1 и KeSpeech. Наш PSC-Joint показал существенные улучшения в F1-мере по сравнению с базовыми моделями: до 21.34% на AISHELL-1 и 28.46% на KeSpeech. Эти результаты достигнуты при работе с бизинг-списками различной длины, что демонстрирует высокую устойчивость нашего подхода к изменениям объема бизинг-информации. ## Значимость Важность PSC-Joint заключается в своем применении в сценариях, где бизинг-информация варьируется и требует точного распознавания. Например, в системах помощников, работающих с пользовательскими списками интересов или в ситуациях, когда нужно оперативно учесть контекст. Мы считаем, что наш подход может существенно повысить качество работы таких систем, уменьшив количество ошибок и увеличив удобство использования. ## Выводы В результате наших исследований, мы показали, что PSC-Joint может эффективно справляться с проблемой изменчивости объема бизинг-информации в контекстной ASR. В следующих исследованиях мы планируем расширить применение этого подхода к другим моделям распознавания речи и изучить его взаимодействие с другими технологиями, такими как текстовое представление и динамическое настройка.

Abstract

Recently, cross-attention-based contextual automatic speech recognition (ASR) models have made notable advancements in recognizing personalized biasing phrases. However, the effectiveness of cross-attention is affected by variations in biasing information volume, especially when the length of the biasing list increases significantly. We find that, regardless of the length of the biasing list, only a limited amount of biasing information is most relevant to a specific ASR intermediate representation. Therefore, by identifying and integrating the most relevant biasing information rather than the entire biasing list, we can alleviate the effects of variations in biasing information volume for contextual ASR. To this end, we propose a purified semantic correlation joint modeling (PSC-Joint) approach. In PSC-Joint, we define and calculate three semantic correlations between the ASR intermediate representations and biasing information from coarse to fine: list-level, phrase-level, and token-level. Then, the three correlations are jointly modeled to produce their intersection, so that the most relevant biasing information across various granularities is highlighted and integrated for contextual recognition. In addition, to reduce the computational cost introduced by the joint modeling of three semantic correlations, we also propose a purification mechanism based on a grouped-and-competitive strategy to filter out irrelevant biasing phrases. Compared with baselines, our PSC-Joint approach achieves average relative F1 score improvements of up to 21.34% on AISHELL-1 and 28.46% on KeSpeech, across biasing lists of varying lengths.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Enhancing the Robustness of Contextual ASR to Varying Biasing Information Volumes Through Purified Semantic Correlation Joint Modeling

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Speech and Text Training for LLM-Based End-to-End Spoken Dialogue State Tr...

Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Bas...

Proactive Hearing Assistants that Isolate Egocentric Conversations

Hallucination Benchmark for Speech Foundation Models

MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Predic...

Навигация