PARCO: Phoneme-Augmented Robust Contextual ASR via Contrastive Entity Disambiguation

2509.04357v1 cs.CL, cs.AI, cs.LG, cs.SD 2025-09-06
Авторы:

Jiajun He, Naoki Sawada, Koichi Miyazaki, Tomoki Toda

Резюме на русском

## Контекст Автоматическое распознавание речи (ASR) широко применяется в различных областях, но сталкивается с значительными проблемами в распознавании доменно-специфических названий сущностей, особенно при наличии гомофонов. Традиционные методы часто не могут точно различать похожие фонетические варианты слов, что приводит к высокой ошибке распознавания. Это особенно актуально для языков с богатой фонетической структурой, таких как китайский, где неточности в распознавании названий сущностей могут привести к серьезным последствиям. Поэтому, целью данного исследования является разработка метода, позволяющего значительно повысить точность распознавания доменно-специфических лексем, включая гомофоны. ## Метод Предлагаемый метод, Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation (PARCO), включает несколько ключевых компонентов: 1. **Phoneme-Aware Encoding**: Использование фонемов в качестве дополнительных признаков для улучшения точности распознавания. 2. **Contrastive Entity Disambiguation**: Метод, позволяющий отличать похожие звуковые сущности, используя контрастное сравнение. 3. **Entity-Level Supervision**: Обучение системы на основе супервайзед данных, которое позволяет лучше учитывать контекст и фонетические особенности. 4. **Hierarchical Entity Filtering**: Фильтрация сущностей на разных уровнях вложенности, чтобы уменьшить false positives и увеличить precision. Техническая архитектура PARCO основана на взаимодействии этих компонентов, что обеспечивает уверенное распознавание и сокращение ошибок. ## Результаты Проведенные эксперименты показали, что PARCO достигает следующих результатов: - **Chinese AISHELL-1**: Character Error Rate (CER) составил 4.22% при работе с 1,000 distractors. - **English DATA2**: Word Error Rate (WER) составил 11.14% при работе с 1,000 distractors. - **Out-of-Domain Datasets**: Значимые улучшения также были продемонстрированы на данных THCHS-30 и LibriSpeech, что указывает на широкую применимость PARCO. Сравнение с базовыми методами показало, что PARCO обеспечивает значительные повышения точности, особенно в условиях высокой конфузии. ## Значимость Предложенный подход может быть применен в различных сферах, где точность распознавания доменных названий ключевая. Например, в системах контроля доступа, сервисах поддержки или системах распознавания речи в медицинской информатике. Основные преимущества PARCO заключаются в улучшенной точности, уменьшении false positives и обеспечении гибкости при работе с различными типами данных. Потенциальное влияние PARCO заключается в улучшении качества работы ASR-систем, что может привести к улучшению пользовательского опыта и эффективности в различных промышленных приложениях. ## Выводы Результаты исследо

Abstract

Automatic speech recognition (ASR) systems struggle with domain-specific named entities, especially homophones. Contextual ASR improves recognition but often fails to capture fine-grained phoneme variations due to limited entity diversity. Moreover, prior methods treat entities as independent tokens, leading to incomplete multi-token biasing. To address these issues, we propose Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation (PARCO), which integrates phoneme-aware encoding, contrastive entity disambiguation, entity-level supervision, and hierarchical entity filtering. These components enhance phonetic discrimination, ensure complete entity retrieval, and reduce false positives under uncertainty. Experiments show that PARCO achieves CER of 4.22% on Chinese AISHELL-1 and WER of 11.14% on English DATA2 under 1,000 distractors, significantly outperforming baselines. PARCO also demonstrates robust gains on out-of-domain datasets like THCHS-30 and LibriSpeech.

Ссылки и действия

Связанные статьи

AuditoryBench++: Can Language Models Understand Auditory Knowledge without Heari...

#### Контекст Осуществление многомерных взаимодействий между текстом и аудио является ключевым запросом в современных т...

2025-09-24