PARCO: Phoneme-Augmented Robust Contextual ASR via Contrastive Entity Disambiguation
2509.04357v1
cs.CL, cs.AI, cs.LG, cs.SD
2025-09-06
Авторы:
Jiajun He, Naoki Sawada, Koichi Miyazaki, Tomoki Toda
Резюме на русском
## Контекст
Автоматическое распознавание речи (ASR) широко применяется в различных областях, но сталкивается с значительными проблемами в распознавании доменно-специфических названий сущностей, особенно при наличии гомофонов. Традиционные методы часто не могут точно различать похожие фонетические варианты слов, что приводит к высокой ошибке распознавания. Это особенно актуально для языков с богатой фонетической структурой, таких как китайский, где неточности в распознавании названий сущностей могут привести к серьезным последствиям. Поэтому, целью данного исследования является разработка метода, позволяющего значительно повысить точность распознавания доменно-специфических лексем, включая гомофоны.
## Метод
Предлагаемый метод, Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation (PARCO), включает несколько ключевых компонентов:
1. **Phoneme-Aware Encoding**: Использование фонемов в качестве дополнительных признаков для улучшения точности распознавания.
2. **Contrastive Entity Disambiguation**: Метод, позволяющий отличать похожие звуковые сущности, используя контрастное сравнение.
3. **Entity-Level Supervision**: Обучение системы на основе супервайзед данных, которое позволяет лучше учитывать контекст и фонетические особенности.
4. **Hierarchical Entity Filtering**: Фильтрация сущностей на разных уровнях вложенности, чтобы уменьшить false positives и увеличить precision.
Техническая архитектура PARCO основана на взаимодействии этих компонентов, что обеспечивает уверенное распознавание и сокращение ошибок.
## Результаты
Проведенные эксперименты показали, что PARCO достигает следующих результатов:
- **Chinese AISHELL-1**: Character Error Rate (CER) составил 4.22% при работе с 1,000 distractors.
- **English DATA2**: Word Error Rate (WER) составил 11.14% при работе с 1,000 distractors.
- **Out-of-Domain Datasets**: Значимые улучшения также были продемонстрированы на данных THCHS-30 и LibriSpeech, что указывает на широкую применимость PARCO.
Сравнение с базовыми методами показало, что PARCO обеспечивает значительные повышения точности, особенно в условиях высокой конфузии.
## Значимость
Предложенный подход может быть применен в различных сферах, где точность распознавания доменных названий ключевая. Например, в системах контроля доступа, сервисах поддержки или системах распознавания речи в медицинской информатике. Основные преимущества PARCO заключаются в улучшенной точности, уменьшении false positives и обеспечении гибкости при работе с различными типами данных. Потенциальное влияние PARCO заключается в улучшении качества работы ASR-систем, что может привести к улучшению пользовательского опыта и эффективности в различных промышленных приложениях.
## Выводы
Результаты исследо
Abstract
Automatic speech recognition (ASR) systems struggle with domain-specific
named entities, especially homophones. Contextual ASR improves recognition but
often fails to capture fine-grained phoneme variations due to limited entity
diversity. Moreover, prior methods treat entities as independent tokens,
leading to incomplete multi-token biasing. To address these issues, we propose
Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation
(PARCO), which integrates phoneme-aware encoding, contrastive entity
disambiguation, entity-level supervision, and hierarchical entity filtering.
These components enhance phonetic discrimination, ensure complete entity
retrieval, and reduce false positives under uncertainty. Experiments show that
PARCO achieves CER of 4.22% on Chinese AISHELL-1 and WER of 11.14% on English
DATA2 under 1,000 distractors, significantly outperforming baselines. PARCO
also demonstrates robust gains on out-of-domain datasets like THCHS-30 and
LibriSpeech.