Listening, Imagining & Refining: A Heuristic Optimized ASR Correction Framework with LLMs
2509.15095v2
eess.AS, cs.AI
2025-09-23
Авторы:
Yutong Liu, Ziyue Zhang, Cheng Huang, Yongbin Yu, Xiangxiang Wang, Yuqing Cai, Nyima Tashi
Резюме на русском
## Контекст
Automatic Speech Recognition (ASR) системы, несмотря на свои достижения, остаются чувствительными к ошибкам, которые могут значительно повлиять на качество работы в различных приложениях. Особенно это важно для языков с богатым акцентом, где ошибки могут вызвать не только недопонимание, но и ухудшение пользовательского опыта. Это проблема становится критичной в сферах, таких как медицина, право и поисковые системы, где верность текста критична. Мы предлагаем LIR-ASR, новый фреймворк, который использует гуруитские приемы для улучшения ASR-систем.
## Метод
LIR-ASR основывается на стратегии "Listening-Imagining-Refining" (слушание, воображение, усовершенствование). Он использует генеративные модели типа Large Language Models (LLMs) для генерирования фонетических вариантов слов, потом сопоставляет их с контекстом и выполняет глубокую рефинированию. Для предотвращения застревания в локальных оптимумах во время обучения, мы внедрили группу графов и состояний, основанных на Finite State Machine (FSM). Это позволяет гарантировать, что каждое слово будет исправлено в рамках приемлемых шаблонов. Особенностью метода является использование правил семантической целостности, чтобы сохранить значение и контекст слов.
## Результаты
Мы проводили эксперименты на двух языках: английском и китайском. ASR-системы с использованием LIR-ASR показали существенные улучшения сравнительно с базовыми моделями. На тестовых данных, в том числе текстах из медицины и юриспруденции, LIR-ASR уменьшил CER/WER на 1,5 процентных единиц. Эти результаты подтверждают эффективность LIR-ASR в уменьшении ошибок ASR и его потенциал в приложениях, требующих высокой точности.
## Значимость
LIR-ASR может применяться в многих сферах, где нужна сильная точность ASR. Он показал себя в сферах, где важность точности несомненна: медицинские отчеты, юридические документы, возврату речевых помощников. Основное преимущество LIR-ASR заключается в его гибкости и точности. Будущие исследования будут уделять внимание улучшению модели для широкого спектма говорений и языков, включая те, где трудности с акцентом наиболее выражены.
## Выводы
LIR-ASR достигает существенных улучшений в точности ASR и уменьшает CER/WER на значительные процентные единицы. Этот фреймворк может быть широко применен для улучшения работы ASR в критичных приложениях. Дальнейшие исследования будут сфокусированы на улучшении LIR-ASR для новых языков и акцентов, чтобы обеспечить еще более широкую эффективность.
Abstract
Automatic Speech Recognition (ASR) systems remain prone to errors that affect
downstream applications. In this paper, we propose LIR-ASR, a heuristic
optimized iterative correction framework using LLMs, inspired by human auditory
perception. LIR-ASR applies a "Listening-Imagining-Refining" strategy,
generating phonetic variants and refining them in context. A heuristic
optimization with finite state machine (FSM) is introduced to prevent the
correction process from being trapped in local optima and rule-based
constraints help maintain semantic fidelity. Experiments on both English and
Chinese ASR outputs show that LIR-ASR achieves average reductions in CER/WER of
up to 1.5 percentage points compared to baselines, demonstrating substantial
accuracy gains in transcription.
Ссылки и действия
Дополнительные ресурсы: