Listening, Imagining & Refining: A Heuristic Optimized ASR Correction Framework with LLMs

2509.15095v2 eess.AS, cs.AI 2025-09-23
Авторы:

Yutong Liu, Ziyue Zhang, Cheng Huang, Yongbin Yu, Xiangxiang Wang, Yuqing Cai, Nyima Tashi

Резюме на русском

## Контекст Automatic Speech Recognition (ASR) системы, несмотря на свои достижения, остаются чувствительными к ошибкам, которые могут значительно повлиять на качество работы в различных приложениях. Особенно это важно для языков с богатым акцентом, где ошибки могут вызвать не только недопонимание, но и ухудшение пользовательского опыта. Это проблема становится критичной в сферах, таких как медицина, право и поисковые системы, где верность текста критична. Мы предлагаем LIR-ASR, новый фреймворк, который использует гуруитские приемы для улучшения ASR-систем. ## Метод LIR-ASR основывается на стратегии "Listening-Imagining-Refining" (слушание, воображение, усовершенствование). Он использует генеративные модели типа Large Language Models (LLMs) для генерирования фонетических вариантов слов, потом сопоставляет их с контекстом и выполняет глубокую рефинированию. Для предотвращения застревания в локальных оптимумах во время обучения, мы внедрили группу графов и состояний, основанных на Finite State Machine (FSM). Это позволяет гарантировать, что каждое слово будет исправлено в рамках приемлемых шаблонов. Особенностью метода является использование правил семантической целостности, чтобы сохранить значение и контекст слов. ## Результаты Мы проводили эксперименты на двух языках: английском и китайском. ASR-системы с использованием LIR-ASR показали существенные улучшения сравнительно с базовыми моделями. На тестовых данных, в том числе текстах из медицины и юриспруденции, LIR-ASR уменьшил CER/WER на 1,5 процентных единиц. Эти результаты подтверждают эффективность LIR-ASR в уменьшении ошибок ASR и его потенциал в приложениях, требующих высокой точности. ## Значимость LIR-ASR может применяться в многих сферах, где нужна сильная точность ASR. Он показал себя в сферах, где важность точности несомненна: медицинские отчеты, юридические документы, возврату речевых помощников. Основное преимущество LIR-ASR заключается в его гибкости и точности. Будущие исследования будут уделять внимание улучшению модели для широкого спектма говорений и языков, включая те, где трудности с акцентом наиболее выражены. ## Выводы LIR-ASR достигает существенных улучшений в точности ASR и уменьшает CER/WER на значительные процентные единицы. Этот фреймворк может быть широко применен для улучшения работы ASR в критичных приложениях. Дальнейшие исследования будут сфокусированы на улучшении LIR-ASR для новых языков и акцентов, чтобы обеспечить еще более широкую эффективность.

Abstract

Automatic Speech Recognition (ASR) systems remain prone to errors that affect downstream applications. In this paper, we propose LIR-ASR, a heuristic optimized iterative correction framework using LLMs, inspired by human auditory perception. LIR-ASR applies a "Listening-Imagining-Refining" strategy, generating phonetic variants and refining them in context. A heuristic optimization with finite state machine (FSM) is introduced to prevent the correction process from being trapped in local optima and rule-based constraints help maintain semantic fidelity. Experiments on both English and Chinese ASR outputs show that LIR-ASR achieves average reductions in CER/WER of up to 1.5 percentage points compared to baselines, demonstrating substantial accuracy gains in transcription.

Ссылки и действия