Listening, Imagining \& Refining: A Heuristic Optimized ASR Correction Framework with LLMs
2509.15095v1
eess.AS, cs.AI
2025-09-20
Авторы:
Yutong Liu, Ziyue Zhang, Yongbin Yu, Xiangxiang Wang, Yuqing Cai, Nyima Tashi
Резюме на русском
## Контекст
Automatic Speech Recognition (ASR) представляет собой ключевой инструмент для автоматической обработки речи в различных областях, включая распознавание речи, синтез речи и модулирование языка. Однако ASR-системы часто страдают от систематических ошибок, которые могут серьезно повлиять на качество исходящих данных и усложнить их использование в различных приложениях, таких как текстовый редактор, автоматическое переводение и синтез речи.
Одним из основных забот для развития этих систем является не только повышение их точности, но и уменьшение количества ошибок в распознавании речи. Многие существующие подходы, ориентированные на корректировку ASR, либо неэффективны, либо не полностью рассматривают сложности в языковой модели. Задача текущего исследования заключается в создании нового фреймворка для корректировки ASR, который бы стал более эффективным и универсальным.
## Метод
Мы предлагаем LIR-ASR — фреймворк, основанный на трех этапах: "слушание", "образное воспроизведение" и "корректировка". Эти этапы имитируют человеческое слухительство и восприятие речи, чтобы получить более точную корректировку.
Во время "слушания", система использует модель языка (LLM) для генерации фонетических вариантов речи. Затем, во время "образного воспроизведения", мы используем генерируемые варианты для оптимизации контекста. На последнем этапе, "корректировке", мы применяем хитрости и логические ограничения для гарантии точности и сохранения семантической адекватности.
Ключевым инструментом является хитрость, основанная на Финальной Машине (FSM), которая предотвращает привязку к местным минимумам, а также специальные правила для сохранения семантики. Эти техники позволяют LIR-ASR значительно повысить точность ASR сравнительно с базовыми моделями.
## Результаты
Мы проводили эксперименты на двух языках — английском и китайском — используя различные ASR-системы и данные. Результаты показывают, что LIR-ASR существенно улучшает показатели CER (Character Error Rate) и WER (Word Error Rate), снижая их на 1,5 процентных пунктов по сравнению с базовыми моделями.
Эти результаты демонстрируют, что LIR-ASR может значительно улучшить качество распознавания речи, что имеет прямое отношение к повышению качества в различных приложениях, таких как текстовый редактор, автоматическое переводение и распознавание речи в различных сценариях.
## Значимость
LIR-ASR может быть применен в различных областях, таких как модулирование речи, распознавание речи для синтеза текста и автоматическое переводение. Он предоставляет более точный и универсальный подход к корректировке
Abstract
Automatic Speech Recognition (ASR) systems remain prone to errors that affect
downstream applications. In this paper, we propose LIR-ASR, a heuristic
optimized iterative correction framework using LLMs, inspired by human auditory
perception. LIR-ASR applies a "Listening-Imagining-Refining" strategy,
generating phonetic variants and refining them in context. A heuristic
optimization with finite state machine (FSM) is introduced to prevent the
correction process from being trapped in local optima and rule-based
constraints help maintain semantic fidelity. Experiments on both English and
Chinese ASR outputs show that LIR-ASR achieves average reductions in CER/WER of
up to 1.5 percentage points compared to baselines, demonstrating substantial
accuracy gains in transcription.
Ссылки и действия
Дополнительные ресурсы: