Listening, Imagining \& Refining: A Heuristic Optimized ASR Correction Framework with LLMs

2509.15095v1 eess.AS, cs.AI 2025-09-20

Авторы:

Yutong Liu, Ziyue Zhang, Yongbin Yu, Xiangxiang Wang, Yuqing Cai, Nyima Tashi

Резюме на русском

## Контекст Automatic Speech Recognition (ASR) представляет собой ключевой инструмент для автоматической обработки речи в различных областях, включая распознавание речи, синтез речи и модулирование языка. Однако ASR-системы часто страдают от систематических ошибок, которые могут серьезно повлиять на качество исходящих данных и усложнить их использование в различных приложениях, таких как текстовый редактор, автоматическое переводение и синтез речи. Одним из основных забот для развития этих систем является не только повышение их точности, но и уменьшение количества ошибок в распознавании речи. Многие существующие подходы, ориентированные на корректировку ASR, либо неэффективны, либо не полностью рассматривают сложности в языковой модели. Задача текущего исследования заключается в создании нового фреймворка для корректировки ASR, который бы стал более эффективным и универсальным. ## Метод Мы предлагаем LIR-ASR — фреймворк, основанный на трех этапах: "слушание", "образное воспроизведение" и "корректировка". Эти этапы имитируют человеческое слухительство и восприятие речи, чтобы получить более точную корректировку. Во время "слушания", система использует модель языка (LLM) для генерации фонетических вариантов речи. Затем, во время "образного воспроизведения", мы используем генерируемые варианты для оптимизации контекста. На последнем этапе, "корректировке", мы применяем хитрости и логические ограничения для гарантии точности и сохранения семантической адекватности. Ключевым инструментом является хитрость, основанная на Финальной Машине (FSM), которая предотвращает привязку к местным минимумам, а также специальные правила для сохранения семантики. Эти техники позволяют LIR-ASR значительно повысить точность ASR сравнительно с базовыми моделями. ## Результаты Мы проводили эксперименты на двух языках — английском и китайском — используя различные ASR-системы и данные. Результаты показывают, что LIR-ASR существенно улучшает показатели CER (Character Error Rate) и WER (Word Error Rate), снижая их на 1,5 процентных пунктов по сравнению с базовыми моделями. Эти результаты демонстрируют, что LIR-ASR может значительно улучшить качество распознавания речи, что имеет прямое отношение к повышению качества в различных приложениях, таких как текстовый редактор, автоматическое переводение и распознавание речи в различных сценариях. ## Значимость LIR-ASR может быть применен в различных областях, таких как модулирование речи, распознавание речи для синтеза текста и автоматическое переводение. Он предоставляет более точный и универсальный подход к корректировке

Abstract

Automatic Speech Recognition (ASR) systems remain prone to errors that affect downstream applications. In this paper, we propose LIR-ASR, a heuristic optimized iterative correction framework using LLMs, inspired by human auditory perception. LIR-ASR applies a "Listening-Imagining-Refining" strategy, generating phonetic variants and refining them in context. A heuristic optimization with finite state machine (FSM) is introduced to prevent the correction process from being trapped in local optima and rule-based constraints help maintain semantic fidelity. Experiments on both English and Chinese ASR outputs show that LIR-ASR achieves average reductions in CER/WER of up to 1.5 percentage points compared to baselines, demonstrating substantial accuracy gains in transcription.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Listening, Imagining \& Refining: A Heuristic Optimized ASR Correction Framework with LLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Revisiting Audio-language Pretraining for Learning General-purpose Audio Represe...

Open Source State-Of-the-Art Solution for Romanian Speech Recognition

AURA Score: A Metric For Holistic Audio Question Answering Evaluation

MuFFIN: Multifaceted Pronunciation Feedback Model with Interactive Hierarchical ...

On Deepfake Voice Detection -- It's All in the Presentation

Навигация