MGSC: A Multi-granularity Consistency Framework for Robust End-to-end Asr

2508.15853v1 cs.CL, cs.AI, cs.SD, eess.AS, I.2.7 2025-08-25
Авторы:

Xuwen Yang

Резюме на русском

## Контекст Задача распознавания речи (ASR) является ключевым вопросом в области обработки естественного языка и искусственного интеллекта. За последние годы end-to-end ASR модели показали свою эффективность в решении этой задачи, особенно на тренировочных данных. Однако, эти модели чувствительны к шуму и помехам во время работы. Это приводит к катастрофическим ошибкам в семантическом плане, которые могут серьезно снизить качество распознавания. Основная причина этого слабости моделей заключается в том, что они оптимизируются только для минимизации ошибок в конечном выходном результате, не учитывая внутреннюю консистентность процесса вычислений модели. Это делает их нестабильными в условиях реального мира, где шум и помехи типичны. Ранее предложенные решения, такие как методы грубой фильтрации или дополнительных уровней регуляризации, не удалось значительно улучшить устойчивость моделей. Мотивовано этим, в данной работе предлагается новое решение, нацеленное на улучшение внутренней консистентности ASR моделей через многоуровневую регуляризацию. ## Метод Методология предложенного подхода, названного MGSC (Multi-Granularity Soft Consistency), основывается на многоуровневой регуляризации, которая адресует две разные гранулярности консистентности: макро-уровень (семантический контекст) и микро-уровень (токен-уровень). Макро-уровень регуляризации реализует самоудовлетворяющую структуру данных, при которой выход модели должен соответствовать логическому потоку смысла в тексте. Микро-уровень регуляризации фокусируется на том, чтобы токены в выходном потоке тщательно соответствовали словарным единицам и методам раскрытия слова. Технически, MGSC представляет собой модель-агностичный модуль, который может быть интегрирован с любыми end-to-end ASR моделями. Он внедряет дополнительные функциональные ограничения в процесс обучения, чтобы модель не только правильно предсказывала выход, но и сохраняла консистентность во всех слоях вычислительного процесса. Это позволяет уменьшить ошибки, которые могут возникать из-за невязок между семантическим контекстом и токенным раскрытием. ## Результаты На ходу проведены ряд экспериментов на широко известной ASR датасете, представляющем собой звуковые фрагменты с их текстовыми обозначениями. Модель, воспользовавшись MGSC фреймворком, была сравнена с другими методами регуляризации. Результаты показали, что MGSC существенно уменьшает Character Error Rate (CER) в условиях шумового окружения, снижая его на 8.7% по отношению к базовой модели. Это связано с тому, что MGSC не только уменьшает частоту смысловых ошибок, но и улучшает

Abstract

End-to-end ASR models, despite their success on benchmarks, often pro-duce catastrophic semantic errors in noisy environments. We attribute this fragility to the prevailing 'direct mapping' objective, which solely penalizes final output errors while leaving the model's internal computational pro-cess unconstrained. To address this, we introduce the Multi-Granularity Soft Consistency (MGSC) framework, a model-agnostic, plug-and-play module that enforces internal self-consistency by simultaneously regulariz-ing macro-level sentence semantics and micro-level token alignment. Cru-cially, our work is the first to uncover a powerful synergy between these two consistency granularities: their joint optimization yields robustness gains that significantly surpass the sum of their individual contributions. On a public dataset, MGSC reduces the average Character Error Rate by a relative 8.7% across diverse noise conditions, primarily by preventing se-vere meaning-altering mistakes. Our work demonstrates that enforcing in-ternal consistency is a crucial step towards building more robust and trust-worthy AI.

Ссылки и действия