📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Xuwen Yang

## Контекст Задача распознавания речи (ASR) является ключевым вопросом в области обработки естественного языка и искусственного интеллекта. За последние годы end-to-end ASR модели показали свою эффективность в решении этой задачи, особенно на тренировочных данных. Однако, эти модели чувствительны к шуму и помехам во время работы. Это приводит к катастрофическим ошибкам в семантическом плане, которые могут серьезно снизить качество распознавания. Основная причина этого слабости моделей заключается в том, что они оптимизируются только для минимизации ошибок в конечном выходном результате, не учитывая внутреннюю консистентность процесса вычислений модели. Это делает их нестабильными в условиях реального мира, где шум и помехи типичны. Ранее предложенные решения, такие как методы грубой фильтрации или дополнительных уровней регуляризации, не удалось значительно улучшить устойчивость моделей. Мотивовано этим, в данной работе предлагается новое решение, нацеленное на улучшение внутренней консистентности ASR моделей через многоуровневую регуляризацию. ## Метод Методология предложенного подхода, названного MGSC (Multi-Granularity Soft Consistency), основывается на многоуровневой регуляризации, которая адресует две разные гранулярности консистентности: макро-уровень (семантический контекст) и микро-уровень (токен-уровень). Макро-уровень регуляризации реализует самоудовлетворяющую структуру данных, при которой выход модели должен соответствовать логическому потоку смысла в тексте. Микро-уровень регуляризации фокусируется на том, чтобы токены в выходном потоке тщательно соответствовали словарным единицам и методам раскрытия слова. Технически, MGSC представляет собой модель-агностичный модуль, который может быть интегрирован с любыми end-to-end ASR моделями. Он внедряет дополнительные функциональные ограничения в процесс обучения, чтобы модель не только правильно предсказывала выход, но и сохраняла консистентность во всех слоях вычислительного процесса. Это позволяет уменьшить ошибки, которые могут возникать из-за невязок между семантическим контекстом и токенным раскрытием. ## Результаты На ходу проведены ряд экспериментов на широко известной ASR датасете, представляющем собой звуковые фрагменты с их текстовыми обозначениями. Модель, воспользовавшись MGSC фреймворком, была сравнена с другими методами регуляризации. Результаты показали, что MGSC существенно уменьшает Character Error Rate (CER) в условиях шумового окружения, снижая его на 8.7% по отношению к базовой модели. Это связано с тому, что MGSC не только уменьшает частоту смысловых ошибок, но и улучшает
Annotation:
End-to-end ASR models, despite their success on benchmarks, often pro-duce catastrophic semantic errors in noisy environments. We attribute this fragility to the prevailing 'direct mapping' objective, which solely penalizes final output errors while leaving the model's internal computational pro-cess unconstrained. To address this, we introduce the Multi-Granularity Soft Consistency (MGSC) framework, a model-agnostic, plug-and-play module that enforces internal self-consistency by simultaneously...
ID: 2508.15853v1 cs.CL, cs.AI, cs.SD, eess.AS, I.2.7