TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

2509.05983v1 cs.SD, cs.AI, cs.CL, eess.AS 2025-09-10

Авторы:

Minh N. H. Nguyen, Anh Nguyen Tran, Dung Truong Dinh, Nam Van Vo

Резюме на русском

## Контекст Code-switching (CS), или перемешивание языков в речи, является важной проблемой для общей системы автоматического распознавания речи (ASR). В случае таких языковых пар, как вьетский и английский, существуют сложности в распознавании специфичных фонологических особенностей каждого языка, а также в ситуациях, когда звуки одинаковые в разных языках создают второспецифическую амбигуарность. Эти проблемы становятся особенно актуальными в аспекте развития технологий для региональных и многоязычных сценариев. В этом исследовании фокус делается на разработке новых подходов для улучшения распознавания речи в условиях CS версии вьетско-английского языка. Такие подходы могут существенно повысить точность распознавания, уменьшить ресурсы обучения и сделать ASR более эффективным в каждый день использовании. ## Метод Методология TSPC (Two-Stage Phoneme-Centric) основывается на расширенном наборе фонологических единиц вьетского языка. Философия данного подхода заключается в использовании фонологической модели, которая позволяет адаптировать распознавание речи к контексту CS. Основной архитектурой является две фазы: фаза превращения речи в фонологические единицы (фаза распознавания) и фаза перевода этих единиц в транскрипции текста (фаза распознавания текста). Эта архитектура также включает в себя моделирование сложностей CS с помощью модификаций признаков фонологических единиц, чтобы улучшить точность распознавания. Такой метод позволяет строить модели, которые лучше подходят для характеристик CS вьетского-английского языка. ## Результаты Для проверки эффективности TSPC были проведены эксперименты на специально подготовленных данных, включающих звуковые фрагменты и текстовые транскрипции. Результаты показали, что TSPC существенно превосходит базовые модели, такие как PhoWhisper-base, в области распознавания речи в сценариях CS вьетского-английского языка. Более того, TSPC достиг значительно низкого уровня ошибок в тексте распознавания - 20.8% WER (Word Error Rate) - при меньших требованиях к ресурсам обучения. Эти результаты указывают на то, что TSPC не только улучшает точность распознавания, но и позволяет экономить ресурсы в процессе обучения, что является ключевым преимуществом для применения в реальных условиях. ## Значимость Параметры TSPC демонстрируют широкий потенциал для развития и применения в различных областях, включая область транскрипции речи с кодовым переключением вьетского-английского языка. Этот подход может быть применен в сферах, таких как лингвистические исс

Abstract

Code-switching (CS) presents a significant challenge for general Auto-Speech Recognition (ASR) systems. Existing methods often fail to capture the subtle phonological shifts inherent in CS scenarios. The challenge is particularly difficult for language pairs like Vietnamese and English, where both distinct phonological features and the ambiguity arising from similar sound recognition are present. In this paper, we propose a novel architecture for Vietnamese-English CS ASR, a Two-Stage Phoneme-Centric model (TSPC). The TSPC employs a phoneme-centric approach, built upon an extended Vietnamese phoneme set as an intermediate representation to facilitate mixed-lingual modeling. Experimental results demonstrate that TSPC consistently outperforms existing baselines, including PhoWhisper-base, in Vietnamese-English CS ASR, achieving a significantly lower word error rate of 20.8\% with reduced training resources. Furthermore, the phonetic-based two-stage architecture enables phoneme adaptation and language conversion to enhance ASR performance in complex CS Vietnamese-English ASR scenarios.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Investigating Safety Vulnerabilities of Large Audio-Language Models Under Speake...

SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Model...

ControlAudio: Tackling Text-Guided, Timing-Indicated and Intelligible Audio Gene...

AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding an...

From Scores to Preferences: Redefining MOS Benchmarking for Speech Quality Rewar...

Навигация