PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs

2509.19745v1 cs.CL, cs.SD 2025-09-26
Авторы:

Pei Zhang, Andong Chen, Xi Chen, Baosong Yang, Derek F. Wong, Fei Huang

Резюме на русском

## Контекст В последние годы наблюдается быстрое развитие технологий обработки речи, включая задачи спикера идентификации, транскрибирования речи и перевод речи. Эти задачи важны для развития многоязычных систем, но становятся сложнее при работе с многоязычным контентом. Основной проблемой является необходимость выравнивания пространственных представлений речи и текста. Традиционные подходы, такие как заморозка параметров многоязычных моделей и обучение отдельных слоев, не полностью решают эту проблему. Требуется новый подход, который эффективно объединит возможности моделей под названием Speech Large Models (SLMs), позволяющих обрабатывать входные данные в виде звука, и существующих моделей текстового понимания. Наша исследовательская группа предлагает Progressive Alignment Representation Training (PART), чтобы улучшить многоязычное выравнивание речи и текста. ## Метод PART — это новый многостадийный и многозадачный подход для обучения представлений речи. Он разделяет обучение на два этапа: в первом этапе в рамках каждого языка происходит выравнивание речи и текста внутри этого языка, а во втором этапе — выравнивание речи между языками. Это позволяет модели лучше различать языковые особенности внутри каждого языка и признаки, которые являются общими для всех языков. Мы также включаем динамическую активацию параметров моделей текстового понимания, чтобы модель могла использовать знания из моделей текста для улучшения обработки речи. Архитектура PART включает в себя многоуровневые энкодеры для речи и текста, а также динамическую систему активации, которая используется только в конкретных этапах обучения. ## Результаты Мы проводили эксперименты на четырёх многоязычных датасетах: CommonVoice 15, Fleurs, Wenetspeech и CoVoST2. Наши результаты показывают, что PART выполняет значительно лучше существующих подходов по многим показателям, таким как точность распознавания речи и качество перевода. Мы также провели анализ того, как PART улучшает выравнивание речи и текста в разных сценариях, включая разные языки и размеры данных. Эти результаты подтверждают, что PART эффективно решает проблему выравнивания речи и текста в многоязычных условиях. ## Значимость PART может быть применен в различных областях, включая системы перевода речи, синтез речи и анализ речи. Этот подход делает SLM-модели более эффективными и универсальными в многоязычных условиях. Одним из основных преимуществ PART является то, что он может извлекать более точные представления речи и текста, снижая ошибки в многоязычных системах. Мы также ожидаем, что PART может повлиять на развитие технологий машинного обучения, которые используются в раз

Abstract

Large language models (LLMs) have expanded from text to speech, giving rise to Speech Large Models (SLMs) that support recognition, translation, and synthesis. A key challenge is aligning speech and text representations, which becomes harder in multilingual settings. Existing methods often freeze LLM parameters and train encoders on multilingual data, but this forces cross-language convergence and limits performance. We introduce Progressive Alignment Representation Training (PART), a multi-stage and multi-task framework that separates within-language from cross-language alignment. During cross-language training, LLM parameters are dynamically activated, and text-based tasks are later introduced to enhance multilingual understanding. Experiments on CommonVoice 15, Fleurs, Wenetspeech, and CoVoST2 show that PART surpasses conventional approaches, with analysis confirming its ability to balance language-specific distinctions and cross-language generalization. These results demonstrate PART's effectiveness and generality for multilingual speech modality alignment.

Ссылки и действия