PART: Progressive Alignment Representation Training for Multilingual Speech-To-Text with LLMs
2509.19745v1
cs.CL, cs.SD
2025-09-26
Авторы:
Pei Zhang, Andong Chen, Xi Chen, Baosong Yang, Derek F. Wong, Fei Huang
Резюме на русском
## Контекст
В последние годы наблюдается быстрое развитие технологий обработки речи, включая задачи спикера идентификации, транскрибирования речи и перевод речи. Эти задачи важны для развития многоязычных систем, но становятся сложнее при работе с многоязычным контентом. Основной проблемой является необходимость выравнивания пространственных представлений речи и текста. Традиционные подходы, такие как заморозка параметров многоязычных моделей и обучение отдельных слоев, не полностью решают эту проблему. Требуется новый подход, который эффективно объединит возможности моделей под названием Speech Large Models (SLMs), позволяющих обрабатывать входные данные в виде звука, и существующих моделей текстового понимания. Наша исследовательская группа предлагает Progressive Alignment Representation Training (PART), чтобы улучшить многоязычное выравнивание речи и текста.
## Метод
PART — это новый многостадийный и многозадачный подход для обучения представлений речи. Он разделяет обучение на два этапа: в первом этапе в рамках каждого языка происходит выравнивание речи и текста внутри этого языка, а во втором этапе — выравнивание речи между языками. Это позволяет модели лучше различать языковые особенности внутри каждого языка и признаки, которые являются общими для всех языков. Мы также включаем динамическую активацию параметров моделей текстового понимания, чтобы модель могла использовать знания из моделей текста для улучшения обработки речи. Архитектура PART включает в себя многоуровневые энкодеры для речи и текста, а также динамическую систему активации, которая используется только в конкретных этапах обучения.
## Результаты
Мы проводили эксперименты на четырёх многоязычных датасетах: CommonVoice 15, Fleurs, Wenetspeech и CoVoST2. Наши результаты показывают, что PART выполняет значительно лучше существующих подходов по многим показателям, таким как точность распознавания речи и качество перевода. Мы также провели анализ того, как PART улучшает выравнивание речи и текста в разных сценариях, включая разные языки и размеры данных. Эти результаты подтверждают, что PART эффективно решает проблему выравнивания речи и текста в многоязычных условиях.
## Значимость
PART может быть применен в различных областях, включая системы перевода речи, синтез речи и анализ речи. Этот подход делает SLM-модели более эффективными и универсальными в многоязычных условиях. Одним из основных преимуществ PART является то, что он может извлекать более точные представления речи и текста, снижая ошибки в многоязычных системах. Мы также ожидаем, что PART может повлиять на развитие технологий машинного обучения, которые используются в раз
Abstract
Large language models (LLMs) have expanded from text to speech, giving rise
to Speech Large Models (SLMs) that support recognition, translation, and
synthesis. A key challenge is aligning speech and text representations, which
becomes harder in multilingual settings. Existing methods often freeze LLM
parameters and train encoders on multilingual data, but this forces
cross-language convergence and limits performance. We introduce Progressive
Alignment Representation Training (PART), a multi-stage and multi-task
framework that separates within-language from cross-language alignment. During
cross-language training, LLM parameters are dynamically activated, and
text-based tasks are later introduced to enhance multilingual understanding.
Experiments on CommonVoice 15, Fleurs, Wenetspeech, and CoVoST2 show that PART
surpasses conventional approaches, with analysis confirming its ability to
balance language-specific distinctions and cross-language generalization. These
results demonstrate PART's effectiveness and generality for multilingual speech
modality alignment.
Ссылки и действия
Дополнительные ресурсы: