Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapters

2508.18006v1 eess.AS, cs.CL, cs.LG, cs.SD 2025-08-27

Авторы:

Alessio Falai, Ziyao Zhang, Akos Gangoly

Резюме на русском

#### Контекст Текстовое-к-речевое преобразование (Text-to-Speech, TTS) является важной областью искусственного интеллекта, которая обеспечивает синтез речи на основе текста. Одним из главных вызовов является синтез речи в неизвестных языках или с неизвестными речевыми идентичностями. Этот процесс важен для расширения приложений TTS, таких как локализация и доступность. Несмотря на прогресс в масштабируемых моделях, лёгкие модели TTS, оптимизированные для ресурсно-ограниченных устройств, становятся все более востребоваными. В этой работе мы изучаем добавление адаптеров к лёгким моделям TTS для решения проблемы неизвестных речевых и языковых идентичностей, чтобы достичь эффективного и точного синтеза голоса. #### Метод Мы используем адаптеровую архитектуру для улучшения лёгких моделей TTS. Адаптеры — небольшие модули, добавляемые к существующим моделям, чтобы научить их обучаться на новых речевых и языковых идентичностях без переобучения основной модели. Мы сравниваем две задачи: неизвестный голос и неизвестный язык. Для измерения качества синтеза мы используем традиционные метрики, такие как MOS (Mean Opinion Score), а также разрабатываем новую метрику, основанную на измерении акцента, чтобы оценить натуральность синтезированной речи в новом языке. Модель тренируется на существующих данных речи, а затем модифицируется с помощью адаптеров для обучения новых речевых и языковых признаков. #### Результаты Мы проводим эксперименты на широкой палитре речевых и языковых признаков, включая новые речевые идентичности и языки, для которых не было доступных никаких записей. Мы показываем, что адаптеры эффективно учитывают новую информацию о голосе и языке, улучшая качество синтеза. Благодаря нашей метрике акцента, мы также показываем, что синтезированная речь звучит натурально в новой среде. Мы также изучаем различные конфигурации адаптеров, такие как размер, место размещения и количество голосов, и показываем, что эти факторы влияют на качество синтеза. #### Значимость Наши результаты демонстрируют широкое применение адаптеров в лёгких текстово-речевых системах. Они могут быть использованы для синтеза речи на новых языках и с неизвестными речевыми идентичностями без необходимости обучать модель с нуля. Это значительно увеличивает производительность и дешевизну при развёртывании TTS в новых регионах и языках. Кроме того, мы показываем, как адаптеры могут быть настроены для минимизации «забывания» исходной знания модели, что является ключевым вызовом в машинном обучении. Наша работа такж

Abstract

In this paper we investigate cross-lingual Text-To-Speech (TTS) synthesis through the lens of adapters, in the context of lightweight TTS systems. In particular, we compare the tasks of unseen speaker and language adaptation with the goal of synthesising a target voice in a target language, in which the target voice has no recordings therein. Results from objective evaluations demonstrate the effectiveness of adapters in learning language-specific and speaker-specific information, allowing pre-trained models to learn unseen speaker identities or languages, while avoiding catastrophic forgetting of the original model's speaker or language information. Additionally, to measure how native the generated voices are in terms of accent, we propose and validate an objective metric inspired by mispronunciation detection techniques in second-language (L2) learners. The paper also provides insights into the impact of adapter placement, configuration and the number of speakers used.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapters

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

Breathing and Semantic Pause Detection and Exertion-Level Classification in Post...

Unified Learnable 2D Convolutional Feature Extraction for ASR

Error Analysis in a Modular Meeting Transcription System

ProMode: A Speech Prosody Model Conditioned on Acoustic and Textual Inputs

Навигация