Fed-PISA: Federated Voice Cloning via Personalized Identity-Style Adaptation

2509.16010v1 cs.SD, cs.AI, eess.AS 2025-09-23
Авторы:

Qi Wang, Shituo Ma, Guoxin Yu, Hanyang Peng, Yue Yu

Резюме на русском

## Контекст Федеративное обучение (FL) предлагает мощный подход для решения задач генерации речи, обеспечивая при этом конфиденциальность данных и эффективное использование ресурсов. Однако в случае текстово-речевой синтеза (TTS) существуют серьёзные проблемы, связанные с высокими затратами на связь и неэффективной обработкой стилистической многообразия. Особенно важной задачей является создание голосовых клонов, которые не только очень точно воспроизводят голос целевого речи, но и сохраняют его индивидуальные стилистические особенности. В настоящей работе мы адресуем эти проблемы, предлагая эффективный подход для FL в области TTS, который минимизирует затраты на связь и улучшает стилистическую многообразие. ## Метод Мы предлагаем Fed-PISA (Federated Personalized Identity-Style Adaptation), который использует дисептентированный подход Low-Rank Adaptation (LoRA) для минимизации затрат на связь и улучшения обработки стилистических особенностей. Для этого введены два отдельных локальных лора-механизма: ID-LoRA, который сохраняет голосовую личность каждого клиента, и Style-LoRA, который описывает стилистические характеристики речи. Только Style-LoRA передаётся на сервер для агрегации, что эффективно обрабатывает стилистическую многообразие. Наш подход также включает в себя метод объединения, основанный на стохастическом фильтровании, который использует стилистические схожести между клиентами для создания личных моделей TTS. ## Результаты Мы проводили эксперименты на данных LibriTTS, оценивая Fed-PISA по метрикам style expressivity, naturalness, и speaker similarity. Наши результаты показывают, что Fed-PISA превосходит стандартные FL-подходы, обеспечивая значительное улучшение этих метрик, в то же время значительно минимизируя затраты на связь. Также мы проводили анализ на стилистической многообразии, показав, что Fed-PISA эффективно учитывает различия в стиле речи между клиентами. ## Значимость Предложенный подход Fed-PISA может быть применён в сфере текстово-речевой синтеза для создания голосовых клонов, которые наиболее точно воспроизводят голос и стиль целевого речи. Он демонстрирует преимущества в минимизации затрат на связь и улучшении стилистического многообразия, что делает его привлекательным для приложений в сфере личных дикторов, личных ассистентов и интерактивных систем. Будущие исследования будут сфокусированы на увеличении эффективности FL в TTS и расширении применения Fed-PISA для других типов речевых данных. ## Выводы Fed-PISA представляет собой эффективный подход к федеративному обучению для TTS, который решает проблемы связанные с высокими затратами на связь и стилистическим многоо

Abstract

Voice cloning for Text-to-Speech (TTS) aims to generate expressive and personalized speech from text using limited data from a target speaker. Federated Learning (FL) offers a collaborative and privacy-preserving framework for this task, but existing approaches suffer from high communication costs and tend to suppress stylistic heterogeneity, resulting in insufficient personalization. To address these issues, we propose Fed-PISA, which stands for Federated Personalized Identity-Style Adaptation. To minimize communication costs, Fed-PISA introduces a disentangled Low-Rank Adaptation (LoRA) mechanism: the speaker's timbre is retained locally through a private ID-LoRA, while only a lightweight style-LoRA is transmitted to the server, thereby minimizing parameter exchange. To harness heterogeneity, our aggregation method, inspired by collaborative filtering, is introduced to create custom models for each client by learning from stylistically similar peers. Experiments show that Fed-PISA improves style expressivity, naturalness, and speaker similarity, outperforming standard federated baselines with minimal communication costs.

Ссылки и действия