A Lightweight Pipeline for Noisy Speech Voice Cloning and Accurate Lip Sync Synthesis

2509.12831v1 cs.SD, cs.AI 2025-09-18

Авторы:

Javeria Amir, Farwa Attaria, Mah Jabeen, Umara Noor, Zahid Rashid

Резюме на русском

#### Контекст Речевая клонирование и генерация голосов с точным синхронизацией уст на данный момент является важной областью исследований, во многом благодаря их применению в различных сферах, таких как графические интефейсы, робототехника и видеоконференции. Несмотря на эти успехи, существуют значительные проблемы: многие существующие методы требуют больших объемов данных и высокопроизводительных вычислительных средств, что ограничивает их применение в сетевых и низкоресурсных средах. Также, существующие системы часто не учитывают тонких эмоциональных оттенков в речи, что снижает качество творческого выражения. Мотивирует эту работу необходимость разработки методик, оптимизированных для этих трудностей. #### Метод Мы предлагаем модульную пайплайн-архитектуру, которая включает Tortoise — трансформер-основной текст-войте-спик (TTS) модель, использующую диффузионную модель для высококачественного нулевого-шота клонирования голоса. Для синхронизации губ Tortoise используется легковесная архитектура генерирующей противоположной сети (GAN), которая обеспечивает реальное время выполнение. Весь процесс гибко модифицируется для различных сценариев и может интегрироваться с мультимодальными системами для реализации тонких модернизаций голоса. #### Результаты Мы проводили эксперименты на стандартных данных TTS для сравнения с текущими методами. Выявлено, что наша модель показывает превосходство в точности клонирования голоса в шумных условиях и выполнении говорения в реальном времени. Кроме того, мы продемонстрировали качество синхронизации голоса и губ на независимых данных, показав, что наше решение обеспечивает достижение точности в реальном времени при минимальных вычислительных затратах. #### Значимость Предлагаемое решение может быть применено в ситуациях, требующих эффективности и низкого потребления ресурсов, таких как видеоконференции, образовательные платформы и системы разговорных роботов. Оно отличается модульностью, гибкостью и высоким качеством, что делает его подходящим для реализации в реальных системах. Это также открывает новые возможности для дальнейшего исследования в области текстово-гидрованых модуляций голоса. #### Выводы Мы представили новую модель, позволяющую эффективно решать проблемы клонирования голоса и синхронизации голоса и губ в шумных условиях. Наши результаты показывают высокую точность и быстродействие, что открыло новые перспективы для применения в реальном мире. Наша работа может способствовать улучшению существующих систем и проведению дальнейших исследовани

Abstract

Recent developments in voice cloning and talking head generation demonstrate impressive capabilities in synthesizing natural speech and realistic lip synchronization. Current methods typically require and are trained on large scale datasets and computationally intensive processes using clean studio recorded inputs that is infeasible in noisy or low resource environments. In this paper, we introduce a new modular pipeline comprising Tortoise text to speech. It is a transformer based latent diffusion model that can perform high fidelity zero shot voice cloning given only a few training samples. We use a lightweight generative adversarial network architecture for robust real time lip synchronization. The solution will contribute to many essential tasks concerning less reliance on massive pre training generation of emotionally expressive speech and lip synchronization in noisy and unconstrained scenarios. The modular structure of the pipeline allows an easy extension for future multi modal and text guided voice modulation and it could be used in real world systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

A Lightweight Pipeline for Noisy Speech Voice Cloning and Accurate Lip Sync Synthesis

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация