A Lightweight Pipeline for Noisy Speech Voice Cloning and Accurate Lip Sync Synthesis
2509.12831v1
cs.SD, cs.AI
2025-09-18
Авторы:
Javeria Amir, Farwa Attaria, Mah Jabeen, Umara Noor, Zahid Rashid
Резюме на русском
#### Контекст
Речевая клонирование и генерация голосов с точным синхронизацией уст на данный момент является важной областью исследований, во многом благодаря их применению в различных сферах, таких как графические интефейсы, робототехника и видеоконференции. Несмотря на эти успехи, существуют значительные проблемы: многие существующие методы требуют больших объемов данных и высокопроизводительных вычислительных средств, что ограничивает их применение в сетевых и низкоресурсных средах. Также, существующие системы часто не учитывают тонких эмоциональных оттенков в речи, что снижает качество творческого выражения. Мотивирует эту работу необходимость разработки методик, оптимизированных для этих трудностей.
#### Метод
Мы предлагаем модульную пайплайн-архитектуру, которая включает Tortoise — трансформер-основной текст-войте-спик (TTS) модель, использующую диффузионную модель для высококачественного нулевого-шота клонирования голоса. Для синхронизации губ Tortoise используется легковесная архитектура генерирующей противоположной сети (GAN), которая обеспечивает реальное время выполнение. Весь процесс гибко модифицируется для различных сценариев и может интегрироваться с мультимодальными системами для реализации тонких модернизаций голоса.
#### Результаты
Мы проводили эксперименты на стандартных данных TTS для сравнения с текущими методами. Выявлено, что наша модель показывает превосходство в точности клонирования голоса в шумных условиях и выполнении говорения в реальном времени. Кроме того, мы продемонстрировали качество синхронизации голоса и губ на независимых данных, показав, что наше решение обеспечивает достижение точности в реальном времени при минимальных вычислительных затратах.
#### Значимость
Предлагаемое решение может быть применено в ситуациях, требующих эффективности и низкого потребления ресурсов, таких как видеоконференции, образовательные платформы и системы разговорных роботов. Оно отличается модульностью, гибкостью и высоким качеством, что делает его подходящим для реализации в реальных системах. Это также открывает новые возможности для дальнейшего исследования в области текстово-гидрованых модуляций голоса.
#### Выводы
Мы представили новую модель, позволяющую эффективно решать проблемы клонирования голоса и синхронизации голоса и губ в шумных условиях. Наши результаты показывают высокую точность и быстродействие, что открыло новые перспективы для применения в реальном мире. Наша работа может способствовать улучшению существующих систем и проведению дальнейших исследовани
Abstract
Recent developments in voice cloning and talking head generation demonstrate
impressive capabilities in synthesizing natural speech and realistic lip
synchronization. Current methods typically require and are trained on large
scale datasets and computationally intensive processes using clean studio
recorded inputs that is infeasible in noisy or low resource environments. In
this paper, we introduce a new modular pipeline comprising Tortoise text to
speech. It is a transformer based latent diffusion model that can perform high
fidelity zero shot voice cloning given only a few training samples. We use a
lightweight generative adversarial network architecture for robust real time
lip synchronization. The solution will contribute to many essential tasks
concerning less reliance on massive pre training generation of emotionally
expressive speech and lip synchronization in noisy and unconstrained scenarios.
The modular structure of the pipeline allows an easy extension for future multi
modal and text guided voice modulation and it could be used in real world
systems.
Ссылки и действия
Дополнительные ресурсы: