FasterVoiceGrad: Faster One-step Diffusion-Based Voice Conversion with Adversarial Diffusion Conversion Distillation

2508.17868v1 cs.SD, cs.AI, cs.LG, eess.AS, stat.ML 2025-08-27
Авторы:

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

Резюме на русском

#### Контекст "Диффузионные модели, такие как VoiceGrad, достигают высокой степени точности в речевом преобразовании (Voice Conversion, VC) по сравнению с более простыми моделями генерации речи. Однако их выполнение требует многоэтапного сэмплинга, что приводит к заметному снижению скорости. Для устранения этого недостатка была предложена FastVoiceGrad, которая преобразовывает VoiceGrad в одношаговую модель. Тем не менее, FastVoiceGrad все еще зависит от тяжеловесного контентного энкодера, необходимого для выделения речевой идентичности и контента, что также замедляет преобразование. Это привело к развитию FasterVoiceGrad, которая стремится улучшить скорость диффузионного VC, добиваясь этого за счет внедрения адверсарного диффузионного преобразования и одновременного обучения с помощью алгоритма ADCD." #### Метод "FasterVoiceGrad основывается на введении нового парадигмы для одношагового диффузионного VC. Она использует метод ADCD для улучшения качества речевого преобразования, при этом решая проблему дорогостоящего обучения контентного энкодера. Модель состоит из двух ключевых элементов: одношаговой диффузионной модели и содержимого-энкодера, которые обучаются одновременно. Это позволяет избежать избыточного вычислительного напряжения, связанного с длительными итерациями сэмплирования. Модель использует простую архитектуру, но эффективную, чтобы улучшить скорость, сохранив высокое качество за счет ускоренного обучения диффузионной модели и содержимого-энкодера." #### Результаты "В экспериментах была проведена сравнительная оценка скорости и качества речевого преобразования между FasterVoiceGrad, FastVoiceGrad и VoiceGrad. Результаты показывают, что FasterVoiceGrad демонстрирует скорость выполнения 6.6-6.9 раз быстрее генерации VoiceGrad и 1.8 раз быстрее FastVoiceGrad при использовании GPU и CPU. Однако в качестве речевого преобразования она сохраняет высокую точность и силу речевого выражения, близкую к VoiceGrad. Это делает ее более скорострельной, но не хуже по качеству." #### Значимость "FasterVoiceGrad демонстрирует новую технику для ускорения диффузионных моделей VC, сочетая в себе высокое качество и быстроту преобразования. Она может быть применена в различных сценариях, где необходимо быстрое преобразование речи, например, в системах реального времени или приложениях, требующих высокой производительности. Это позволяет улучшить интерактивность и пользовательский опыт, особенно в системах с низкой задержкой, таких как видеоконференции или синтез речи." #### Выводы "Данная работа открывает новый путь для улучшения скорости и качества диффузионных моделей VC. Она показывает, что можно добиться высокой точности при меньшем

Abstract

A diffusion-based voice conversion (VC) model (e.g., VoiceGrad) can achieve high speech quality and speaker similarity; however, its conversion process is slow owing to iterative sampling. FastVoiceGrad overcomes this limitation by distilling VoiceGrad into a one-step diffusion model. However, it still requires a computationally intensive content encoder to disentangle the speaker's identity and content, which slows conversion. Therefore, we propose FasterVoiceGrad, a novel one-step diffusion-based VC model obtained by simultaneously distilling a diffusion model and content encoder using adversarial diffusion conversion distillation (ADCD), where distillation is performed in the conversion process while leveraging adversarial and score distillation training. Experimental evaluations of one-shot VC demonstrated that FasterVoiceGrad achieves competitive VC performance compared to FastVoiceGrad, with 6.6-6.9 and 1.8 times faster speed on a GPU and CPU, respectively.

Ссылки и действия

Связанные статьи

Vocoder-Projected Feature Discriminator

#### Контекст Текстовые распознавания речи (TTS) и голосовые преобразования (VC) широко используются в сфере искусствен...

2025-08-28

Vocoder-Projected Feature Discriminator

#### Контекст Текстовая речь и голосовая преобразование (TTS и VC) широко используются в различных приложениях, от инте...

2025-08-27