FasterVoiceGrad: Faster One-step Diffusion-Based Voice Conversion with Adversarial Diffusion Conversion Distillation
2508.17868v1
cs.SD, cs.AI, cs.LG, eess.AS, stat.ML
2025-08-27
Авторы:
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo
Резюме на русском
#### Контекст
"Диффузионные модели, такие как VoiceGrad, достигают высокой степени точности в речевом преобразовании (Voice Conversion, VC) по сравнению с более простыми моделями генерации речи. Однако их выполнение требует многоэтапного сэмплинга, что приводит к заметному снижению скорости. Для устранения этого недостатка была предложена FastVoiceGrad, которая преобразовывает VoiceGrad в одношаговую модель. Тем не менее, FastVoiceGrad все еще зависит от тяжеловесного контентного энкодера, необходимого для выделения речевой идентичности и контента, что также замедляет преобразование. Это привело к развитию FasterVoiceGrad, которая стремится улучшить скорость диффузионного VC, добиваясь этого за счет внедрения адверсарного диффузионного преобразования и одновременного обучения с помощью алгоритма ADCD."
#### Метод
"FasterVoiceGrad основывается на введении нового парадигмы для одношагового диффузионного VC. Она использует метод ADCD для улучшения качества речевого преобразования, при этом решая проблему дорогостоящего обучения контентного энкодера. Модель состоит из двух ключевых элементов: одношаговой диффузионной модели и содержимого-энкодера, которые обучаются одновременно. Это позволяет избежать избыточного вычислительного напряжения, связанного с длительными итерациями сэмплирования. Модель использует простую архитектуру, но эффективную, чтобы улучшить скорость, сохранив высокое качество за счет ускоренного обучения диффузионной модели и содержимого-энкодера."
#### Результаты
"В экспериментах была проведена сравнительная оценка скорости и качества речевого преобразования между FasterVoiceGrad, FastVoiceGrad и VoiceGrad. Результаты показывают, что FasterVoiceGrad демонстрирует скорость выполнения 6.6-6.9 раз быстрее генерации VoiceGrad и 1.8 раз быстрее FastVoiceGrad при использовании GPU и CPU. Однако в качестве речевого преобразования она сохраняет высокую точность и силу речевого выражения, близкую к VoiceGrad. Это делает ее более скорострельной, но не хуже по качеству."
#### Значимость
"FasterVoiceGrad демонстрирует новую технику для ускорения диффузионных моделей VC, сочетая в себе высокое качество и быстроту преобразования. Она может быть применена в различных сценариях, где необходимо быстрое преобразование речи, например, в системах реального времени или приложениях, требующих высокой производительности. Это позволяет улучшить интерактивность и пользовательский опыт, особенно в системах с низкой задержкой, таких как видеоконференции или синтез речи."
#### Выводы
"Данная работа открывает новый путь для улучшения скорости и качества диффузионных моделей VC. Она показывает, что можно добиться высокой точности при меньшем
Abstract
A diffusion-based voice conversion (VC) model (e.g., VoiceGrad) can achieve
high speech quality and speaker similarity; however, its conversion process is
slow owing to iterative sampling. FastVoiceGrad overcomes this limitation by
distilling VoiceGrad into a one-step diffusion model. However, it still
requires a computationally intensive content encoder to disentangle the
speaker's identity and content, which slows conversion. Therefore, we propose
FasterVoiceGrad, a novel one-step diffusion-based VC model obtained by
simultaneously distilling a diffusion model and content encoder using
adversarial diffusion conversion distillation (ADCD), where distillation is
performed in the conversion process while leveraging adversarial and score
distillation training. Experimental evaluations of one-shot VC demonstrated
that FasterVoiceGrad achieves competitive VC performance compared to
FastVoiceGrad, with 6.6-6.9 and 1.8 times faster speed on a GPU and CPU,
respectively.