MaskVCT: Masked Voice Codec Transformer for Zero-Shot Voice Conversion With Increased Controllability via Multiple Guidances
2509.17143v1
eess.AS, cs.AI
2025-09-24
Авторы:
Junhyeok Lee, Helin Wang, Yaohan Guan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim Dehak
Резюме на русском
В статье предлагается MaskVCT — новая модель zero-shot voice conversion (VC), которая обеспечивает значительный улучшенный контроль в факторах голосовой конвертации. Модель использует классификатор-бесплатные guidances (CFGs) для управления различными аспектами голоса, включая идентичность речи, языковые содержимое и просодические свойства. Это позволяет MaskVCT не только достичь высокой точности в целевой идентичности и акценте, но и улучшить интеллектуальность и соблюдение просодических факторов. Благодаря интеграции нескольких условий в одной модели, MaskVCT предлагает более гибкую модель управления, чем предыдущие решения. Эксперименты показали, что модель MaskVCT достигает наилучших результатов в идентичности речи и акцента, а также соперничает с существующими моделями по критериям ошибок слов и символов. Это демонстрирует ее эффективность в решении проблем голосового преобразования.
Abstract
We introduce MaskVCT, a zero-shot voice conversion (VC) model that offers
multi-factor controllability through multiple classifier-free guidances (CFGs).
While previous VC models rely on a fixed conditioning scheme, MaskVCT
integrates diverse conditions in a single model. To further enhance robustness
and control, the model can leverage continuous or quantized linguistic features
to enhance intellgibility and speaker similarity, and can use or omit pitch
contour to control prosody. These choices allow users to seamlessly balance
speaker identity, linguistic content, and prosodic factors in a zero-shot VC
setting. Extensive experiments demonstrate that MaskVCT achieves the best
target speaker and accent similarities while obtaining competitive word and
character error rates compared to existing baselines. Audio samples are
available at https://maskvct.github.io/.
Ссылки и действия
Дополнительные ресурсы: