Vevo2: Bridging Controllable Speech and Singing Voice Generation via Unified Prosody Learning

2508.16332v1 cs.SD, cs.AI, cs.CL 2025-08-26

Авторы:

Xueyao Zhang, Junan Zhang, Yuancheng Wang, Chaoren Wang, Yuanzhe Chen, Dongya Jia, Zhuo Chen, Zhizheng Wu

Резюме на русском

#### Контекст Лингвистические функции голоса влияют на способность людей выражаться и узнаваться, особенно при выполнении творческих задач, таких как поющий голос. Существующие подходы к генерации голоса часто специализируются на одной области, такой как речь или поющий голос, что ограничивает их универсальность и гибкость. Это приводит к необходимости разработки универсальных моделей, которые могут эффективно обрабатывать и контролировать обоие режимы — речь и поющий голос. Кроме того, ограниченные объемы аннотированных данных, особенно для поющего голоса, и сложность контроля за стилем и прозоди создают дополнительные вызовы. В этом контексте Vevo2 предлагает решение, объединяя голоса в единую модель. #### Метод Vevo2 представляет собой новую архитектуру, которая позволяет генерировать голос в обоих режимах — речью и поющим — с помощью общей модели. Для этого разработаны два типа токенизаторов: (1) **токенизатор музыкальной нотации без мелодии**, который позволяет получать не только прозодь и мелодию, но и звучание от речи до поющего голоса и даже инструментальных звуков; (2) **токенизатор низкого кадрового разрешения (12.5 Гц)**, который кодирует текст, прозодь и стиль для обоих режимов, а также обеспечивает разделение голоса. Модель включает авторегрессионную стадию моделирования контента и стиля, которая обеспечивает контроль над текстом, прозоди и стилем, и аккустическую стадию с потоковым соответствием, которая позволяет контролировать голос. В ходе предварительного обучения авторегрессионной модели используются стратегии обучения прозоди, которые позволяют связывать речь и поющий голос. Для повышения учтивости и стиля используется многоцелевая задача постобучения. #### Результаты Эксперименты проводились на различных задачах генерации и преобразования голоса, включая речь и поющий голос. Модель Vevo2 демонстрирует высокую точность в задачах конвертации речи в поющий голос и наоборот, а также в задачах редактирования голоса. Использовались различные данные, включая голосовые сэмплы с разными стилями и акцентами. Результаты показывают, что Vevo2 обеспечивает качественное согласование текста, прозоди и стиля в обоих режимах и предлагает гибкие возможности контроля. Аудио-примеры доступны по ссылке. #### Значимость Данная работа имеет значимость в области генерации голоса, поскольку объединяет речь и поющий голос в единую модель, что повышает универсальность и применяемость. Она может применяться в развитии новых технологий для генерации голоса в развлекательных, медицинских и образовательных приложениях. В

Abstract

Controllable human voice generation, particularly for expressive domains like singing, remains a significant challenge. This paper introduces Vevo2, a unified framework for controllable speech and singing voice generation. To tackle issues like the scarcity of annotated singing data and to enable flexible controllability, Vevo2 introduces two audio tokenizers: (1) a music-notation-free prosody tokenizer that captures prosody and melody from speech, singing, and even instrumental sounds, and (2) a low-frame-rate (12.5 Hz) content-style tokenizer that encodes linguistic content, prosody, and style for both speech and singing, while enabling timbre disentanglement. Vevo2 consists of an auto-regressive (AR) content-style modeling stage, which aims to enable controllability over text, prosody, and style, as well as a flow-matching acoustic modeling stage that allows for timbre control. Particularly, during pre-training of the AR model, we propose both explicit and implicit prosody learning strategies to bridge speech and singing voice. Moreover, to further enhance the AR model's ability to follow text and prosody, we design a multi-objective post-training task that integrates both intelligibility and prosody similarity alignment. Experimental results show that the unified modeling in Vevo2 brings mutual benefits to both speech and singing voice generation. Additionally, Vevo2's effectiveness across a wide range of synthesis, conversion, and editing tasks for both speech and singing further demonstrates its strong generalization ability and versatility. Audio samples are are available at https://versasinger.github.io/.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Vevo2: Bridging Controllable Speech and Singing Voice Generation via Unified Prosody Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Story2MIDI: Emotionally Aligned Music Generation from Text

Melody or Machine: Detecting Synthetic Music with Dual-Stream Contrastive Learni...

SpeechJudge: Towards Human-Level Judgment for Speech Naturalness

Finding My Voice: Generative Reconstruction of Disordered Speech for Automated C...

Spatial Audio Motion Understanding and Reasoning

Навигация