Vevo2: Bridging Controllable Speech and Singing Voice Generation via Unified Prosody Learning
2508.16332v1
cs.SD, cs.AI, cs.CL
2025-08-26
Авторы:
Xueyao Zhang, Junan Zhang, Yuancheng Wang, Chaoren Wang, Yuanzhe Chen, Dongya Jia, Zhuo Chen, Zhizheng Wu
Резюме на русском
#### Контекст
Лингвистические функции голоса влияют на способность людей выражаться и узнаваться, особенно при выполнении творческих задач, таких как поющий голос. Существующие подходы к генерации голоса часто специализируются на одной области, такой как речь или поющий голос, что ограничивает их универсальность и гибкость. Это приводит к необходимости разработки универсальных моделей, которые могут эффективно обрабатывать и контролировать обоие режимы — речь и поющий голос. Кроме того, ограниченные объемы аннотированных данных, особенно для поющего голоса, и сложность контроля за стилем и прозоди создают дополнительные вызовы. В этом контексте Vevo2 предлагает решение, объединяя голоса в единую модель.
#### Метод
Vevo2 представляет собой новую архитектуру, которая позволяет генерировать голос в обоих режимах — речью и поющим — с помощью общей модели. Для этого разработаны два типа токенизаторов: (1) **токенизатор музыкальной нотации без мелодии**, который позволяет получать не только прозодь и мелодию, но и звучание от речи до поющего голоса и даже инструментальных звуков; (2) **токенизатор низкого кадрового разрешения (12.5 Гц)**, который кодирует текст, прозодь и стиль для обоих режимов, а также обеспечивает разделение голоса. Модель включает авторегрессионную стадию моделирования контента и стиля, которая обеспечивает контроль над текстом, прозоди и стилем, и аккустическую стадию с потоковым соответствием, которая позволяет контролировать голос. В ходе предварительного обучения авторегрессионной модели используются стратегии обучения прозоди, которые позволяют связывать речь и поющий голос. Для повышения учтивости и стиля используется многоцелевая задача постобучения.
#### Результаты
Эксперименты проводились на различных задачах генерации и преобразования голоса, включая речь и поющий голос. Модель Vevo2 демонстрирует высокую точность в задачах конвертации речи в поющий голос и наоборот, а также в задачах редактирования голоса. Использовались различные данные, включая голосовые сэмплы с разными стилями и акцентами. Результаты показывают, что Vevo2 обеспечивает качественное согласование текста, прозоди и стиля в обоих режимах и предлагает гибкие возможности контроля. Аудио-примеры доступны по ссылке.
#### Значимость
Данная работа имеет значимость в области генерации голоса, поскольку объединяет речь и поющий голос в единую модель, что повышает универсальность и применяемость. Она может применяться в развитии новых технологий для генерации голоса в развлекательных, медицинских и образовательных приложениях. В
Abstract
Controllable human voice generation, particularly for expressive domains like
singing, remains a significant challenge. This paper introduces Vevo2, a
unified framework for controllable speech and singing voice generation. To
tackle issues like the scarcity of annotated singing data and to enable
flexible controllability, Vevo2 introduces two audio tokenizers: (1) a
music-notation-free prosody tokenizer that captures prosody and melody from
speech, singing, and even instrumental sounds, and (2) a low-frame-rate (12.5
Hz) content-style tokenizer that encodes linguistic content, prosody, and style
for both speech and singing, while enabling timbre disentanglement. Vevo2
consists of an auto-regressive (AR) content-style modeling stage, which aims to
enable controllability over text, prosody, and style, as well as a
flow-matching acoustic modeling stage that allows for timbre control.
Particularly, during pre-training of the AR model, we propose both explicit and
implicit prosody learning strategies to bridge speech and singing voice.
Moreover, to further enhance the AR model's ability to follow text and prosody,
we design a multi-objective post-training task that integrates both
intelligibility and prosody similarity alignment. Experimental results show
that the unified modeling in Vevo2 brings mutual benefits to both speech and
singing voice generation. Additionally, Vevo2's effectiveness across a wide
range of synthesis, conversion, and editing tasks for both speech and singing
further demonstrates its strong generalization ability and versatility. Audio
samples are are available at https://versasinger.github.io/.
Ссылки и действия
Дополнительные ресурсы: