CoMelSinger: Discrete Token-Based Zero-Shot Singing Synthesis With Structured Melody Control and Guidance
2509.19883v1
cs.SD, cs.AI
2025-09-26
Авторы:
Junchuan Zhao, Wei Zeng, Tianle Lyu, Ye Wang
Резюме на русском
## Контекст
Синтез голоса для пения (Singing Voice Synthesis, SVS) является важной задачей в области звуковой инженерии и искусственного интеллекта. Она состоит в том, чтобы создавать экспрессивные вокальные выступления на основе структурированных музыкальных входов, таких как текст и последовательности нот. Несмотря на недавние успехи в области кодирования дискретных звуков для речи, расширение этих технологий для SVS остается задачей, требующей дополнительных исследований. Одна из основных проблем заключается в том, что методы промистого синтеза часто приводят к проблеме "промокания" простора, когда информация о ритме без контроля проникает в синтезированный звук, что нарушает его контролируемость. Для решения этой проблемы, авторы предлагают CoMelSinger — новую модель, ориентированную на точное управление мелодией в синтезированном вокале.
## Метод
CoMelSinger основывается на несвязанной модели MaskGCT, которая используется для нейросетевого моделирования звука. В отличие от стандартных текстовых входов, в модель вводятся новые токены, кодирующие слова и тональность пение. Это позволяет сохранить возможность общей обработки в контексте (in-context learning), при этом улучшая контроль над мелодией. Кроме того, авторы предлагают стратегию контрастного обучения, которая помогает избежать проблемы "промокания" простора, регулируя пересечение информации о тонах между акустическим сигналом и звуковыми токенами. Также включена легковесная модель транскрибирования голоса для пения, которая обеспечивает точное управление кадровыми значениями ритма и длительности звука.
## Результаты
На тестах сравнения CoMelSinger показала выдающиеся результаты по сравнению с другими моделями. Она демонстрирует более высокую точность по ритму, улучшенную последовательность тонов и более высокую гибкость в нулевых-выстрелах (zero-shot generation). Эксперименты показали, что модель сохраняет высокую точность в синтезированном звуке, даже при переносе на новые данные и варианты задач. Это доказывает силу методов, использованных в CoMelSinger, в обеспечении контролируемого синтеза вокала.
## Значимость
Модель CoMelSinger имеет большое потенциальное применение в сферах, требующих высококачественного синтеза голоса для пения, таких как творческое производство музыки, анимация звуков или живые выступления. Важное преимущество лежит в ее возможности создавать звук с точным контролем мелодии, что открывает новые возможности для творческих работ. Будущие исследования могут направляться на улучшение точности генерации и расширение возможностей гибкого управления звуком.
## Выводы
CoMelSinger я
Abstract
Singing Voice Synthesis (SVS) aims to generate expressive vocal performances
from structured musical inputs such as lyrics and pitch sequences. While recent
progress in discrete codec-based speech synthesis has enabled zero-shot
generation via in-context learning, directly extending these techniques to SVS
remains non-trivial due to the requirement for precise melody control. In
particular, prompt-based generation often introduces prosody leakage, where
pitch information is inadvertently entangled within the timbre prompt,
compromising controllability. We present CoMelSinger, a zero-shot SVS framework
that enables structured and disentangled melody control within a discrete codec
modeling paradigm. Built on the non-autoregressive MaskGCT architecture,
CoMelSinger replaces conventional text inputs with lyric and pitch tokens,
preserving in-context generalization while enhancing melody conditioning. To
suppress prosody leakage, we propose a coarse-to-fine contrastive learning
strategy that explicitly regularizes pitch redundancy between the acoustic
prompt and melody input. Furthermore, we incorporate a lightweight encoder-only
Singing Voice Transcription (SVT) module to align acoustic tokens with pitch
and duration, offering fine-grained frame-level supervision. Experimental
results demonstrate that CoMelSinger achieves notable improvements in pitch
accuracy, timbre consistency, and zero-shot transferability over competitive
baselines.
Ссылки и действия
Дополнительные ресурсы: