CoMelSinger: Discrete Token-Based Zero-Shot Singing Synthesis With Structured Melody Control and Guidance

2509.19883v1 cs.SD, cs.AI 2025-09-26
Авторы:

Junchuan Zhao, Wei Zeng, Tianle Lyu, Ye Wang

Резюме на русском

## Контекст Синтез голоса для пения (Singing Voice Synthesis, SVS) является важной задачей в области звуковой инженерии и искусственного интеллекта. Она состоит в том, чтобы создавать экспрессивные вокальные выступления на основе структурированных музыкальных входов, таких как текст и последовательности нот. Несмотря на недавние успехи в области кодирования дискретных звуков для речи, расширение этих технологий для SVS остается задачей, требующей дополнительных исследований. Одна из основных проблем заключается в том, что методы промистого синтеза часто приводят к проблеме "промокания" простора, когда информация о ритме без контроля проникает в синтезированный звук, что нарушает его контролируемость. Для решения этой проблемы, авторы предлагают CoMelSinger — новую модель, ориентированную на точное управление мелодией в синтезированном вокале. ## Метод CoMelSinger основывается на несвязанной модели MaskGCT, которая используется для нейросетевого моделирования звука. В отличие от стандартных текстовых входов, в модель вводятся новые токены, кодирующие слова и тональность пение. Это позволяет сохранить возможность общей обработки в контексте (in-context learning), при этом улучшая контроль над мелодией. Кроме того, авторы предлагают стратегию контрастного обучения, которая помогает избежать проблемы "промокания" простора, регулируя пересечение информации о тонах между акустическим сигналом и звуковыми токенами. Также включена легковесная модель транскрибирования голоса для пения, которая обеспечивает точное управление кадровыми значениями ритма и длительности звука. ## Результаты На тестах сравнения CoMelSinger показала выдающиеся результаты по сравнению с другими моделями. Она демонстрирует более высокую точность по ритму, улучшенную последовательность тонов и более высокую гибкость в нулевых-выстрелах (zero-shot generation). Эксперименты показали, что модель сохраняет высокую точность в синтезированном звуке, даже при переносе на новые данные и варианты задач. Это доказывает силу методов, использованных в CoMelSinger, в обеспечении контролируемого синтеза вокала. ## Значимость Модель CoMelSinger имеет большое потенциальное применение в сферах, требующих высококачественного синтеза голоса для пения, таких как творческое производство музыки, анимация звуков или живые выступления. Важное преимущество лежит в ее возможности создавать звук с точным контролем мелодии, что открывает новые возможности для творческих работ. Будущие исследования могут направляться на улучшение точности генерации и расширение возможностей гибкого управления звуком. ## Выводы CoMelSinger я

Abstract

Singing Voice Synthesis (SVS) aims to generate expressive vocal performances from structured musical inputs such as lyrics and pitch sequences. While recent progress in discrete codec-based speech synthesis has enabled zero-shot generation via in-context learning, directly extending these techniques to SVS remains non-trivial due to the requirement for precise melody control. In particular, prompt-based generation often introduces prosody leakage, where pitch information is inadvertently entangled within the timbre prompt, compromising controllability. We present CoMelSinger, a zero-shot SVS framework that enables structured and disentangled melody control within a discrete codec modeling paradigm. Built on the non-autoregressive MaskGCT architecture, CoMelSinger replaces conventional text inputs with lyric and pitch tokens, preserving in-context generalization while enhancing melody conditioning. To suppress prosody leakage, we propose a coarse-to-fine contrastive learning strategy that explicitly regularizes pitch redundancy between the acoustic prompt and melody input. Furthermore, we incorporate a lightweight encoder-only Singing Voice Transcription (SVT) module to align acoustic tokens with pitch and duration, offering fine-grained frame-level supervision. Experimental results demonstrate that CoMelSinger achieves notable improvements in pitch accuracy, timbre consistency, and zero-shot transferability over competitive baselines.

Ссылки и действия