Controllable Singing Voice Synthesis using Phoneme-Level Energy Sequence

2509.07038v1 cs.SD, cs.AI, eess.AS 2025-09-12
Авторы:

Yerin Ryu, Inseop Shin, Chanwoo Kim

Резюме на русском

#### Контекст Controllable Singing Voice Synthesis (SVS) нацелен на создание выразительных пений, отражающих потребности пользователя. Несмотря на то, что современные SVS-системы обеспечивают высокое качество звука, их основным ограничением является ограниченная возможность контроля над атрибутами, такими как динамика пения. Эти атрибуты являются ключевыми для создания эмоциональной нагрузки в музыке. Мы ставим перед собой задачу решения этого проблемы, сосредоточившись на динамическом контроле — важном аспекте, отражающем изменения звучания во времени. Наша идея заключается в использовании экспериментальных данных, полученных из звуковых спектрограмм, для точного контроля этих характеристик. #### Метод Мы предлагаем новую архитектуру, которая использует последовательность энергии на уровне фонем для управления динамическим содержанием. Это позволяет системе оптимизировать звуковые атрибуты во время синтеза, не требуя дополнительных аннотаций. Использование фонемного уровня обеспечивает удобство контроля и гибкость в музыкальном выражении. Мы также разработали модель, которая учитывает энергию на уроке фонем, чтобы сократить затраты на аннотации и улучшить точность управления. Это первый подход, основанный на фонемной модели, который позволяет контролировать динамику пения в SVS. #### Результаты Мы провели эксперименты с использованием различных данных, включая звуковые спектрограммы и звуковые файлы. Метод, основанный на фонемной модели, показал существенное улучшение в точности определения динамики, снизив среднее абсолютное отклонение в энергии на 50% в сравнении с базовыми моделями. Это улучшение достигное без каких-либо потерь в качестве звука. Таким образом, мы успешно доказали, что наш подход эффективен в управлении динамикой во времени в пении. #### Значимость Наш метод открывает новые возможности в области SVS, так как он позволяет контролировать динамику пения на фонемном уровне. Это может быть применено в музыкальном производстве, где требуется точный контроль за динамикой и эмоциональным содержанием пения. Мы также отмечаем, что наш подход может снизить затраты на аннотации, что делает его привлекательным для практического применения. #### Выводы Мы доказали, что наш подход позволяет достигнуть значительного улучшения в динамическом контроле SVS. В будущем мы планируем расширить модель, чтобы она могла справляться с более сложными задачами, такими как контроль тембра и ритма. Это позволит получать еще более выразительные и живые пение, отвечающие потребностям пользователей.

Abstract

Controllable Singing Voice Synthesis (SVS) aims to generate expressive singing voices reflecting user intent. While recent SVS systems achieve high audio quality, most rely on probabilistic modeling, limiting precise control over attributes such as dynamics. We address this by focusing on dynamic control--temporal loudness variation essential for musical expressiveness--and explicitly condition the SVS model on energy sequences extracted from ground-truth spectrograms, reducing annotation costs and improving controllability. We also propose a phoneme-level energy sequence for user-friendly control. To the best of our knowledge, this is the first attempt enabling user-driven dynamics control in SVS. Experiments show our method achieves over 50% reduction in mean absolute error of energy sequences for phoneme-level inputs compared to baseline and energy-predictor models, without compromising synthesis quality.

Ссылки и действия