DAFMSVC: One-Shot Singing Voice Conversion with Dual Attention Mechanism and Flow Matching
2508.05978v1
cs.SD, cs.AI, cs.LG
2025-08-12
Авторы:
Wei Chen, Binzhu Sha, Dan Luo, Jing Yang, Zhuo Wang, Fan Fan, Zhiyong Wu
Резюме на русском
#### Контекст
Singing Voice Conversion (SVC) является важной задачей в сфере музыкальных технологий, нацеленной на преобразование голоса источника в голос целевого исполнителя, сохраняя мелодию и текст. Особенно вызов составляет обеспечение качества звука и точность передачи голосового значения при преобразовании между незнакомыми голосами. Существующие методы часто сталкиваются с проблемами, такими как несогласованность звука или потеря естественности, что приводит к снижению качества генерируемого звука. Наша мотивация заключается в разработке метода, который бы решал эти проблемы и позволял эффективно преобразовывать голосовое выражение в рамках любого-к-любому SVC.
#### Метод
Мы предлагаем DAFMSVC (Dual Attention Flow Matching for Singing Voice Conversion) с рядом уникальных компонентов. Во-первых, мы заменяем самостоятельно выученные функции источника на самые близкие функции целевого звука, чтобы избежать проблемы "leakage" звука. Во-вторых, мы реализуем двойной кросс-аттенционный механизм для эффективного объединения эмбеддингов речи, мелодии и лингвистического контента. В-третьих, вводится модуль под названием Flow Matching, который основывается на методе течения потока стохастических процессов для высококачественной генерации аудио. Эта архитектура обеспечивает глубокую интеграцию между звуковыми особенностями и языковыми признаками, чтобы получать естественный и точный SVC.
#### Результаты
Мы проводим эксперименты на различных данных, включая независимую выборку гласных и согласных, а также реальные аудиозаписи. Мы сравниваем DAFMSVC с тремя современными методами SVC. Результаты показывают, что наш метод обеспечивает существенное улучшение точности в тестировании качества звука (STOI, PESQ) и показателей естественности (MOS) по сравнению с конкурентами. Наблюдается заметное сокращение в завышении звука и расхождении в периоде, что демонстрирует эффективность DAFMSVC в преобразовании голоса.
#### Значимость
DAFMSVC может быть применен в различных областях, таких как создание музыкальных композиций, тренировка моделей голоса, и личное использование генерации звуков. Его преимущества заключаются в высокой точности подгонки голоса, естественности генерируемых звуков и общей эффективности в обработке голосовых данных. Данный подход может способствовать развитию новых технологий в области звуковой обработки и искусственного интеллекта.
#### Выводы
Мы успешно разработали DAFMSVC, который представляет собой новый подход к one-shot SVC. Метод демонстрирует превосходство в расширении технических показателей и качестве звука по с
Abstract
Singing Voice Conversion (SVC) transfers a source singer's timbre to a target
while keeping melody and lyrics. The key challenge in any-to-any SVC is
adapting unseen speaker timbres to source audio without quality degradation.
Existing methods either face timbre leakage or fail to achieve satisfactory
timbre similarity and quality in the generated audio. To address these
challenges, we propose DAFMSVC, where the self-supervised learning (SSL)
features from the source audio are replaced with the most similar SSL features
from the target audio to prevent timbre leakage. It also incorporates a dual
cross-attention mechanism for the adaptive fusion of speaker embeddings,
melody, and linguistic content. Additionally, we introduce a flow matching
module for high quality audio generation from the fused features. Experimental
results show that DAFMSVC significantly enhances timbre similarity and
naturalness, outperforming state-of-the-art methods in both subjective and
objective evaluations.
Ссылки и действия
Дополнительные ресурсы: