DAFMSVC: One-Shot Singing Voice Conversion with Dual Attention Mechanism and Flow Matching

2508.05978v1 cs.SD, cs.AI, cs.LG 2025-08-12

Авторы:

Wei Chen, Binzhu Sha, Dan Luo, Jing Yang, Zhuo Wang, Fan Fan, Zhiyong Wu

Резюме на русском

#### Контекст Singing Voice Conversion (SVC) является важной задачей в сфере музыкальных технологий, нацеленной на преобразование голоса источника в голос целевого исполнителя, сохраняя мелодию и текст. Особенно вызов составляет обеспечение качества звука и точность передачи голосового значения при преобразовании между незнакомыми голосами. Существующие методы часто сталкиваются с проблемами, такими как несогласованность звука или потеря естественности, что приводит к снижению качества генерируемого звука. Наша мотивация заключается в разработке метода, который бы решал эти проблемы и позволял эффективно преобразовывать голосовое выражение в рамках любого-к-любому SVC. #### Метод Мы предлагаем DAFMSVC (Dual Attention Flow Matching for Singing Voice Conversion) с рядом уникальных компонентов. Во-первых, мы заменяем самостоятельно выученные функции источника на самые близкие функции целевого звука, чтобы избежать проблемы "leakage" звука. Во-вторых, мы реализуем двойной кросс-аттенционный механизм для эффективного объединения эмбеддингов речи, мелодии и лингвистического контента. В-третьих, вводится модуль под названием Flow Matching, который основывается на методе течения потока стохастических процессов для высококачественной генерации аудио. Эта архитектура обеспечивает глубокую интеграцию между звуковыми особенностями и языковыми признаками, чтобы получать естественный и точный SVC. #### Результаты Мы проводим эксперименты на различных данных, включая независимую выборку гласных и согласных, а также реальные аудиозаписи. Мы сравниваем DAFMSVC с тремя современными методами SVC. Результаты показывают, что наш метод обеспечивает существенное улучшение точности в тестировании качества звука (STOI, PESQ) и показателей естественности (MOS) по сравнению с конкурентами. Наблюдается заметное сокращение в завышении звука и расхождении в периоде, что демонстрирует эффективность DAFMSVC в преобразовании голоса. #### Значимость DAFMSVC может быть применен в различных областях, таких как создание музыкальных композиций, тренировка моделей голоса, и личное использование генерации звуков. Его преимущества заключаются в высокой точности подгонки голоса, естественности генерируемых звуков и общей эффективности в обработке голосовых данных. Данный подход может способствовать развитию новых технологий в области звуковой обработки и искусственного интеллекта. #### Выводы Мы успешно разработали DAFMSVC, который представляет собой новый подход к one-shot SVC. Метод демонстрирует превосходство в расширении технических показателей и качестве звука по с

Abstract

Singing Voice Conversion (SVC) transfers a source singer's timbre to a target while keeping melody and lyrics. The key challenge in any-to-any SVC is adapting unseen speaker timbres to source audio without quality degradation. Existing methods either face timbre leakage or fail to achieve satisfactory timbre similarity and quality in the generated audio. To address these challenges, we propose DAFMSVC, where the self-supervised learning (SSL) features from the source audio are replaced with the most similar SSL features from the target audio to prevent timbre leakage. It also incorporates a dual cross-attention mechanism for the adaptive fusion of speaker embeddings, melody, and linguistic content. Additionally, we introduce a flow matching module for high quality audio generation from the fused features. Experimental results show that DAFMSVC significantly enhances timbre similarity and naturalness, outperforming state-of-the-art methods in both subjective and objective evaluations.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

DAFMSVC: One-Shot Singing Voice Conversion with Dual Attention Mechanism and Flow Matching

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

SAND Challenge: Four Approaches for Dysartria Severity Classification

Explainable Multi-Modal Deep Learning for Automatic Detection of Lung Diseases f...

Preference-Based Learning in Audio Applications: A Systematic Analysis

Beat Tracking as Object Detection

Beat Detection as Object Detection

Навигация