Marco-Voice Technical Report

2508.02038v2 cs.CL, cs.SD, eess.AS 2025-08-09
Авторы:

Fengping Tian, Chenyang Lyu, Xuanfan Ni, Haoqin Sun, Qingjuan Li, Zhiqiang Qian, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang

Резюме на русском

Научная статья "Marco-Voice Technical Report" предлагает многофункциональную систему генерации речи, которая объединяет в себе технологии клонирования голоса и управления эмоциями в единой структуре. Целью работы является решение проблемы достижения выразительности, контролируемости и естественности генерируемого речи, при этом сохраняя идентичность голоса и эмоции в разных языковых и эмоциональных контекстах. Авторы предлагают механизм разделения голоса и эмоции с помощью встроенного метода контрастного обучения и метод вращательной интеграции эмоциональных векторов для гладкого управления эмоцией. Для обеспечения эффективного обучения и оценки системы, разработана высококачественная эмоциональная голосовая база данных CSEMOTIONS, содержащая 10 часов мандаринского речи с шести профессиональных спикеров по восьми эмоциональным категориям. Эксперименты показали, что система Marco-Voice демонстрирует улучшения в объективных и субъективных метриках, став конкурентоспособной в области выразительной генерации речи на основе нейронных моделей.

Abstract

This paper presents a multifunctional speech synthesis system that integrates voice cloning and emotion control speech synthesis within a unified framework. The goal of this work is to address longstanding challenges in achieving highly expressive, controllable, and natural speech generation that faithfully preserves speaker identity across diverse linguistic and emotional contexts. Our approach introduces an effective speaker-emotion disentanglement mechanism with in-batch contrastive learning, enabling independent manipulation of speaker identity and eemotional style, as well as rotational emotional embedding integration method for smooth emotion control. To support comprehensive training and evaluation, we construct CSEMOTIONS, a high-quality emotional speech dataset containing 10 hours of Mandarin speech from six professional speakers across seven emotional categories. Extensive experiments demonstrate that our system, Marco-Voice, achieves substantial improvements in both objective and subjective metrics. Comprehensive evaluations and analysis were conducted, results show that MarcoVoice delivers competitive performance in terms of speech clarity and emotional richness, representing a substantial advance in the field of expressive neural speech synthesis. Our code and dataset are publicly available at https://github.com/AIDC-AI/Marco-Voice and https://huggingface.co/datasets/AIDC-AI/CSEMOTIONS respectively.

Ссылки и действия