Maestro-EVC: Controllable Emotional Voice Conversion Guided by References and Explicit Prosody

2508.06890v1 cs.SD, cs.AI, cs.CL, eess.AS 2025-08-13
Авторы:

Jinsung Yoon, Wooyeol Jeong, Jio Gim, Young-Joo Suh

Резюме на русском

## Контекст Emotional Voice Conversion (EVC) является важной задачей в области речевых технологий, способствующей созданию эмоционально окрашенного голоса, сохраняющего языковой контент. Известно, что в ситуациях, где требуется контролируемое изменение эмоционального содержания речи, важно моделировать не только отдельные эмоциональные выражения, но и передавать их динамику во времени. Существующие методы часто сталкиваются с проблемами несовершенного разделения спикерской идентичности и эмоционального стиля, а также недостаточной моделирования динамики эмоционального выражения. Целью данной работы является разработка метода, который обеспечит контроль над контентом, спикерской идентичностью и эмоциональным стилем, а также улучшит передачу временных динамических особенностей эмоции в случае несоответствия просодических характеристик. ## Метод Мы предлагаем Maestro-EVC — многозадачный фреймворк для контролируемой эмоциональной голосовой конверсии. Он основывается на моделировании независимого разделения контента, спикерской идентичности и эмоции с помощью различных четко отделенных референсов. Для лучшего передачи динамики эмоции во времени мы предлагаем новую темпоральную представление эмоции, а также вводим эксплититный просодический моделирование с помощью усиления просодии. Мы используем архитектуру, основанную на transformer, для эффективного извлечения и контроля этих атрибутов. Эта модель обеспечивает высококачественные эмоциональные изменения речи, даже при несоответствии просодических особенностей. ## Результаты Мы проводили эксперименты с различными данными, включая синтезированные и реальные речевые выражения с разными эмоциональными стилями. В результате показаны высокие показатели улучшения дисентеграции атрибутов речи, как по спикерской идентичности, так и по эмоциональному стилю. Мы также провели сравнение с другими подходами, демонстрируя преимущества Maestro-EVC в том, что он обеспечивает более точный контроль над эмоциональными изменениями. Особенно выдающимися результатами показался Maestro-EVC в задаче сегментации временных эмоциональных динамик, даже при просодически несовпадающих условиях. ## Значимость Maestro-EVC может быть применен в различных областях, включая создание эмоционально окрашенных голосовых помощников, лингвистических исследований, а также в сфере интерактивных технологий. Он предоставляет значительные преимущества в сравнении с традиционными методами, такими как улучшенная точность контроля и лучшая моделирование динамики эмоциональных звуков. Этот подход может оказаться важным для развития новых возможностей в области разговорных интерфейсов, где эмоции и

Abstract

Emotional voice conversion (EVC) aims to modify the emotional style of speech while preserving its linguistic content. In practical EVC, controllability, the ability to independently control speaker identity and emotional style using distinct references, is crucial. However, existing methods often struggle to fully disentangle these attributes and lack the ability to model fine-grained emotional expressions such as temporal dynamics. We propose Maestro-EVC, a controllable EVC framework that enables independent control of content, speaker identity, and emotion by effectively disentangling each attribute from separate references. We further introduce a temporal emotion representation and an explicit prosody modeling with prosody augmentation to robustly capture and transfer the temporal dynamics of the target emotion, even under prosody-mismatched conditions. Experimental results confirm that Maestro-EVC achieves high-quality, controllable, and emotionally expressive speech synthesis.

Ссылки и действия