EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering
2508.03543v1
cs.SD, cs.AI, eess.AS
2025-08-06
Авторы:
Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu
Резюме на русском
Современные TTS-модели управляют эмоциями грубо — при помощи дискретных меток или громоздких текстовых промптов, требуя при этом дорогостоящего дообучения. EmoSteer-TTS предлагает обходиться без дополнительного обучения, внедряя в предобученные flow-мatching TTS (F5-TTS, CosyVoice2 и др.) механизм activation steering: извлекается небольшой набор внутренних активаций, строятся векторы «эмо-токенов», а во время синтеза линейная интерполяция этих векторов позволяет плавно конвертировать, стирать или смешивать эмоции. На собранном много-спикерном датасете показано, что метод превосходит SOTA по точности и интерпретируемости, предоставляя непрерывное и тонкое управление эмоциональной окраской речи без переобучения модели.
Abstract
Text-to-speech (TTS) has shown great progress in recent years. However, most
existing TTS systems offer only coarse and rigid emotion control, typically via
discrete emotion labels or a carefully crafted and detailed emotional text
prompt, making fine-grained emotion manipulation either inaccessible or
unstable. These models also require extensive, high-quality datasets for
training. To address these limitations, we propose EmoSteer-TTS, a novel
training-free approach, to achieve fine-grained speech emotion control
(conversion, interpolation, erasure) by activation steering. We first
empirically observe that modifying a subset of the internal activations within
a flow matching-based TTS model can effectively alter the emotional tone of
synthesized speech. Building on this insight, we then develop a training-free
and efficient algorithm, including activation extraction, emotional token
searching, and inference-time steering, which can be seamlessly integrated into
a wide range of pretrained models (e.g., F5-TTS, CosyVoice2, and E2-TTS). In
addition, to derive effective steering vectors, we construct a curated
emotional speech dataset with diverse speakers. Extensive experiments
demonstrate that EmoSteer-TTS enables fine-grained, interpretable, and
continuous control over speech emotion, outperforming the state-of-the-art
(SOTA). To the best of our knowledge, this is the first method that achieves
training-free and continuous fine-grained emotion control in TTS.
Ссылки и действия
Дополнительные ресурсы: