EmoSteer-TTS: Fine-Grained and Training-Free Emotion-Controllable Text-to-Speech via Activation Steering

2508.03543v2 cs.SD, cs.AI, eess.AS 2025-08-09
Авторы:

Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА За последние годы технологии Text-to-Speech (TTS) достигли значительных успехов, однако большинство современных систем TTS ограничены в контроле эмоционального тона голоса. Традиционно, эмоции контролируются при помощи дискретных лейблов или специально сконструированных текстовых подсказок, что делает тонкую манипуляцию эмоциями недоступной или нестабильной. Также, эти модели требуют обширных, высококачественных наборов данных для обучения, что создает дополнительные трудности. Эта проблема особенно актуальна для приложений, требующих тонкой эмоциональной настройки речи, таких как виртуальные помощники, системы досуга и образования. Нехватка возможности непрерывного и тонкого контроля эмоционального тона ограничивает возможности этих систем в создании более естественного и привлекательного взаимодействия с пользователями. Кроме того, необходимость в обучении на больших данных увеличивает временные и вычислительные затраты, что делает разработку таких систем менее доступной. В этой статье авторы предлагают решение для достижения непрерывного и тонкого контроля эмоционального тона синтезированной речи без необходимости дополнительного обучения. Это открывает новые возможности для применения TTS в различных областях, где эмоциональное выражение играет ключевую роль. ## ПРЕДЛОЖЕННЫЙ МЕТОД Aвторы представляют EmoSteer-TTS, инновационный подход к тонкому контролю эмоционального тона речи, основанный на концепции Activation Steering. Основная идея заключается в том, что модификация подмножества внутренних активаций в модели TTS, основанной на flow matching, позволяет эффективно изменять эмоциональный тон синтезированной речи. Метод состоит из трех ключевых этапов: активационное извлечение, поиск эмоциональных токенов и настройка во время вывода. Активационное извлечение подразумевает выделение ключевых внутренних представлений модели, которые влияют на эмоциональный тон. Далее, эмоциональные токены идентифицируются и настраиваются для достижения желаемой эмоции. Наконец, во время вывода производится тонкая настройка этих активаций для достижения нужного эмоционального эффекта без необходимости переобучения модели. EmoSteer-TTS может быть легко интегрирован в различные предобученные модели TTS, такие как F5-TTS, CosyVoice2, и E2-TTS, что делает его высоко вертикально используемым. Для получения эффективных векторов направления авторы также создали специальный набор данных с разнообразными эмоциональными выражениями разных говорящих, что позволяет достичь высокого уровня контроля и точности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности EmoSteer-TTS авторы провели ряд экспериментов, используя разнообразные данные и модели. Они использовали датасеты с различными эмоциональными тонами речи, включая радость, грусть, ярость и нейтральное состояние. Эксперименты демонстрируют, что EmoSteer-TTS позволяет достичь непрерывного и тонкого контроля эмоций в речи, превосходящего состояние искусствующих методов (SOTA). В частности, эксперименты показали, что модификация активаций позволяет не только конвертировать эмоции, но и интерполировать их, а также удалять эмоциональный тон, создавая более гибкий инструмент для манипуляции эмоциями в речи. Результаты показали, что подход EmoSteer-TTS не только эффективен, но и интерпретируемый, позволяя пользователям точно регулировать эмоциональные выражения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ EmoSteer-TTS имеет широкий круг применений в различных областях, где эмоциональное выражение голоса играет важную роль. Например, в виртуальных помощниках этот метод может улучшить взаимодействие с пользователями, создавая более естественные и эмоционально выразительные ответы. В области образования и досуга EmoSteer-TTS может быть использован для создания более захватывающих и персонализированных опытов. Одним из ключевых преимуществ этого метода является его простота и эффективность. Он не требует дополнительного обучения, что существенно сокращает временные и вычислительные затраты. Кроме того, EmoSteer-TTS может быть интегрирован в существующие системы TTS без каких-либо модификаций, что делает его высоко доступным для разработчиков и исследователей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ EmoSteer-TTS является первым методом, который достигает непрерывного и тонкого контроля эмоционального тона в речи без необходимости дополнительного обучения. Это открывает новые возможности для применения TTS в различных областях, где эмоциональное выражение играет ключевую роль. В будущем, авторы планируют расширить этот подход для включения более широкого спектра эмоций и улучшить его совместимость с различными моделями TTS. Также, они планируют исследовать возможности использования этого метода в реальном времени для создания более динамичных и адаптивных систем TTS.

Abstract

Text-to-speech (TTS) has shown great progress in recent years. However, most existing TTS systems offer only coarse and rigid emotion control, typically via discrete emotion labels or a carefully crafted and detailed emotional text prompt, making fine-grained emotion manipulation either inaccessible or unstable. These models also require extensive, high-quality datasets for training. To address these limitations, we propose EmoSteer-TTS, a novel training-free approach, to achieve fine-grained speech emotion control (conversion, interpolation, erasure) by activation steering. We first empirically observe that modifying a subset of the internal activations within a flow matching-based TTS model can effectively alter the emotional tone of synthesized speech. Building on this insight, we then develop a training-free and efficient algorithm, including activation extraction, emotional token searching, and inference-time steering, which can be seamlessly integrated into a wide range of pretrained models (e.g., F5-TTS, CosyVoice2, and E2-TTS). In addition, to derive effective steering vectors, we construct a curated emotional speech dataset with diverse speakers. Extensive experiments demonstrate that EmoSteer-TTS enables fine-grained, interpretable, and continuous control over speech emotion, outperforming the state-of-the-art (SOTA). To the best of our knowledge, this is the first method that achieves training-free and continuous fine-grained emotion control in TTS.

Ссылки и действия