## КОНТЕКСТ И ПРОБЛЕМАТИКА
За последние годы технологии Text-to-Speech (TTS) достигли значительных успехов, однако большинство современных систем TTS ограничены в контроле эмоционального тона голоса. Традиционно, эмоции контролируются при помощи дискретных лейблов или специально сконструированных текстовых подсказок, что делает тонкую манипуляцию эмоциями недоступной или нестабильной. Также, эти модели требуют обширных, высококачественных наборов данных для обучения, что создает дополнительные трудности.
Эта проблема особенно актуальна для приложений, требующих тонкой эмоциональной настройки речи, таких как виртуальные помощники, системы досуга и образования. Нехватка возможности непрерывного и тонкого контроля эмоционального тона ограничивает возможности этих систем в создании более естественного и привлекательного взаимодействия с пользователями. Кроме того, необходимость в обучении на больших данных увеличивает временные и вычислительные затраты, что делает разработку таких систем менее доступной.
В этой статье авторы предлагают решение для достижения непрерывного и тонкого контроля эмоционального тона синтезированной речи без необходимости дополнительного обучения. Это открывает новые возможности для применения TTS в различных областях, где эмоциональное выражение играет ключевую роль.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Aвторы представляют EmoSteer-TTS, инновационный подход к тонкому контролю эмоционального тона речи, основанный на концепции Activation Steering. Основная идея заключается в том, что модификация подмножества внутренних активаций в модели TTS, основанной на flow matching, позволяет эффективно изменять эмоциональный тон синтезированной речи.
Метод состоит из трех ключевых этапов: активационное извлечение, поиск эмоциональных токенов и настройка во время вывода. Активационное извлечение подразумевает выделение ключевых внутренних представлений модели, которые влияют на эмоциональный тон. Далее, эмоциональные токены идентифицируются и настраиваются для достижения желаемой эмоции. Наконец, во время вывода производится тонкая настройка этих активаций для достижения нужного эмоционального эффекта без необходимости переобучения модели.
EmoSteer-TTS может быть легко интегрирован в различные предобученные модели TTS, такие как F5-TTS, CosyVoice2, и E2-TTS, что делает его высоко вертикально используемым. Для получения эффективных векторов направления авторы также создали специальный набор данных с разнообразными эмоциональными выражениями разных говорящих, что позволяет достичь высокого уровня контроля и точности.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для оценки эффективности EmoSteer-TTS авторы провели ряд экспериментов, используя разнообразные данные и модели. Они использовали датасеты с различными эмоциональными тонами речи, включая радость, грусть, ярость и нейтральное состояние. Эксперименты демонстрируют, что EmoSteer-TTS позволяет достичь непрерывного и тонкого контроля эмоций в речи, превосходящего состояние искусствующих методов (SOTA).
В частности, эксперименты показали, что модификация активаций позволяет не только конвертировать эмоции, но и интерполировать их, а также удалять эмоциональный тон, создавая более гибкий инструмент для манипуляции эмоциями в речи. Результаты показали, что подход EmoSteer-TTS не только эффективен, но и интерпретируемый, позволяя пользователям точно регулировать эмоциональные выражения.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
EmoSteer-TTS имеет широкий круг применений в различных областях, где эмоциональное выражение голоса играет важную роль. Например, в виртуальных помощниках этот метод может улучшить взаимодействие с пользователями, создавая более естественные и эмоционально выразительные ответы. В области образования и досуга EmoSteer-TTS может быть использован для создания более захватывающих и персонализированных опытов.
Одним из ключевых преимуществ этого метода является его простота и эффективность. Он не требует дополнительного обучения, что существенно сокращает временные и вычислительные затраты. Кроме того, EmoSteer-TTS может быть интегрирован в существующие системы TTS без каких-либо модификаций, что делает его высоко доступным для разработчиков и исследователей.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
EmoSteer-TTS является первым методом, который достигает непрерывного и тонкого контроля эмоционального тона в речи без необходимости дополнительного обучения. Это открывает новые возможности для применения TTS в различных областях, где эмоциональное выражение играет ключевую роль.
В будущем, авторы планируют расширить этот подход для включения более широкого спектра эмоций и улучшить его совместимость с различными моделями TTS. Также, они планируют исследовать возможности использования этого метода в реальном времени для создания более динамичных и адаптивных систем TTS.