Emotion Omni: Enabling Empathetic Speech Response Generation through Large Language Models
2508.18655v1
cs.CL, cs.SD, eess.AS, I.2.7
2025-08-28
Авторы:
Haoyu Wang, Guangyan Zhang, Jiale Chen, Jingyu Li, Yuehai Wang, Yiwen Guo
Резюме на русском
## Контекст
Современные технологии управления речью позволяют пользователям взаимодействовать с ассистентами с помощью речи. Однако большинство существующих моделей просто преобразуют контент ответа в речь, не полностью учитывая эмоциональные и паралингвистические признаки, заложенные в запросе пользователя. Эмоциональное понимание важно для повышения качества взаимодействия человек-машина. На данный момент, большинство моделей с эмоциональной компонентой тренируются на огромных данных, что требует больших вычислительных ресурсов. Необходимо разработать модель, способную генерировать эмоциональные ответы с минимальным объемом данных и без требований к масштабной тренировке.
## Метод
Мы предлагаем Emotion Omni — модель, предназначенную для понимания эмоционального контента в речи пользователя и генерации эмоциональных ответов. Методология основывается на архитектуре трансформеров и включает компоненты для эмоционального анализа и генерации речи. Мы также разработали пайплайн для генерации данных, используя open-source TTS-фреймворк, чтобы создать 200k эмоционального диалога. Эта база данных использовалась для обучения Emotion Omni. Модель способна использовать ограниченные данные и достигает высокой эмоциональной точности.
## Результаты
Мы провели эксперименты с 200k эмоциональной базы данных для оценки точности Emotion Omni. Модель показала высокую эмоциональную точность и улучшила качество взаимодействия по сравнению с другими моделями. Мы также провели A/B-тесты, показав, что пользователи предпочитают ответы, генерируемые Emotion Omni, из-за их эмоциональной точности и сочетания семантики. Модель эффективно работает с ограниченными ресурсами, что делает ее привлекательной для реального применения.
## Значимость
Emotion Omni может быть применена в различных сферах, включая помощников по здоровью, обучающие системы и бизнес-решения. Ее ключевое преимущество заключается в том, что она может функционировать с малым объемом данных и не требует сложных этапов обучения. Это делает ее более удобной и эффективной в сравнении с другими моделями. Будущие исследования будут направлены на улучшение точности и расширение функциональных возможностей модели.
## Выводы
Emotion Omni достигает высокой эмоциональной точности при генерации ответов с помощью ограниченных данных. Она представляет собой новую этапу развития моделей для эмоционального взаимодействия человек-машина. Будущие исследования будут фокусироваться на расширении функциональности и повышению точности восприятия эмоций.
Abstract
With the development of speech large language models (speech LLMs), users can
now interact directly with assistants via speech. However, most existing models
simply convert the response content into speech without fully understanding the
rich emotional and paralinguistic cues embedded in the user's query. In many
cases, the same sentence can have different meanings depending on the emotional
expression. Furthermore, emotional understanding is essential for improving
user experience in human-machine interaction. Currently, most speech LLMs with
empathetic capabilities are trained on massive datasets. This approach requires
vast amounts of data and significant computational resources. Therefore, a key
challenge lies in how to develop a speech LLM capable of generating empathetic
responses with limited data and without the need for large-scale training. To
address this challenge, we propose Emotion Omni, a novel model architecture
designed to understand the emotional content of user speech input and generate
empathetic speech responses. Additionally, we developed a data generation
pipeline based on an open-source TTS framework to construct a 200k emotional
dialogue dataset, which supports the construction of an empathetic speech
assistant. The demos are available at https://w311411.github.io/omni_demo/