Emotion Omni: Enabling Empathetic Speech Response Generation through Large Language Models

2508.18655v1 cs.CL, cs.SD, eess.AS, I.2.7 2025-08-28
Авторы:

Haoyu Wang, Guangyan Zhang, Jiale Chen, Jingyu Li, Yuehai Wang, Yiwen Guo

Резюме на русском

## Контекст Современные технологии управления речью позволяют пользователям взаимодействовать с ассистентами с помощью речи. Однако большинство существующих моделей просто преобразуют контент ответа в речь, не полностью учитывая эмоциональные и паралингвистические признаки, заложенные в запросе пользователя. Эмоциональное понимание важно для повышения качества взаимодействия человек-машина. На данный момент, большинство моделей с эмоциональной компонентой тренируются на огромных данных, что требует больших вычислительных ресурсов. Необходимо разработать модель, способную генерировать эмоциональные ответы с минимальным объемом данных и без требований к масштабной тренировке. ## Метод Мы предлагаем Emotion Omni — модель, предназначенную для понимания эмоционального контента в речи пользователя и генерации эмоциональных ответов. Методология основывается на архитектуре трансформеров и включает компоненты для эмоционального анализа и генерации речи. Мы также разработали пайплайн для генерации данных, используя open-source TTS-фреймворк, чтобы создать 200k эмоционального диалога. Эта база данных использовалась для обучения Emotion Omni. Модель способна использовать ограниченные данные и достигает высокой эмоциональной точности. ## Результаты Мы провели эксперименты с 200k эмоциональной базы данных для оценки точности Emotion Omni. Модель показала высокую эмоциональную точность и улучшила качество взаимодействия по сравнению с другими моделями. Мы также провели A/B-тесты, показав, что пользователи предпочитают ответы, генерируемые Emotion Omni, из-за их эмоциональной точности и сочетания семантики. Модель эффективно работает с ограниченными ресурсами, что делает ее привлекательной для реального применения. ## Значимость Emotion Omni может быть применена в различных сферах, включая помощников по здоровью, обучающие системы и бизнес-решения. Ее ключевое преимущество заключается в том, что она может функционировать с малым объемом данных и не требует сложных этапов обучения. Это делает ее более удобной и эффективной в сравнении с другими моделями. Будущие исследования будут направлены на улучшение точности и расширение функциональных возможностей модели. ## Выводы Emotion Omni достигает высокой эмоциональной точности при генерации ответов с помощью ограниченных данных. Она представляет собой новую этапу развития моделей для эмоционального взаимодействия человек-машина. Будущие исследования будут фокусироваться на расширении функциональности и повышению точности восприятия эмоций.

Abstract

With the development of speech large language models (speech LLMs), users can now interact directly with assistants via speech. However, most existing models simply convert the response content into speech without fully understanding the rich emotional and paralinguistic cues embedded in the user's query. In many cases, the same sentence can have different meanings depending on the emotional expression. Furthermore, emotional understanding is essential for improving user experience in human-machine interaction. Currently, most speech LLMs with empathetic capabilities are trained on massive datasets. This approach requires vast amounts of data and significant computational resources. Therefore, a key challenge lies in how to develop a speech LLM capable of generating empathetic responses with limited data and without the need for large-scale training. To address this challenge, we propose Emotion Omni, a novel model architecture designed to understand the emotional content of user speech input and generate empathetic speech responses. Additionally, we developed a data generation pipeline based on an open-source TTS framework to construct a 200k emotional dialogue dataset, which supports the construction of an empathetic speech assistant. The demos are available at https://w311411.github.io/omni_demo/

Ссылки и действия