📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Haoyu Wang, Guangyan Zhang, Jiale Chen, Jingyu Li, Yuehai Wang, Yiwen Guo

## Контекст Современные технологии управления речью позволяют пользователям взаимодействовать с ассистентами с помощью речи. Однако большинство существующих моделей просто преобразуют контент ответа в речь, не полностью учитывая эмоциональные и паралингвистические признаки, заложенные в запросе пользователя. Эмоциональное понимание важно для повышения качества взаимодействия человек-машина. На данный момент, большинство моделей с эмоциональной компонентой тренируются на огромных данных, что требует больших вычислительных ресурсов. Необходимо разработать модель, способную генерировать эмоциональные ответы с минимальным объемом данных и без требований к масштабной тренировке. ## Метод Мы предлагаем Emotion Omni — модель, предназначенную для понимания эмоционального контента в речи пользователя и генерации эмоциональных ответов. Методология основывается на архитектуре трансформеров и включает компоненты для эмоционального анализа и генерации речи. Мы также разработали пайплайн для генерации данных, используя open-source TTS-фреймворк, чтобы создать 200k эмоционального диалога. Эта база данных использовалась для обучения Emotion Omni. Модель способна использовать ограниченные данные и достигает высокой эмоциональной точности. ## Результаты Мы провели эксперименты с 200k эмоциональной базы данных для оценки точности Emotion Omni. Модель показала высокую эмоциональную точность и улучшила качество взаимодействия по сравнению с другими моделями. Мы также провели A/B-тесты, показав, что пользователи предпочитают ответы, генерируемые Emotion Omni, из-за их эмоциональной точности и сочетания семантики. Модель эффективно работает с ограниченными ресурсами, что делает ее привлекательной для реального применения. ## Значимость Emotion Omni может быть применена в различных сферах, включая помощников по здоровью, обучающие системы и бизнес-решения. Ее ключевое преимущество заключается в том, что она может функционировать с малым объемом данных и не требует сложных этапов обучения. Это делает ее более удобной и эффективной в сравнении с другими моделями. Будущие исследования будут направлены на улучшение точности и расширение функциональных возможностей модели. ## Выводы Emotion Omni достигает высокой эмоциональной точности при генерации ответов с помощью ограниченных данных. Она представляет собой новую этапу развития моделей для эмоционального взаимодействия человек-машина. Будущие исследования будут фокусироваться на расширении функциональности и повышению точности восприятия эмоций.
Annotation:
With the development of speech large language models (speech LLMs), users can now interact directly with assistants via speech. However, most existing models simply convert the response content into speech without fully understanding the rich emotional and paralinguistic cues embedded in the user's query. In many cases, the same sentence can have different meanings depending on the emotional expression. Furthermore, emotional understanding is essential for improving user experience in human-mach...
ID: 2508.18655v1 cs.CL, cs.SD, eess.AS, I.2.7