E3RG: Building Explicit Emotion-driven Empathetic Response Generation System with Multimodal Large Language Model

2508.12854v1 cs.AI, cs.CL, cs.CV, cs.HC, cs.MM 2025-08-20
Авторы:

Ronghao Lin, Shuai Shen, Weipeng Hu, Qiaolin He, Aolin Xiong, Li Huang, Haifeng Hu, Yap-peng Tan

Резюме на русском

## Контекст Многомодальная эмпатическая генерация ответов (MERG) является ключевым компонентом создания эмоционально интеллектуальных взаимодействий между людьми и компьютерами. Несмотря на то, что большие языковые модели (LLMs) улучшили текстовую эмоциональную генерацию ответов, остаются сложности в обработке многомодального эмоционального контента и сохранении консистентности личности. Эти проблемы ограничивают эффективность текущих систем. Чтобы сделать MERG более эмоционально богатым и идентичным, необходимо использовать более совершенные подходы, которые учитывают комплексность эмоциональных сигналов и поддерживают консистентность личности в ходе взаимодействия. ## Метод Мы предлагаем E3RG, систему эмоционального эмпатического генерирования ответов на основе многомодальных LLMs. Методология E3RG декомпозирует задачу MERG на три модуля: понимание эмоций многомодального контента, восстановление эмоциональной памяти и многомодальное генерирование ответов. Эти модули используют новейшие модели для генерации речи и видео, что позволяет E3RG генерировать ответы, описывающие эмоциональное состояние, без дополнительной подготовки. Благодаря этому, E3RG обеспечивает натуральность, эмоциональную богатство и консистентность личности в ответах. ## Результаты В ходе экспериментов мы проверили E3RG на двух уровнях: zero-shot и few-shot. Мы использовали различные наборы данных для оценки системы на способности понимать эмоции и генерировать ответы. Результаты показали, что E3RG показывает высокую точность и эмоциональную корректность в сравнении с другими подходами. Наша система стала лидером на соревновании Avatar-based Multimodal Empathy Challenge в рамках ACM MM 2025. ## Значимость E3RG может применяться в различных сферах, включая области социальных роботов, виртуальных ассистентов и медицинских приложений, где эмоциональная коммуникация играет ключевую роль. Основные преимущества E3RG заключаются в том, что он сохраняет консистентность личности, быстро реагирует на эмоциональные сигналы и обеспечивает натуральную эмоциональную реакцию. Его потенциал заключается в улучшении качества взаимодействия с пользователем и создании более эмоционально приятных и естественных интерфейсов. ## Выводы Мы представили E3RG, мощную многомодальную систему для эмоционального эмпатического генерирования ответов. Наши эксперименты показали, что E3RG превосходит другие подходы в zero-shot и few-shot режимах. Мы посвятим будущим исследованиям улучшение моделей и их применение в различных сценариях, чтобы дальше улучшить эмоциональное понимание и генерирова

Abstract

Multimodal Empathetic Response Generation (MERG) is crucial for building emotionally intelligent human-computer interactions. Although large language models (LLMs) have improved text-based ERG, challenges remain in handling multimodal emotional content and maintaining identity consistency. Thus, we propose E3RG, an Explicit Emotion-driven Empathetic Response Generation System based on multimodal LLMs which decomposes MERG task into three parts: multimodal empathy understanding, empathy memory retrieval, and multimodal response generation. By integrating advanced expressive speech and video generative models, E3RG delivers natural, emotionally rich, and identity-consistent responses without extra training. Experiments validate the superiority of our system on both zero-shot and few-shot settings, securing Top-1 position in the Avatar-based Multimodal Empathy Challenge on ACM MM 25. Our code is available at https://github.com/RH-Lin/E3RG.

Ссылки и действия