📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Ronghao Lin, Shuai Shen, Weipeng Hu, Qiaolin He, Aolin Xiong, Li Huang, Haifeng Hu, Yap-peng Tan

## Контекст Многомодальная эмпатическая генерация ответов (MERG) является ключевым компонентом создания эмоционально интеллектуальных взаимодействий между людьми и компьютерами. Несмотря на то, что большие языковые модели (LLMs) улучшили текстовую эмоциональную генерацию ответов, остаются сложности в обработке многомодального эмоционального контента и сохранении консистентности личности. Эти проблемы ограничивают эффективность текущих систем. Чтобы сделать MERG более эмоционально богатым и идентичным, необходимо использовать более совершенные подходы, которые учитывают комплексность эмоциональных сигналов и поддерживают консистентность личности в ходе взаимодействия. ## Метод Мы предлагаем E3RG, систему эмоционального эмпатического генерирования ответов на основе многомодальных LLMs. Методология E3RG декомпозирует задачу MERG на три модуля: понимание эмоций многомодального контента, восстановление эмоциональной памяти и многомодальное генерирование ответов. Эти модули используют новейшие модели для генерации речи и видео, что позволяет E3RG генерировать ответы, описывающие эмоциональное состояние, без дополнительной подготовки. Благодаря этому, E3RG обеспечивает натуральность, эмоциональную богатство и консистентность личности в ответах. ## Результаты В ходе экспериментов мы проверили E3RG на двух уровнях: zero-shot и few-shot. Мы использовали различные наборы данных для оценки системы на способности понимать эмоции и генерировать ответы. Результаты показали, что E3RG показывает высокую точность и эмоциональную корректность в сравнении с другими подходами. Наша система стала лидером на соревновании Avatar-based Multimodal Empathy Challenge в рамках ACM MM 2025. ## Значимость E3RG может применяться в различных сферах, включая области социальных роботов, виртуальных ассистентов и медицинских приложений, где эмоциональная коммуникация играет ключевую роль. Основные преимущества E3RG заключаются в том, что он сохраняет консистентность личности, быстро реагирует на эмоциональные сигналы и обеспечивает натуральную эмоциональную реакцию. Его потенциал заключается в улучшении качества взаимодействия с пользователем и создании более эмоционально приятных и естественных интерфейсов. ## Выводы Мы представили E3RG, мощную многомодальную систему для эмоционального эмпатического генерирования ответов. Наши эксперименты показали, что E3RG превосходит другие подходы в zero-shot и few-shot режимах. Мы посвятим будущим исследованиям улучшение моделей и их применение в различных сценариях, чтобы дальше улучшить эмоциональное понимание и генерирова
Annotation:
Multimodal Empathetic Response Generation (MERG) is crucial for building emotionally intelligent human-computer interactions. Although large language models (LLMs) have improved text-based ERG, challenges remain in handling multimodal emotional content and maintaining identity consistency. Thus, we propose E3RG, an Explicit Emotion-driven Empathetic Response Generation System based on multimodal LLMs which decomposes MERG task into three parts: multimodal empathy understanding, empathy memory re...
ID: 2508.12854v1 cs.AI, cs.CL, cs.CV, cs.HC, cs.MM