EICAP: Deep Dive in Assessment and Enhancement of Large Language Models in Emotional Intelligence through Multi-Turn Conversations
2508.06196v1
cs.CL, cs.HC
2025-08-12
Авторы:
Nizi Nazar, Ehsaneddin Asgari
Резюме на русском
## Контекст
Emotional Intelligence (EI) является важной, но до сих пор недостаточно исследованной сферой развития людьми-ориентированных Бо LLM. В актуальной ситуации, существуют проблемы в том, что традиционные модели не достаточно эффективно обрабатывают сложные эмоциональные задачи, что приводит к ограниченности их полезности в реальном мире. Это мотивирует развитие более тонких методов оценки и улучшения EI в LLMs, чтобы гарантировать их эффективность в общении с разными лингвистическими и культурными фоновыми контекстами.
## Метод
Для анализа и повышения EI в LLMs, авторы предлагают EICAP-Bench, новую многообразную многократную контрольную программу (MCQ), основанную на многоразовых диалогах. Она включает в себя разделы по эмоциональному отслеживанию, выводу причин, оценке и сформированному эмоционально-соответствующему ответу. Используя этот подход, авторы оценивают пять слоев EI в пяти LLMs, включая LLaMA3, Gemma и Qwen2.5. Для повышения EI, они применяют методы тюнинга, используя данные UltraChat.
## Результаты
Тесты показали, что Qwen2.5-Instruct достигает наилучших результатов среди этих моделей. В ходе тюнинга с использованием UltraChat, только слой Appraisal (оценка) показал значительные улучшения. Это указывает на недостаточность традиционных методов предварительного обучения и инструкционного тюнинга для развития глубокого разума и эмоционального разума в LLMs.
## Значимость
Результаты имеют значительное значение для области ИИ, особенно в развитии моделей, которые могут лучше управлять эмоциональными задачами в разных культурных и языковых контекстах. Эти новшества могут применяться в здравоохранении, образовании и сферах, требующих деличного общения.
## Выводы
Основные достижения включают в себя развитие нового EI-Benchmark и улучшение понимания ограничений текущих моделей. Будущие исследования должны сосредоточиться на развитии новых стратегий для тюнинга, ориентированных на повышение EI в LLMs, для достижения более глубокого и эффективного общения.
Abstract
Emotional Intelligence (EI) is a critical yet underexplored dimension in the
development of human-aligned LLMs. To address this gap, we introduce a unified,
psychologically grounded four-layer taxonomy of EI tailored for large language
models (LLMs), encompassing emotional tracking, cause inference, appraisal, and
emotionally appropriate response generation. Building on this framework, we
present EICAP-Bench, a novel MCQ style multi-turn benchmark designed to
evaluate EI capabilities in open-source LLMs across diverse linguistic and
cultural contexts. We evaluate six LLMs: LLaMA3 (8B), LLaMA3-Instruct, Gemma
(9B), Gemma-Instruct, Qwen2.5 (7B), and Qwen2.5-Instruct on EmoCap-Bench,
identifying Qwen2.5-Instruct as the strongest baseline. To assess the potential
for enhancing EI capabilities, we fine-tune both Qwen2.5-Base and
Qwen2.5-Instruct using LoRA adapters on UltraChat (UC), a large-scale,
instruction-tuned dialogue dataset, in both English and Arabic. Our statistical
analysis reveals that among the five EI layers, only the Appraisal layer shows
significant improvement through UC-based fine-tuning. These findings highlight
the limitations of existing pretraining and instruction-tuning paradigms in
equipping LLMs with deeper emotional reasoning and underscore the need for
targeted data and modeling strategies for comprehensive EI alignment.
Ссылки и действия
Дополнительные ресурсы: