EICAP: Deep Dive in Assessment and Enhancement of Large Language Models in Emotional Intelligence through Multi-Turn Conversations

2508.06196v1 cs.CL, cs.HC 2025-08-12
Авторы:

Nizi Nazar, Ehsaneddin Asgari

Резюме на русском

## Контекст Emotional Intelligence (EI) является важной, но до сих пор недостаточно исследованной сферой развития людьми-ориентированных Бо LLM. В актуальной ситуации, существуют проблемы в том, что традиционные модели не достаточно эффективно обрабатывают сложные эмоциональные задачи, что приводит к ограниченности их полезности в реальном мире. Это мотивирует развитие более тонких методов оценки и улучшения EI в LLMs, чтобы гарантировать их эффективность в общении с разными лингвистическими и культурными фоновыми контекстами. ## Метод Для анализа и повышения EI в LLMs, авторы предлагают EICAP-Bench, новую многообразную многократную контрольную программу (MCQ), основанную на многоразовых диалогах. Она включает в себя разделы по эмоциональному отслеживанию, выводу причин, оценке и сформированному эмоционально-соответствующему ответу. Используя этот подход, авторы оценивают пять слоев EI в пяти LLMs, включая LLaMA3, Gemma и Qwen2.5. Для повышения EI, они применяют методы тюнинга, используя данные UltraChat. ## Результаты Тесты показали, что Qwen2.5-Instruct достигает наилучших результатов среди этих моделей. В ходе тюнинга с использованием UltraChat, только слой Appraisal (оценка) показал значительные улучшения. Это указывает на недостаточность традиционных методов предварительного обучения и инструкционного тюнинга для развития глубокого разума и эмоционального разума в LLMs. ## Значимость Результаты имеют значительное значение для области ИИ, особенно в развитии моделей, которые могут лучше управлять эмоциональными задачами в разных культурных и языковых контекстах. Эти новшества могут применяться в здравоохранении, образовании и сферах, требующих деличного общения. ## Выводы Основные достижения включают в себя развитие нового EI-Benchmark и улучшение понимания ограничений текущих моделей. Будущие исследования должны сосредоточиться на развитии новых стратегий для тюнинга, ориентированных на повышение EI в LLMs, для достижения более глубокого и эффективного общения.

Abstract

Emotional Intelligence (EI) is a critical yet underexplored dimension in the development of human-aligned LLMs. To address this gap, we introduce a unified, psychologically grounded four-layer taxonomy of EI tailored for large language models (LLMs), encompassing emotional tracking, cause inference, appraisal, and emotionally appropriate response generation. Building on this framework, we present EICAP-Bench, a novel MCQ style multi-turn benchmark designed to evaluate EI capabilities in open-source LLMs across diverse linguistic and cultural contexts. We evaluate six LLMs: LLaMA3 (8B), LLaMA3-Instruct, Gemma (9B), Gemma-Instruct, Qwen2.5 (7B), and Qwen2.5-Instruct on EmoCap-Bench, identifying Qwen2.5-Instruct as the strongest baseline. To assess the potential for enhancing EI capabilities, we fine-tune both Qwen2.5-Base and Qwen2.5-Instruct using LoRA adapters on UltraChat (UC), a large-scale, instruction-tuned dialogue dataset, in both English and Arabic. Our statistical analysis reveals that among the five EI layers, only the Appraisal layer shows significant improvement through UC-based fine-tuning. These findings highlight the limitations of existing pretraining and instruction-tuning paradigms in equipping LLMs with deeper emotional reasoning and underscore the need for targeted data and modeling strategies for comprehensive EI alignment.

Ссылки и действия