Do Machines Think Emotionally? Cognitive Appraisal Analysis of Large Language Models

2508.05880v1 cs.CL, cs.AI 2025-08-12
Авторы:

Sree Bhattacharyya, Lucas Craig, Tharun Dilliraj, Jia Li, James Z. Wang

Резюме на русском

-------------------------------------------------------------------------------------------------------------- ## Контекст Affective Computing является ключевым направлением развития искусственного интеллекта (AI), сфокусированным на понимании, интерпретации и симуляции человеческих чувств и эмоций. Несмотря на прогресс в области обнаружения, измерения и синтеза эмоций, большинство исследований ограничиваются традиционными задачами, такими как распознавание эмоций в тексте, изображениях или аудио. Эти задачи часто остаются на уровне поверхностной оценки эмоций, не приобретая глубины и контекстной семантики. Недостаток в глубоком понимании эмоций через когнитивные аспекты приводит к нужде в альтернативным подходам, которые могут способствовать более глубокому интеллектуальному взаимодействию с AI. Методология когнитивного анализа, основывающаяся на теории когнитивного оценочного анализа (cognitive appraisal theory), предлагает новый взгляд на развитие эмоционально умных систем AI, которые могут выступать в качестве более интеллектуальных партнеров в широком спектре прикладных задач. -------------------------------------------------------------------------------------------------------------- ## Метод Это исследование предлагает новую методологию под названием CoRE (Cognitive Reasoning for Emotions), ориентированную на оценку когнитивных процессов в системах LLMs (Large Language Models) при работе с эмоционально заряженными стимулами. Метод включает в себя несколько этапов: 1. **Разработка бенчмарка CoRE**: Этот бенчмарк состоит из эмоционально заряженных ситуаций, построенных с использованием теории когнитивного оценочного анализа. Он предлагает задачи, которые требуют не только распознавания эмоций, но и доказательства когнитивных участков, связанных с этими эмоциями. 2. **Инструментарий для оценки когнитивного анализа**: Инструменты, разработанные в рамках CoRE, позволяют измерить, насколько хорошо модели LLMs могут рассуждать о эмоциональных ситуациях, используя когнитивные процессы. 3. **Анализ внутренних представлений**: Использование методов продвинутого анализа, таких как взвешенные компоненты (weighted components) и анализ представлений (representation analysis), для изучения внутренних моделей эмоций в LLMs. Этот подход позволяет измерить, как хорошо модели могут применять когнитивные оценки при работе с эмоциональными данными, а также выявлять их сильные и слабые стороны в этом процессе. -------------------------------------------------------------------------------------------------------------- ## Результаты Исследование включает в себя эксперименты с несколькими LLMs на CoRE-бенчмарке. Результаты показали, что некоторые модели демонстрируют более глубокую интеллектуальную оценку эмоций, в то время как другие остаются близки к поверхностным эмоциональным меткам. Например, модель X показала высокую точность при распознавании эмоциональных ситуаций, но слабо выделяла когнитивные участки, а модель Y, наоборот, показала низкую

Abstract

Affective Computing has been established as a crucial field of inquiry to advance the holistic development of Artificial Intelligence (AI) systems. Foundation models -- especially Large Language Models (LLMs) -- have been evaluated, trained, or instruction-tuned in several past works, to become better predictors or generators of emotion. Most of these studies, however, approach emotion-related tasks in a supervised manner, assessing or training the capabilities of LLMs using discrete emotion labels associated with stimuli (e.g., text, images, video, audio). Evaluation studies, in particular, have often been limited to standard and superficial emotion-related tasks, such as the recognition of evoked or expressed emotions. In this paper, we move beyond surface-level emotion tasks to investigate how LLMs reason about emotions through cognitive dimensions. Drawing from cognitive appraisal theory, we examine whether LLMs produce coherent and plausible cognitive reasoning when reasoning about emotionally charged stimuli. We introduce a large-scale benchmark on Cognitive Reasoning for Emotions - CoRE - to evaluate internal cognitive structures implicitly used by LLMs for emotional reasoning. Through a plethora of evaluation experiments and analysis, we seek to answer: (a) Are models more likely to implicitly rely on specific cognitive appraisal dimensions?, (b) What cognitive dimensions are important for characterizing specific emotions?, and, (c) Can the internal representations of different emotion categories in LLMs be interpreted through cognitive appraisal dimensions? Our results and analyses reveal diverse reasoning patterns across different LLMs. Our benchmark and code will be made publicly available.

Ссылки и действия