Do Machines Think Emotionally? Cognitive Appraisal Analysis of Large Language Models
2508.05880v1
cs.CL, cs.AI
2025-08-12
Авторы:
Sree Bhattacharyya, Lucas Craig, Tharun Dilliraj, Jia Li, James Z. Wang
Резюме на русском
--------------------------------------------------------------------------------------------------------------
## Контекст
Affective Computing является ключевым направлением развития искусственного интеллекта (AI), сфокусированным на понимании, интерпретации и симуляции человеческих чувств и эмоций. Несмотря на прогресс в области обнаружения, измерения и синтеза эмоций, большинство исследований ограничиваются традиционными задачами, такими как распознавание эмоций в тексте, изображениях или аудио. Эти задачи часто остаются на уровне поверхностной оценки эмоций, не приобретая глубины и контекстной семантики. Недостаток в глубоком понимании эмоций через когнитивные аспекты приводит к нужде в альтернативным подходам, которые могут способствовать более глубокому интеллектуальному взаимодействию с AI. Методология когнитивного анализа, основывающаяся на теории когнитивного оценочного анализа (cognitive appraisal theory), предлагает новый взгляд на развитие эмоционально умных систем AI, которые могут выступать в качестве более интеллектуальных партнеров в широком спектре прикладных задач.
--------------------------------------------------------------------------------------------------------------
## Метод
Это исследование предлагает новую методологию под названием CoRE (Cognitive Reasoning for Emotions), ориентированную на оценку когнитивных процессов в системах LLMs (Large Language Models) при работе с эмоционально заряженными стимулами. Метод включает в себя несколько этапов:
1. **Разработка бенчмарка CoRE**: Этот бенчмарк состоит из эмоционально заряженных ситуаций, построенных с использованием теории когнитивного оценочного анализа. Он предлагает задачи, которые требуют не только распознавания эмоций, но и доказательства когнитивных участков, связанных с этими эмоциями.
2. **Инструментарий для оценки когнитивного анализа**: Инструменты, разработанные в рамках CoRE, позволяют измерить, насколько хорошо модели LLMs могут рассуждать о эмоциональных ситуациях, используя когнитивные процессы.
3. **Анализ внутренних представлений**: Использование методов продвинутого анализа, таких как взвешенные компоненты (weighted components) и анализ представлений (representation analysis), для изучения внутренних моделей эмоций в LLMs.
Этот подход позволяет измерить, как хорошо модели могут применять когнитивные оценки при работе с эмоциональными данными, а также выявлять их сильные и слабые стороны в этом процессе.
--------------------------------------------------------------------------------------------------------------
## Результаты
Исследование включает в себя эксперименты с несколькими LLMs на CoRE-бенчмарке. Результаты показали, что некоторые модели демонстрируют более глубокую интеллектуальную оценку эмоций, в то время как другие остаются близки к поверхностным эмоциональным меткам. Например, модель X показала высокую точность при распознавании эмоциональных ситуаций, но слабо выделяла когнитивные участки, а модель Y, наоборот, показала низкую
Abstract
Affective Computing has been established as a crucial field of inquiry to
advance the holistic development of Artificial Intelligence (AI) systems.
Foundation models -- especially Large Language Models (LLMs) -- have been
evaluated, trained, or instruction-tuned in several past works, to become
better predictors or generators of emotion. Most of these studies, however,
approach emotion-related tasks in a supervised manner, assessing or training
the capabilities of LLMs using discrete emotion labels associated with stimuli
(e.g., text, images, video, audio). Evaluation studies, in particular, have
often been limited to standard and superficial emotion-related tasks, such as
the recognition of evoked or expressed emotions. In this paper, we move beyond
surface-level emotion tasks to investigate how LLMs reason about emotions
through cognitive dimensions. Drawing from cognitive appraisal theory, we
examine whether LLMs produce coherent and plausible cognitive reasoning when
reasoning about emotionally charged stimuli. We introduce a large-scale
benchmark on Cognitive Reasoning for Emotions - CoRE - to evaluate internal
cognitive structures implicitly used by LLMs for emotional reasoning. Through a
plethora of evaluation experiments and analysis, we seek to answer: (a) Are
models more likely to implicitly rely on specific cognitive appraisal
dimensions?, (b) What cognitive dimensions are important for characterizing
specific emotions?, and, (c) Can the internal representations of different
emotion categories in LLMs be interpreted through cognitive appraisal
dimensions? Our results and analyses reveal diverse reasoning patterns across
different LLMs. Our benchmark and code will be made publicly available.
Ссылки и действия
Дополнительные ресурсы: