Bridging the behavior-neural gap: A multimodal AI reveals the brain's geometry of emotion more accurately than human self-reports
2509.24298v1
cs.HC, cs.AI, cs.CL, cs.CY, cs.MM
2025-10-01
Авторы:
Changde Du, Yizhuo Lu, Zhongyu Huang, Yi Sun, Zisen Zhou, Shaozheng Qin, Huiguang He
Резюме на русском
#### Контекст
Описание эмоций и их нейробиологических оснований является ключевым аспектом понимания человеческого разума и связи. Однако существует затруднение в том, как точно представить эмоции в высокомерной структуре и как эти представления соотносятся с нейробиологическими процессами. Одним из основных вызовов является `behavior-neural gap' (разрыв между поведением и нейробиологией), относительной неэффективностью субъективных самоподготовленных оценок для предсказания нейробиологической активности. В данном исследовании предполагается, что широкомасштабные субъективные оценки могут более точно отражать нейробиологические паттерны, чем стандартные линейные самоподготовленные оценки.
#### Метод
Исследование основывается на создании и использовании многомодальной большой модели языка (MLLM), а также модели на основе текста (LLM). Методом проведения экспериментов стали опросы с помощью трёхмодальных видео, чтобы собирать многомиллионные трехотсовые оценки пользователей. Модели, выступая как `cognitive agents', предсказывали взаимосвязи между эмоциями в заданиях odd-one-out. Учитывая сложность входных данных, разработали 30-мерные векторные представления, которые отражают эмоциональную структуру.
#### Результаты
Результаты показали, что MLLM представляет 30-мерную структуру эмоций, которая показала лучшую точность в предсказании нейробиологической активности, выше чем LLM и даже представления, полученные напрямую от поведенческих оценок. Эмбеддинги MLLM соотносятся с нейробиологическими данными процессов эмоций, предлагая более точное представление структуры эмоций. Это демонстрирует, что модели могут автономно формировать богатые представления эмоций, которые лучше соотносятся с нейробиологическими данными.
#### Значимость
Полученные результаты показывают, что модели могут быть эффективными инструментами для строительства моделей эмоций, которые ближе соответствуют нейробиологическим процессам. Это может иметь значительное значение в области лечения психических расстройств, обучения интеллектуальных систем и понимания связи между человеческим опытом и нейробиологическими механизмами.
#### Выводы
На основе этих результатов можно сделать вывод, что MLLM-модели способны автономно формировать сложные представления эмоций, лучше соотносящиеся с нейробиологическими данными. На будущее, необходимо продолжать исследования в области связи между поведением, эмоциями и нейробиологическими процессами, используя модели с большим объемом анализа.
Abstract
The ability to represent emotion plays a significant role in human cognition
and social interaction, yet the high-dimensional geometry of this affective
space and its neural underpinnings remain debated. A key challenge, the
`behavior-neural gap,' is the limited ability of human self-reports to predict
brain activity. Here we test the hypothesis that this gap arises from the
constraints of traditional rating scales and that large-scale similarity
judgments can more faithfully capture the brain's affective geometry. Using AI
models as `cognitive agents,' we collected millions of triplet odd-one-out
judgments from a multimodal large language model (MLLM) and a language-only
model (LLM) in response to 2,180 emotionally evocative videos. We found that
the emergent 30-dimensional embeddings from these models are highly
interpretable and organize emotion primarily along categorical lines, yet in a
blended fashion that incorporates dimensional properties. Most remarkably, the
MLLM's representation predicted neural activity in human emotion-processing
networks with the highest accuracy, outperforming not only the LLM but also,
counterintuitively, representations derived directly from human behavioral
ratings. This result supports our primary hypothesis and suggests that sensory
grounding--learning from rich visual data--is critical for developing a truly
neurally-aligned conceptual framework for emotion. Our findings provide
compelling evidence that MLLMs can autonomously develop rich, neurally-aligned
affective representations, offering a powerful paradigm to bridge the gap
between subjective experience and its neural substrates. Project page:
https://reedonepeck.github.io/ai-emotion.github.io/.