11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis

2508.20068v1 cs.CL, cs.CV, cs.LG 2025-08-29
Авторы:

Chengzu Li, Wenshan Wu, Huanyu Zhang, Qingtao Li, Zeyu Gao, Yan Xia, José Hernández-Orallo, Ivan Vulić, Furu Wei

Резюме на русском

#### Контекст Многомодальные большие языковые модели (MLLMs) показали впечатляющий прогресс в различных задачах, включая абстрактное моделирование, специальную обработку языка и моделирование знаний. Однако их возможности в области пространственного рассуждения остаются мало исследоваными. Хотя пространственное рассуждение и пространственное восприятие человека тесно связаны, их естественное сочетание в поведении MLLMs еще не полностью понято. Это создает необходимость в разработке рамок экспериментов для оценки их производительности в этой области. Мы предлагаем 11Plus-Bench, бенчмарк, основанный на реальных стандартизированных тестах пространственного рассуждения. Он детально анализирует модельное поведение с помощью тонкого аннотирования как перцептивного, так и рассуждательного уровня. #### Метод 11Plus-Bench представляет собой коллекцию задач, специально разработанных для оценки пространственной рациональности MLLMs. Он включает в себя задачи, которые подражают реальным стандартизированным тестам, а также подробные аннотации, такие как рассуждательная сложность, перцептивная сложность и многоуровневый анализ процесса рассуждения. Модели экспериментально проверяются в пяти различных режимах, чтобы собрать объемные данные для анализа моделей. Бенчмарк также разработан с учетом возможности сравнения моделей с поведением человека, что дает возможность получить глубокий пониманий касательно их сходства и различий. #### Результаты Мы провели эксперименты с 14 MLLMs и человеческими ответами. Наши результаты показали, что MLLMs могут выполнять пространственное рассуждение на ранней стадии, но существует существенный провал в их производительности по сравнению с человеческими результатами. Мы также обнаружили, что производительность MLLMs взаимосвязана с уровнем сложности при рассуждении, подобно человеческим моделям. Однако их результаты часто являются случайными на уровне индивидуальных задач, в то время как человеческая производительность значительно более предсказуема и связана с уровнем абстрактности логических схем. #### Значимость 11Plus-Bench обеспечивает широкие возможности для исследования пространственного рассуждения в MLLMs. Он может использоваться для оценки производительности моделей в различных сферах, включая абстрактное моделирование и пространственное восприятие. Бенчмарк также открывает новые возможности для разработки моделей, которые могут более близок подходить к человеческому пространственному рассуждению. Это может привести к развитию новых архитектур, более эффективным использованию ресурсов и повышению понимания пространств

Abstract

For human cognitive process, spatial reasoning and perception are closely entangled, yet the nature of this interplay remains underexplored in the evaluation of multimodal large language models (MLLMs). While recent MLLM advancements show impressive performance on reasoning, their capacity for human-like spatial cognition remains an open question. In this work, we introduce a systematic evaluation framework to assess the spatial reasoning abilities of state-of-the-art MLLMs relative to human performance. Central to our work is 11Plus-Bench, a high-quality benchmark derived from realistic standardized spatial aptitude tests. 11Plus-Bench also features fine-grained expert annotations of both perceptual complexity and reasoning process, enabling detailed instance-level analysis of model behavior. Through extensive experiments across 14 MLLMs and human evaluation, we find that current MLLMs exhibit early signs of spatial cognition. Despite a large performance gap compared to humans, MLLMs' cognitive profiles resemble those of humans in that cognitive effort correlates strongly with reasoning-related complexity. However, instance-level performance in MLLMs remains largely random, whereas human correctness is highly predictable and shaped by abstract pattern complexity. These findings highlight both emerging capabilities and limitations in current MLLMs' spatial reasoning capabilities and provide actionable insights for advancing model design.

Ссылки и действия

Связанные статьи

FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on ...

## Контекст Оценка возможностей текущих бо LARGE REASONING MODELS (LRMs) в области рационального анализа текстовых и виз...

2025-09-24

ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Atten...

#### Контекст Картинки являются важной визуальной формой представления информации, играя ключевую роль в обмене информац...

2025-09-18