11Plus-Bench: Demystifying Multimodal LLM Spatial Reasoning with Cognitive-Inspired Analysis
2508.20068v1
cs.CL, cs.CV, cs.LG
2025-08-29
Авторы:
Chengzu Li, Wenshan Wu, Huanyu Zhang, Qingtao Li, Zeyu Gao, Yan Xia, José Hernández-Orallo, Ivan Vulić, Furu Wei
Резюме на русском
#### Контекст
Многомодальные большие языковые модели (MLLMs) показали впечатляющий прогресс в различных задачах, включая абстрактное моделирование, специальную обработку языка и моделирование знаний. Однако их возможности в области пространственного рассуждения остаются мало исследоваными. Хотя пространственное рассуждение и пространственное восприятие человека тесно связаны, их естественное сочетание в поведении MLLMs еще не полностью понято. Это создает необходимость в разработке рамок экспериментов для оценки их производительности в этой области. Мы предлагаем 11Plus-Bench, бенчмарк, основанный на реальных стандартизированных тестах пространственного рассуждения. Он детально анализирует модельное поведение с помощью тонкого аннотирования как перцептивного, так и рассуждательного уровня.
#### Метод
11Plus-Bench представляет собой коллекцию задач, специально разработанных для оценки пространственной рациональности MLLMs. Он включает в себя задачи, которые подражают реальным стандартизированным тестам, а также подробные аннотации, такие как рассуждательная сложность, перцептивная сложность и многоуровневый анализ процесса рассуждения. Модели экспериментально проверяются в пяти различных режимах, чтобы собрать объемные данные для анализа моделей. Бенчмарк также разработан с учетом возможности сравнения моделей с поведением человека, что дает возможность получить глубокий пониманий касательно их сходства и различий.
#### Результаты
Мы провели эксперименты с 14 MLLMs и человеческими ответами. Наши результаты показали, что MLLMs могут выполнять пространственное рассуждение на ранней стадии, но существует существенный провал в их производительности по сравнению с человеческими результатами. Мы также обнаружили, что производительность MLLMs взаимосвязана с уровнем сложности при рассуждении, подобно человеческим моделям. Однако их результаты часто являются случайными на уровне индивидуальных задач, в то время как человеческая производительность значительно более предсказуема и связана с уровнем абстрактности логических схем.
#### Значимость
11Plus-Bench обеспечивает широкие возможности для исследования пространственного рассуждения в MLLMs. Он может использоваться для оценки производительности моделей в различных сферах, включая абстрактное моделирование и пространственное восприятие. Бенчмарк также открывает новые возможности для разработки моделей, которые могут более близок подходить к человеческому пространственному рассуждению. Это может привести к развитию новых архитектур, более эффективным использованию ресурсов и повышению понимания пространств
Abstract
For human cognitive process, spatial reasoning and perception are closely
entangled, yet the nature of this interplay remains underexplored in the
evaluation of multimodal large language models (MLLMs). While recent MLLM
advancements show impressive performance on reasoning, their capacity for
human-like spatial cognition remains an open question. In this work, we
introduce a systematic evaluation framework to assess the spatial reasoning
abilities of state-of-the-art MLLMs relative to human performance. Central to
our work is 11Plus-Bench, a high-quality benchmark derived from realistic
standardized spatial aptitude tests. 11Plus-Bench also features fine-grained
expert annotations of both perceptual complexity and reasoning process,
enabling detailed instance-level analysis of model behavior. Through extensive
experiments across 14 MLLMs and human evaluation, we find that current MLLMs
exhibit early signs of spatial cognition. Despite a large performance gap
compared to humans, MLLMs' cognitive profiles resemble those of humans in that
cognitive effort correlates strongly with reasoning-related complexity.
However, instance-level performance in MLLMs remains largely random, whereas
human correctness is highly predictable and shaped by abstract pattern
complexity. These findings highlight both emerging capabilities and limitations
in current MLLMs' spatial reasoning capabilities and provide actionable
insights for advancing model design.
Ссылки и действия
Дополнительные ресурсы: