Has GPT-5 Achieved Spatial Intelligence? An Empirical Study
2508.13142v1
cs.CV, cs.CL, cs.LG, cs.MM, cs.RO
2025-08-20
Авторы:
Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang
Резюме на русском
## Контекст
В последние годы многомодальные модели демонстрируют уверенный прогресс, но столкнулись с острой проблемой — недостаточной способностью к пространственному пониманию и рассуждению. Эти навыки являются ключевыми для достижения искусственного общего разума (Artificial General Intelligence, AGI). На этой фоне выход GPT-5, который утверждается как самая мощная модель AI, приобрел особое значение. Чтобы оценить современное состояние моделей в пространственной сфере, необходимо провести комплексный анализ их способности. Наша мотивация заключается в том, чтобы выявить текущие ограничения, определить основные проблемы в оценке пространственной интеллектуальности и привлечь внимание к развитию более совершенных решений.
## Метод
Мы разработали подробную категоризацию пространственных задач, которая объединила различные бенчмарки и указала на их слабые места. Для оценки моделей использовались современные архитектуры, включая GPT-5, а также несколько открытых решений. Для обеспечения справедливой сравнительной оценки были применены стандартизированные данные и метрики. Эксперименты были проведены на восьми ключевых бенчмарках, требующих различных пространственных навыков, от простого распознавания объектов до сложных задач пространственного рассуждения. Бюджет экспериментов превысил 1 миллиард токенов, что дало возможность обоснованно понять силу и слабости моделей.
## Результаты
Новая модель GPT-5 продемонстрировала примечательные улучшения в пространственном понимании, но еще не достигла гуманского уровня производительности. Мы выявили следующие результаты: (1) на первых трех бенчмарках GPT-5 показал самые высокие результаты, оказавшись лучше всех остальных моделей, (2) в более сложных задачах, особенно тех, требующих глубокого контекстуального понимания, его производительность падала, (3) открытые модели демонстрировали практически одинаковую производительность по сравнению с закрытыми решениями в самых сложностных сценариях. Также мы выявили некоторые ключевые проблемы, на которых даже самые мощные модели до сих пор не сумели дать полноценного ответа, включая задачи с неоднозначным контекстом и ситуациями, требующими глубокого знания ситуации.
## Значимость
Результаты нашего исследования имеют большое значение в нескольких областях: (1) модели GPT-5 демонстрируют, что пространственное понимание может быть эффективно интегрировано в общую модель многомодального рассуждения, но (2) остаются проблемы в задачах, требующих высокой степени контекстуального понимания, (3) открытые модели, несмотря на недостатки, показывают высокую э
Abstract
Multi-modal models have achieved remarkable progress in recent years.
Nevertheless, they continue to exhibit notable limitations in spatial
understanding and reasoning, which are fundamental capabilities to achieving
artificial general intelligence. With the recent release of GPT-5, allegedly
the most powerful AI model to date, it is timely to examine where the leading
models stand on the path toward spatial intelligence. First, we propose a
comprehensive taxonomy of spatial tasks that unifies existing benchmarks and
discuss the challenges in ensuring fair evaluation. We then evaluate
state-of-the-art proprietary and open-source models on eight key benchmarks, at
a cost exceeding one billion total tokens. Our empirical study reveals that (1)
GPT-5 demonstrates unprecedented strength in spatial intelligence, yet (2)
still falls short of human performance across a broad spectrum of tasks.
Moreover, we (3) identify the more challenging spatial intelligence problems
for multi-modal models, and (4) proprietary models do not exhibit a decisive
advantage when facing the most difficult problems. In addition, we conduct a
qualitative evaluation across a diverse set of scenarios that are intuitive for
humans yet fail even the most advanced multi-modal models.