Understanding Space Is Rocket Science -- Only Top Reasoning Models Can Solve Spatial Understanding Tasks

2509.02175v2 cs.CV, cs.AI, cs.CL, cs.LG 2025-09-05

Авторы:

Nils Hoehing, Mayug Maniparambil, Ellen Rushe, Noel E. O'Connor, Anthony Ventresque

Резюме на русском

#### Контекст Область исследования, связанная с проблемами распознавания пространственных отношений, является ключевой в обучении машинам и искусственному интеллекту. Несмотря на прогресс в области визуальных языковых моделей (VLM), существуют затруднения в понимании пространственных отношений, таких как порядок предметов, их расположение и взаимосвязь. Эти недостатки существенно ограничивают применение VLM в реальных ситуациях, где пространственное понимание является критическим. Эта проблема мотивирует развитие новых методологий и данных для эффективного пространственного распознавания. #### Метод Разработана методика RocketScience, открытой основной системы бенчмарка для проверки пространственного понимания. Она включает в себя совершенно новые реальные изображения и текстовые описания, охватывающие широкий спектр пространственных отношений и порядка объектов. Бенчмарк спроектирован таким образом, чтобы быть легким для людей, но сложным для нынешних VLM. Эта сложность подтверждена эмпирическими результатами. Чтобы продемонстрировать вклад каждого компонента, включая локализацию объектов и пространственное рассуждение, проведена детализированная аналитическая раздробленности в моделях с цепочкой мыслей. #### Результаты Эксперименты проводились с использованием изображений и текстовых данных из RocketScience. Открытые и коммерческие VLM показали значительные ограничения в пространственном понимании, но тем не менее удачно справлялись с локализацией объектов. В отличие от этого, реализованные модели рассуждений показали выдающиеся результаты в пространственном понимании. Разделяющий анализ подтвердил, что проблематичным для моделей является именно пространственное рассуждение, а не задачи локализации объектов. #### Значимость Предложенный бенчмарк и результаты могут быть применены в различных областях, включая визуальное распознавание, робототехнику, проектирование интерьеров и другие сферы, требующие точного пространственного понимания. Из преимуществ можно отметить то, что RocketScience предлагает новый подход к оценке моделей и выявляет слабые места в нынешних VLM. Это может привести к улучшению моделей и дальнейшему развитию интеллектуальных систем. #### Выводы Результаты показывают, что существующие модели часто столкнутся с трудностями в пространственном понимании, а именно в рассуждениях об отношениях между объектами. Бенчмарк RocketScience может стать ключевым инструментом для измерения развития моделей в этой области. Будущие исследования должны ориентироваться на улучшение пространственных моделей рассуждений для достижения более высокой точности и реа

Abstract

We propose RocketScience, an open-source contrastive VLM benchmark that tests for spatial relation understanding. It is comprised of entirely new real-world image-text pairs covering mostly relative spatial understanding and the order of objects. The benchmark is designed to be very easy for humans and hard for the current generation of VLMs, and this is empirically verified. Our results show a striking lack of spatial relation understanding in open source and frontier commercial VLMs and a surprisingly high performance of reasoning models. Additionally, we perform a disentanglement analysis to separate the contributions of object localization and spatial reasoning in chain-of-thought-based models and find that the performance on the benchmark is bottlenecked by spatial reasoning and not object localization capabilities. We release the dataset with a CC-BY-4.0 license and make the evaluation code available at: https://github.com/nilshoehing/rocketscience

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Understanding Space Is Rocket Science -- Only Top Reasoning Models Can Solve Spatial Understanding Tasks

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

SEASON: Mitigating Temporal Hallucination in Video Large Language Models via Sel...

DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmente...

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Training-Free Diffusion Priors for Text-to-Image Generation via Optimization-bas...

Навигация