Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks
2509.24473v1
cs.CV, cs.AI, cs.CL, cs.LG
2025-10-01
Авторы:
Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen
Резюме на русском
## Контекст
Многомодальные большие языковые модели (МЛЛМ) широко применяются в различных областях, но их способность решать задачи, требующие способностей пространственного рассуждения, остается недостаточно развитой. Эти способности включают визуализацию и преобразование фигур, ментальную поворотную трансформацию объектов, оценку относительных позиций и заполнения, а также оценку количественных свойств. Такие ограничения моделей становятся причиной проблем в задачах, которые требуют геометрического мышления. Для решения этой проблемы, авторы предлагают использовать разрешительную геометрию в качестве структурного средства для улучшения пространственных способностей МЛЛМ. Характеристики задач геометрии, такие как логика и многоступенчатая выводимость, позволяют моделям развивать способности, которые могут быть применены к различным пространственным ситуациям.
## Метод
Для решения этой проблемы была разработана мультимодальная датасет Euclid30K, содержащая примерно 30 000 задач геометрии, включающих плоскую и твердотельную геометрию. Для обучения моделей использовалась групповая оптимизация политики (Group Relative Policy Optimization, GRPO), которая позволяла моделям приобретать и применять геометрические принципы Евклида. Модели были настроены на выполнение задач, таких как идентификация форм, подсчет элементов и многоступенчатый вывод, используя принципы Евклида. Это позволило моделям развивать геометрические способности, которые могут быть использованы в других задачах, включая смежные задачи смыслового понимания.
## Результаты
Проведенные эксперименты показали, что модели, настроенные на датасет Euclid30K, демонстрируют существенный показательный прирост в производительности на 4 различных бенчмарках пространственного рассуждения: Super-CLEVR, Omni3DBench, VSI-Bench и MindCube. Особый успех был показан в VSI-Bench, где увеличение точности в среднем составило 5.5 процентных единиц, набрав до 40.5%. Здесь RoboBrain2.0-Euclid-7B достиг 49.6% точности, превзойдя предыдущую скор лидера Spatial-MLLM. Эти результаты являются первым доказательством того, что геометрический анализ может стать сильным средством для улучшения пространственных способностей МЛЛМ.
## Значимость
Результаты исследования открывают новые возможности для применения геометрического подхода в области мультимодальных языковых моделей. Датасет Euclid30K предоставляет широкие возможности для отработки пространственных задач, а методология GRPO позволяет моделям приобретать геометрические навыки, которые могут быть использованы для решения различных задач пространственного мышления. Это не то
Abstract
Spatial intelligence spans a rich suite of abilities, including visualising
and transforming shapes, mentally rotating objects, judging relational
positions and containment, and estimating numerosity. However, it still remains
a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To
fill this gap, we propose to treat Euclidean geometry problem-solving as a
surrogate task. Specifically, we meticulously constructed a curated multimodal
dataset, called Euclid30K, comprising approximately 30K plane and solid
geometry problems. To enable the model to acquire and apply Euclidean
principles from these geometry problems, we employed Group Relative Policy
Optimization (GRPO) to finetune the Qwen2.5VL family and RoboBrain2.0 family,
inspiring the models to identify shapes, count, and relate entities, and
perform multi-step deductive reasoning using Euclidean principles. Our
experiments demonstrate that the resulting models achieve substantial zero-shot
gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench,
VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after
training on the Euclid30K, the mean VSI-Bench accuracy of all evaluated models
rose from 34.5% to 40.5%, improving by 5.5 percentage points. Among them,
RoboBrain2.0-Euclid-7B achieves 49.6\% accuracy, surpassing the previous
state-of-the-art model, Spatial-MLLM.To our knowledge, this is the first
systematic study showing that geometry-centric fine-tuning can confer
vision-language models with broadly transferable spatial skills. Code and
Euclid30K dataset can be found in https://zgca-ai4edu.github.io/Euclids_Gift.