Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

2509.24473v1 cs.CV, cs.AI, cs.CL, cs.LG 2025-10-01
Авторы:

Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen

Резюме на русском

## Контекст Многомодальные большие языковые модели (МЛЛМ) широко применяются в различных областях, но их способность решать задачи, требующие способностей пространственного рассуждения, остается недостаточно развитой. Эти способности включают визуализацию и преобразование фигур, ментальную поворотную трансформацию объектов, оценку относительных позиций и заполнения, а также оценку количественных свойств. Такие ограничения моделей становятся причиной проблем в задачах, которые требуют геометрического мышления. Для решения этой проблемы, авторы предлагают использовать разрешительную геометрию в качестве структурного средства для улучшения пространственных способностей МЛЛМ. Характеристики задач геометрии, такие как логика и многоступенчатая выводимость, позволяют моделям развивать способности, которые могут быть применены к различным пространственным ситуациям. ## Метод Для решения этой проблемы была разработана мультимодальная датасет Euclid30K, содержащая примерно 30 000 задач геометрии, включающих плоскую и твердотельную геометрию. Для обучения моделей использовалась групповая оптимизация политики (Group Relative Policy Optimization, GRPO), которая позволяла моделям приобретать и применять геометрические принципы Евклида. Модели были настроены на выполнение задач, таких как идентификация форм, подсчет элементов и многоступенчатый вывод, используя принципы Евклида. Это позволило моделям развивать геометрические способности, которые могут быть использованы в других задачах, включая смежные задачи смыслового понимания. ## Результаты Проведенные эксперименты показали, что модели, настроенные на датасет Euclid30K, демонстрируют существенный показательный прирост в производительности на 4 различных бенчмарках пространственного рассуждения: Super-CLEVR, Omni3DBench, VSI-Bench и MindCube. Особый успех был показан в VSI-Bench, где увеличение точности в среднем составило 5.5 процентных единиц, набрав до 40.5%. Здесь RoboBrain2.0-Euclid-7B достиг 49.6% точности, превзойдя предыдущую скор лидера Spatial-MLLM. Эти результаты являются первым доказательством того, что геометрический анализ может стать сильным средством для улучшения пространственных способностей МЛЛМ. ## Значимость Результаты исследования открывают новые возможности для применения геометрического подхода в области мультимодальных языковых моделей. Датасет Euclid30K предоставляет широкие возможности для отработки пространственных задач, а методология GRPO позволяет моделям приобретать геометрические навыки, которые могут быть использованы для решения различных задач пространственного мышления. Это не то

Abstract

Spatial intelligence spans a rich suite of abilities, including visualising and transforming shapes, mentally rotating objects, judging relational positions and containment, and estimating numerosity. However, it still remains a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To fill this gap, we propose to treat Euclidean geometry problem-solving as a surrogate task. Specifically, we meticulously constructed a curated multimodal dataset, called Euclid30K, comprising approximately 30K plane and solid geometry problems. To enable the model to acquire and apply Euclidean principles from these geometry problems, we employed Group Relative Policy Optimization (GRPO) to finetune the Qwen2.5VL family and RoboBrain2.0 family, inspiring the models to identify shapes, count, and relate entities, and perform multi-step deductive reasoning using Euclidean principles. Our experiments demonstrate that the resulting models achieve substantial zero-shot gains across four spatial reasoning benchmarks (Super-CLEVR, Omni3DBench, VSI-Bench, and MindCube) without any task-specific adaptations. Notably, after training on the Euclid30K, the mean VSI-Bench accuracy of all evaluated models rose from 34.5% to 40.5%, improving by 5.5 percentage points. Among them, RoboBrain2.0-Euclid-7B achieves 49.6\% accuracy, surpassing the previous state-of-the-art model, Spatial-MLLM.To our knowledge, this is the first systematic study showing that geometry-centric fine-tuning can confer vision-language models with broadly transferable spatial skills. Code and Euclid30K dataset can be found in https://zgca-ai4edu.github.io/Euclids_Gift.

Ссылки и действия