Generalizable Geometric Image Caption Synthesis

2509.15217v1 cs.AI, cs.CV, cs.LG 2025-09-20
Авторы:

Yue Xin, Wenyuan Wang, Rui Pan, Ruida Wang, Howard Meng, Renjie Pi, Shizhe Diao, Tong Zhang

Резюме на русском

#### Контекст Multimodal больших языковых моделей (МЛЛМ) широко применяются в решении различных задач, требующих сильных рассудочных способностей. Однако, несмотря на прогрессы в области МЛЛМ, они часто сталкиваются с проблемами при решении сложных геометрических задач. Это связано с отсутствием качественных данных в форме пар изображения-текст, которые могут помочь моделям разобраться с геометрическими концепциями. Также, многие существующие системы синтеза данных, основанные на шаблонах, не успешно справляются с задачами, выходящими за рамки предопределенных шаблонов. Данная работа нацелена на решение этих проблем с помощью внедрения процесса Reinforcement Learning with Verifiable Rewards (RLVR) в процесс синтеза данных. #### Метод Процесс синтеза данных в работе основывается на взаимодействии нескольких этапов. Вначале используется генерация изображений на основе 50 основных геометрических отношений. Затем, с помощью RLVR, система улучшает генерируемые текстовые описания, используя в качестве сигналов ре wards сигналы, полученные из задач решения геометрических проблем. Это позволяет модели распознавать ключевые особенности решения геометрических задач. Благодаря этому, модели не только улучшают свои результаты в задачах, схожих с обучающимися данными, но и способны решать нестандартные задачи вне обучающего множества. #### Результаты За счет внедрения RLVR в процесс синтеза данных, модели показали существенные улучшения в выполнении геометрических задач. Так, на данных MathVista и MathVerse, связанных с статистикой, арифметикой, алгеброй и числовыми задачами, улучшение достигло значений в пределах $2.8\%\text{-}4.8\%$. Также, для задач негеометричных (например, в области искусства, дизайна, техники и инженерии) на данных MMMU, модели показали улучшения в пределах $2.4\%\text{-}3.9\%$. Это свидетельствует о универсальности улучшений и их применимости к разным областям. #### Значимость Результаты этой работы могут быть применены во многих областях, таких как образование, промышленность и технические задачи. Особый потенциал имеет применение в области геометрии и технологий, где качество решения геометрических задач может существенно влиять на результаты. Кроме того, улучшенные возможности вывода и рассуждения модели могут быть использованы в разработке новых приложений, требующих сильных рассудочных способностей. #### Выводы Выводы данной работы сводятся к следующим моментам: внедрение RLVR в процесс синтеза данных значительно повышает качество решения геометрических задач, увеличивая генерализуемость уже готовых моделей. Это открывает

Abstract

Multimodal large language models have various practical applications that demand strong reasoning abilities. Despite recent advancements, these models still struggle to solve complex geometric problems. A key challenge stems from the lack of high-quality image-text pair datasets for understanding geometric images. Furthermore, most template-based data synthesis pipelines typically fail to generalize to questions beyond their predefined templates. In this paper, we bridge this gap by introducing a complementary process of Reinforcement Learning with Verifiable Rewards (RLVR) into the data generation pipeline. By adopting RLVR to refine captions for geometric images synthesized from 50 basic geometric relations and using reward signals derived from mathematical problem-solving tasks, our pipeline successfully captures the key features of geometry problem-solving. This enables better task generalization and yields non-trivial improvements. Furthermore, even in out-of-distribution scenarios, the generated dataset enhances the general reasoning capabilities of multimodal large language models, yielding accuracy improvements of $2.8\%\text{-}4.8\%$ in statistics, arithmetic, algebraic, and numerical tasks with non-geometric input images of MathVista and MathVerse, along with $2.4\%\text{-}3.9\%$ improvements in Art, Design, Tech, and Engineering tasks in MMMU.

Ссылки и действия