Generalizable Geometric Image Caption Synthesis
2509.15217v1
cs.AI, cs.CV, cs.LG
2025-09-20
Авторы:
Yue Xin, Wenyuan Wang, Rui Pan, Ruida Wang, Howard Meng, Renjie Pi, Shizhe Diao, Tong Zhang
Резюме на русском
#### Контекст
Multimodal больших языковых моделей (МЛЛМ) широко применяются в решении различных задач, требующих сильных рассудочных способностей. Однако, несмотря на прогрессы в области МЛЛМ, они часто сталкиваются с проблемами при решении сложных геометрических задач. Это связано с отсутствием качественных данных в форме пар изображения-текст, которые могут помочь моделям разобраться с геометрическими концепциями. Также, многие существующие системы синтеза данных, основанные на шаблонах, не успешно справляются с задачами, выходящими за рамки предопределенных шаблонов. Данная работа нацелена на решение этих проблем с помощью внедрения процесса Reinforcement Learning with Verifiable Rewards (RLVR) в процесс синтеза данных.
#### Метод
Процесс синтеза данных в работе основывается на взаимодействии нескольких этапов. Вначале используется генерация изображений на основе 50 основных геометрических отношений. Затем, с помощью RLVR, система улучшает генерируемые текстовые описания, используя в качестве сигналов ре wards сигналы, полученные из задач решения геометрических проблем. Это позволяет модели распознавать ключевые особенности решения геометрических задач. Благодаря этому, модели не только улучшают свои результаты в задачах, схожих с обучающимися данными, но и способны решать нестандартные задачи вне обучающего множества.
#### Результаты
За счет внедрения RLVR в процесс синтеза данных, модели показали существенные улучшения в выполнении геометрических задач. Так, на данных MathVista и MathVerse, связанных с статистикой, арифметикой, алгеброй и числовыми задачами, улучшение достигло значений в пределах $2.8\%\text{-}4.8\%$. Также, для задач негеометричных (например, в области искусства, дизайна, техники и инженерии) на данных MMMU, модели показали улучшения в пределах $2.4\%\text{-}3.9\%$. Это свидетельствует о универсальности улучшений и их применимости к разным областям.
#### Значимость
Результаты этой работы могут быть применены во многих областях, таких как образование, промышленность и технические задачи. Особый потенциал имеет применение в области геометрии и технологий, где качество решения геометрических задач может существенно влиять на результаты. Кроме того, улучшенные возможности вывода и рассуждения модели могут быть использованы в разработке новых приложений, требующих сильных рассудочных способностей.
#### Выводы
Выводы данной работы сводятся к следующим моментам: внедрение RLVR в процесс синтеза данных значительно повышает качество решения геометрических задач, увеличивая генерализуемость уже готовых моделей. Это открывает
Abstract
Multimodal large language models have various practical applications that
demand strong reasoning abilities. Despite recent advancements, these models
still struggle to solve complex geometric problems. A key challenge stems from
the lack of high-quality image-text pair datasets for understanding geometric
images. Furthermore, most template-based data synthesis pipelines typically
fail to generalize to questions beyond their predefined templates. In this
paper, we bridge this gap by introducing a complementary process of
Reinforcement Learning with Verifiable Rewards (RLVR) into the data generation
pipeline. By adopting RLVR to refine captions for geometric images synthesized
from 50 basic geometric relations and using reward signals derived from
mathematical problem-solving tasks, our pipeline successfully captures the key
features of geometry problem-solving. This enables better task generalization
and yields non-trivial improvements. Furthermore, even in out-of-distribution
scenarios, the generated dataset enhances the general reasoning capabilities of
multimodal large language models, yielding accuracy improvements of
$2.8\%\text{-}4.8\%$ in statistics, arithmetic, algebraic, and numerical tasks
with non-geometric input images of MathVista and MathVerse, along with
$2.4\%\text{-}3.9\%$ improvements in Art, Design, Tech, and Engineering tasks
in MMMU.
Ссылки и действия
Дополнительные ресурсы: