We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

2508.10433v1 cs.AI, cs.CV, cs.LG 2025-08-16
Авторы:

Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang

Резюме на русском

## Контекст В последние годы внимание ученых привлекалось к развитию алгоритмов с повышенным уровнем математического рассуждения. Однако, существующие методы часто сталкиваются с ограничениями в обработке сложных задач, недостаточной интеграцией знаний, или неэффективной моделировании пространства данных. Эти ограничения становятся причиной снижения работоспособности существующих систем. Для улучшения моделей математического рассуждения необходимо разрабатывать системы, которые не только оптимизируют данные, но и учитывают структуру знаний, а также применяют мощные методы машинного обучения. ## Метод Мы представляем We-Math 2.0 — универсальную систему, которая объединяет понятия математической системы знаний, моделирования пространства данных и использования методов машинного обучения. Система предлагает 5-уровневую структуру знаний, включающую 491 точек знаний и 1819 основных принципов. Она также включает два типа данных: MathBook-Standard, обеспечивающий широкий покрытие понятий, и MathBook-Pro, который предлагает 7 вариантов под 3-уровневой системой трудности. Для обучения мы предлагаем 2-ступенчатый алгоритм машинного обучения с подкреплением (RL), включающий (i) Cold-Start Fine-tuning для выравнивания модели с цепочкой мыслей, ориентированной на знания, и (ii) Progressive Alignment RL для улучшения прогресса в обучении на разных уровнях сложности. ## Результаты Используя эти компоненты, мы провели эксперименты на широко известных бенчмарках, таких как MathBookEval, а также на собственной математической тетради MathBook. Наши результаты показали, что We-Math 2.0 превосходит существующие модели по многим показателям, включая точность и скорость решения задач. Опробуемые параметры и выборка данных показали, что модель способна эффективно решать задачи, даже в условиях прогрессивного увеличения сложности. ## Значимость Мы видим широкие возможности применения We-Math 2.0 в области образования, искусственного интеллекта, и даже в профессиональной области математических вычислений. Эта система может помочь улучшить образовательные ресурсы, обеспечить более точное моделирование задач, и сделать математику более доступной для широкой аудитории. Будущие исследования будут направлены на расширение знаний, улучшение моделей, и расширение применений в новых областях. ## Выводы В итоге, We-Math 2.0 демонстрирует существенные достижения в области математических моделей, сочетая в себе систему знаний, моделирование пространства данных и новые методы обучения. Наши результаты показывают, что модель показывает высокую эффективность в решении сложных задач мате

Abstract

Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various tasks, but still struggle with complex mathematical reasoning. Existing research primarily focuses on dataset construction and method optimization, often overlooking two critical aspects: comprehensive knowledge-driven design and model-centric data space modeling. In this paper, we introduce We-Math 2.0, a unified system that integrates a structured mathematical knowledge system, model-centric data space modeling, and a reinforcement learning (RL)-based training paradigm to comprehensively enhance the mathematical reasoning abilities of MLLMs. The key contributions of We-Math 2.0 are fourfold: (1) MathBook Knowledge System: We construct a five-level hierarchical system encompassing 491 knowledge points and 1,819 fundamental principles. (2) MathBook-Standard & Pro: We develop MathBook-Standard, a dataset that ensures broad conceptual coverage and flexibility through dual expansion. Additionally, we define a three-dimensional difficulty space and generate 7 progressive variants per problem to build MathBook-Pro, a challenging dataset for robust training. (3) MathBook-RL: We propose a two-stage RL framework comprising: (i) Cold-Start Fine-tuning, which aligns the model with knowledge-oriented chain-of-thought reasoning; and (ii) Progressive Alignment RL, leveraging average-reward learning and dynamic data scheduling to achieve progressive alignment across difficulty levels. (4) MathBookEval: We introduce a comprehensive benchmark covering all 491 knowledge points with diverse reasoning step distributions. Experimental results show that MathBook-RL performs competitively with existing baselines on four widely-used benchmarks and achieves strong results on MathBookEval, suggesting promising generalization in mathematical reasoning.

Ссылки и действия