MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy
2508.05592v1
cs.CL
2025-08-09
Авторы:
Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei Tang
Резюме на русском
**Резюме**
Проблема: Несмотря на успех л LLM в области математического разума, их развитие сталкивается с ограничениями, связанными с недостаточным количеством высококачественных и сложных данных для обучения. Традиционные методы синтеза математических задач основываются на модификации человекозапланированных шаблонов, что ограничивает разнообразие и масштабируемость.
Решение: Мы предлагаем MathSmith — новую рамочную структуру для генерации сложных математических задач. Различается тем, что генерирует задачи с нуля, используя случайную выборку концептуальных пар из PlanetMath, чтобы обеспечить данными индепендентность и избежать контримитации. Для усиления сложности задач, разработаны 9 стратегий как ограничительные условия в процессе создания. Используется RL для оптимизации структурной достоверности, сложности рассуждений и консистентности ответов. Длина рассуждения, сгенерированных в авторегрессионной модели, использована как показатель когнитивной сложности, чтобы стимулировать создание задач, подходящих для метода Long-Chain-of-Thought.
Основные выводы: Мы проверили MathSmith на 5 бенчмарках (GSM8K, MATH-500, AIME2024, AIME2025, OlympiadBench), показав значительное превосходство по сравнению с базовыми моделями в коротких и длинных CoT условиях. Дополнительно, модуль генерации целевых исправлений позволяет сосредоточиться на конкретных математических понятиях. MathSmith демонстрирует сильную масштабируемость, универсальность и трансфертность, подтверждая значимость использования высокосложности синтетических данных для улучшения LLM в области математического разума.
Abstract
Large language models have achieved substantial progress in mathematical
reasoning, yet their advancement is limited by the scarcity of high-quality,
high-difficulty training data. Existing synthesis methods largely rely on
transforming human-written templates, limiting both diversity and scalability.
We propose MathSmith, a novel framework for synthesizing challenging
mathematical problems to enhance LLM reasoning. Rather than modifying existing
problems, MathSmith constructs new ones from scratch by randomly sampling
concept-explanation pairs from PlanetMath, ensuring data independence and
avoiding contamination. To increase difficulty, we design nine predefined
strategies as soft constraints during rationales. We further adopts
reinforcement learning to jointly optimize structural validity, reasoning
complexity, and answer consistency. The length of the reasoning trace generated
under autoregressive prompting is used to reflect cognitive complexity,
encouraging the creation of more demanding problems aligned with
long-chain-of-thought reasoning. Experiments across five benchmarks,
categorized as easy & medium (GSM8K, MATH-500) and hard (AIME2024, AIME2025,
OlympiadBench), show that MathSmith consistently outperforms existing baselines
under both short and long CoT settings. Additionally, a weakness-focused
variant generation module enables targeted improvement on specific concepts.
Overall, MathSmith exhibits strong scalability, generalization, and
transferability, highlighting the promise of high-difficulty synthetic data in
advancing LLM reasoning capabilities.
Ссылки и действия
Дополнительные ресурсы: