MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

2508.05592v1 cs.CL 2025-08-09
Авторы:

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei Tang

Резюме на русском

**Резюме** Проблема: Несмотря на успех л LLM в области математического разума, их развитие сталкивается с ограничениями, связанными с недостаточным количеством высококачественных и сложных данных для обучения. Традиционные методы синтеза математических задач основываются на модификации человекозапланированных шаблонов, что ограничивает разнообразие и масштабируемость. Решение: Мы предлагаем MathSmith — новую рамочную структуру для генерации сложных математических задач. Различается тем, что генерирует задачи с нуля, используя случайную выборку концептуальных пар из PlanetMath, чтобы обеспечить данными индепендентность и избежать контримитации. Для усиления сложности задач, разработаны 9 стратегий как ограничительные условия в процессе создания. Используется RL для оптимизации структурной достоверности, сложности рассуждений и консистентности ответов. Длина рассуждения, сгенерированных в авторегрессионной модели, использована как показатель когнитивной сложности, чтобы стимулировать создание задач, подходящих для метода Long-Chain-of-Thought. Основные выводы: Мы проверили MathSmith на 5 бенчмарках (GSM8K, MATH-500, AIME2024, AIME2025, OlympiadBench), показав значительное превосходство по сравнению с базовыми моделями в коротких и длинных CoT условиях. Дополнительно, модуль генерации целевых исправлений позволяет сосредоточиться на конкретных математических понятиях. MathSmith демонстрирует сильную масштабируемость, универсальность и трансфертность, подтверждая значимость использования высокосложности синтетических данных для улучшения LLM в области математического разума.

Abstract

Large language models have achieved substantial progress in mathematical reasoning, yet their advancement is limited by the scarcity of high-quality, high-difficulty training data. Existing synthesis methods largely rely on transforming human-written templates, limiting both diversity and scalability. We propose MathSmith, a novel framework for synthesizing challenging mathematical problems to enhance LLM reasoning. Rather than modifying existing problems, MathSmith constructs new ones from scratch by randomly sampling concept-explanation pairs from PlanetMath, ensuring data independence and avoiding contamination. To increase difficulty, we design nine predefined strategies as soft constraints during rationales. We further adopts reinforcement learning to jointly optimize structural validity, reasoning complexity, and answer consistency. The length of the reasoning trace generated under autoregressive prompting is used to reflect cognitive complexity, encouraging the creation of more demanding problems aligned with long-chain-of-thought reasoning. Experiments across five benchmarks, categorized as easy & medium (GSM8K, MATH-500) and hard (AIME2024, AIME2025, OlympiadBench), show that MathSmith consistently outperforms existing baselines under both short and long CoT settings. Additionally, a weakness-focused variant generation module enables targeted improvement on specific concepts. Overall, MathSmith exhibits strong scalability, generalization, and transferability, highlighting the promise of high-difficulty synthetic data in advancing LLM reasoning capabilities.

Ссылки и действия