FLAMES: Improving LLM Math Reasoning via a Fine-Grained Analysis of the Data Synthesis Pipeline

2508.16514v1 cs.LG, cs.AI, cs.CL 2025-08-26
Авторы:

Parker Seegmiller, Kartik Mehta, Soumya Saha, Chenyang Tao, Shereen Oraby, Arpit Gupta, Tagyoung Chung, Mohit Bansal, Nanyun Peng

Резюме на русском

## Контекст Методы улучшения технологий глубокого обучения, основанных на языковых моделях (LLM), часто используют синтетические данные для обучения моделей математического рассуждения. Однако существуют значительные проблемы, связанные с оценкой качества и эффективностью данных. Особенно непонятно, как разные факторы в процессе синтеза данных (например, фильтрация низкокачественных задач) влияют на окончательный результат. Большинство имеющихся исследований применяют уникальные методологии, что мешает сравнению различных подходов. Это подрывает понимание роли отдельных компонентов в синтетической системе данных. Наша работа позволяет устранить эти проблемы, обеспечив новый подход к оценке и оптимизации синтетических стратегий математического рассуждения. ## Метод Мы представляем FLAMES — Framework for LLM Assessment of Math rEasoning Data Synthesis, открытую систему для систематического исследования различных стратегий синтеза данных. FLAMES позволяет проводить подробные эксперименты, оценивая 10 различных стратегий синтеза данных и их влияние на математическое рассуждение моделей. Методология включает в себя анализ качества, сложности и разнообразия синтетических данных. Мы разработали новые меры для оценки этих факторов, чтобы получить более точный отчет о влиянии синтеза на модели. Эти системы добавляются в FLAMES, чтобы обеспечить повторяемость исследований и формировать новые стратегии. ## Результаты Наши эксперименты показали, что синтетическая система данных FLAMES выполняет лучшую оценку моделей по многим математическим метрикам. Мы обнаружили, что стратегии, нацеленные на увеличение сложности задач, показывают наибольший уровень улучшения результатов. Также мы выявили, что при фиксированном ограничении ресурсов, покрытие меньшего числа задач с высоким качеством превышает важность широкого покрытия. Мы также показали, как GSM8K- и MATH-синтетическая система может улучшить результаты на высокоуровневых конкурсных бенчмарках. Наши результаты показали, что FLAMES может способствовать обобщению моделей с легкого к трудному. ## Значимость Полученные результаты могут быть применены в области создания моделей математического рассуждения, чтобы улучшить их общие возможности. FLAMES дает понимание того, как наилучшие стратегии синтеза могут быть выбраны, чтобы расширить удостоверение моделей вне домена и улучшить их устойчивость. Наши полученные данные позволяют повысить эффективность LLM в зоне математического анализа. Это дает новый подход для повышения качества и эффективности синтетических данных, который может быть применен в различных областях, где необходима математическая модель.

Abstract

Recent works improving LLM math reasoning with synthetic data have used unique setups, making comparison of data synthesis strategies impractical. This leaves many unanswered questions about the roles of different factors in the synthetic data pipeline, such as the impact of filtering low-quality problems. To address this gap, we introduce FLAMES, a Framework for LLM Assessment of Math rEasoning Data Synthesis, and perform a systematic study of 10 existing data synthesis strategies and multiple other factors impacting the performance of synthetic math reasoning data. Our FLAMES experiments provide several valuable insights about the optimal balance of difficulty and diversity of synthetic data. First, data agents designed to increase problem complexity lead to best improvements on most math metrics. Second, with a fixed data generation budget, keeping higher problem coverage is more important than keeping only problems with reliable solutions. Third, GSM8K- and MATH-based synthetic data can lead to improvements on competition-level benchmarks, showcasing easy-to-hard generalization. Leveraging insights from our FLAMES experiments, we design two novel data synthesis strategies for improving out-of-domain generalization and robustness. Further, we develop the FLAMES dataset, an effective blend of our novel and existing data synthesis strategies, outperforming public datasets on OlympiadBench (+15.7), CollegeMath (+4.5), GSMPlus (+6.5), and MATH (+3.1). Fine-tuning Qwen2.5-Math-7B on the FLAMES dataset achieves 81.4% on MATH, surpassing larger Llama3 405B, GPT-4o and Claude 3.5 Sonnet.

Ссылки и действия