FLAMES: Improving LLM Math Reasoning via a Fine-Grained Analysis of the Data Synthesis Pipeline
2508.16514v1
cs.LG, cs.AI, cs.CL
2025-08-26
Авторы:
Parker Seegmiller, Kartik Mehta, Soumya Saha, Chenyang Tao, Shereen Oraby, Arpit Gupta, Tagyoung Chung, Mohit Bansal, Nanyun Peng
Резюме на русском
## Контекст
Методы улучшения технологий глубокого обучения, основанных на языковых моделях (LLM), часто используют синтетические данные для обучения моделей математического рассуждения. Однако существуют значительные проблемы, связанные с оценкой качества и эффективностью данных. Особенно непонятно, как разные факторы в процессе синтеза данных (например, фильтрация низкокачественных задач) влияют на окончательный результат. Большинство имеющихся исследований применяют уникальные методологии, что мешает сравнению различных подходов. Это подрывает понимание роли отдельных компонентов в синтетической системе данных. Наша работа позволяет устранить эти проблемы, обеспечив новый подход к оценке и оптимизации синтетических стратегий математического рассуждения.
## Метод
Мы представляем FLAMES — Framework for LLM Assessment of Math rEasoning Data Synthesis, открытую систему для систематического исследования различных стратегий синтеза данных. FLAMES позволяет проводить подробные эксперименты, оценивая 10 различных стратегий синтеза данных и их влияние на математическое рассуждение моделей. Методология включает в себя анализ качества, сложности и разнообразия синтетических данных. Мы разработали новые меры для оценки этих факторов, чтобы получить более точный отчет о влиянии синтеза на модели. Эти системы добавляются в FLAMES, чтобы обеспечить повторяемость исследований и формировать новые стратегии.
## Результаты
Наши эксперименты показали, что синтетическая система данных FLAMES выполняет лучшую оценку моделей по многим математическим метрикам. Мы обнаружили, что стратегии, нацеленные на увеличение сложности задач, показывают наибольший уровень улучшения результатов. Также мы выявили, что при фиксированном ограничении ресурсов, покрытие меньшего числа задач с высоким качеством превышает важность широкого покрытия. Мы также показали, как GSM8K- и MATH-синтетическая система может улучшить результаты на высокоуровневых конкурсных бенчмарках. Наши результаты показали, что FLAMES может способствовать обобщению моделей с легкого к трудному.
## Значимость
Полученные результаты могут быть применены в области создания моделей математического рассуждения, чтобы улучшить их общие возможности. FLAMES дает понимание того, как наилучшие стратегии синтеза могут быть выбраны, чтобы расширить удостоверение моделей вне домена и улучшить их устойчивость. Наши полученные данные позволяют повысить эффективность LLM в зоне математического анализа. Это дает новый подход для повышения качества и эффективности синтетических данных, который может быть применен в различных областях, где необходима математическая модель.
Abstract
Recent works improving LLM math reasoning with synthetic data have used
unique setups, making comparison of data synthesis strategies impractical. This
leaves many unanswered questions about the roles of different factors in the
synthetic data pipeline, such as the impact of filtering low-quality problems.
To address this gap, we introduce FLAMES, a Framework for LLM Assessment of
Math rEasoning Data Synthesis, and perform a systematic study of 10 existing
data synthesis strategies and multiple other factors impacting the performance
of synthetic math reasoning data. Our FLAMES experiments provide several
valuable insights about the optimal balance of difficulty and diversity of
synthetic data. First, data agents designed to increase problem complexity lead
to best improvements on most math metrics. Second, with a fixed data generation
budget, keeping higher problem coverage is more important than keeping only
problems with reliable solutions. Third, GSM8K- and MATH-based synthetic data
can lead to improvements on competition-level benchmarks, showcasing
easy-to-hard generalization. Leveraging insights from our FLAMES experiments,
we design two novel data synthesis strategies for improving out-of-domain
generalization and robustness. Further, we develop the FLAMES dataset, an
effective blend of our novel and existing data synthesis strategies,
outperforming public datasets on OlympiadBench (+15.7), CollegeMath (+4.5),
GSMPlus (+6.5), and MATH (+3.1). Fine-tuning Qwen2.5-Math-7B on the FLAMES
dataset achieves 81.4% on MATH, surpassing larger Llama3 405B, GPT-4o and
Claude 3.5 Sonnet.
Ссылки и действия
Дополнительные ресурсы: