ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning
2509.21070v1
cs.LG, cs.AI, cs.CL
2025-09-27
Авторы:
Qizhi Pei, Zhuoshi Pan, Honglin Lin, Xin Gao, Yu Li, Zinan Tang, Conghui He, Rui Yan, Lijun Wu
Резюме на русском
#### Контекст
Стремительный развитий ИИ дал рождение крупным моделям рассуждений (Large Reasoning Models, LRMs), которые эффективно решают сложные задачи. Наибольшую эффективность они достигают при обучении на задачах, требующих глубокого математического рассуждения. Однако автоматическое синтезирование таких задач часто сталкивается с высокими затратами на вычисления и API, сложностью мотивирования и ограниченным уровнем сложности продуктов. Это значительно затрудняет масштабирование. Наша исследовательская группа разработала ScaleDiff, новый подход к эффективному масштабированию проблем с высоким уровнем сложности, чтобы стимулировать повышение уровня интеллектуальных моделей.
#### Метод
ScaleDiff основывается на простой, но эффективной методологии, которая позволяет эффективно отфильтровывать задачи с высоким уровнем сложности из уже имеющихся наборов данных. Мы применяем адаптивную модель "Thinking"/"NoThinking" для оценки сложности задачи. Эта модель работает в рамках одного прохода, что значительно уменьшает затраты на вычисления. Затем мы обучаем специализированный генератор сложных задач DiffGen-8B на фильтрованных данных. Это позволяет получать большое количество задач с высоким уровнем сложности без дорогостоящих процессов мотивирования для каждой задачи. Мы также проводим файн-тюнинг Qwen2.5-Math-7B-Instruct на ScaleDiff-Math, чтобы повысить производительность модели на сложных задачах.
#### Результаты
Мы провели эксперименты с ScaleDiff на множестве математических бенчмарков, включая AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 и MATH500. Qwen2.5-Math-7B-Instruct, настроенная на ScaleDiff-Math, показала повышение эффективности на 11.3% по сравнению с оригинальным набором данных. Она достигла 65.9% средней точности, превзойдя такие модели, как OpenThinker3. Это достижение было получено с использованием экономичного модели Qwen3-8B в качестве технического руководителя, что подтверждает эффективность нашего подхода без необходимости прибегать к дорожей модели. Мы также выявили явную тенденцию к повышению производительности с моделей, когда имеется больше сложности в обучающих данных.
#### Значимость
ScaleDiff может быть применен в различных областях, где требуется высокий уровень интеллектуального рассуждения, таких как образовательные платформы, проверки математических навыков или развитие интеллектуальных систем. Он отличается своим эффективным подходом к синтезу сложных задач и экономичностью в использовании ресурсов. Наши результаты могут положительно сказаться на развитии систем рассуждений и интеллектуальных систем, улучшая их качество и эффективность.
#### Выводы
Мы доказали эффектив
Abstract
Large Reasoning Models (LRMs) have shown impressive capabilities in complex
problem-solving, often benefiting from training on difficult mathematical
problems that stimulate intricate reasoning. Recent efforts have explored
automated synthesis of mathematical problems by prompting proprietary models or
large-scale open-source models from seed data or inherent mathematical
concepts. However, scaling up these methods remains challenging due to their
high computational/API cost, complexity of prompting, and limited difficulty
level of the generated problems. To overcome these limitations, we propose
ScaleDiff, a simple yet effective pipeline designed to scale the creation of
difficult problems. We efficiently identify difficult problems from existing
datasets with only a single forward pass using an adaptive thinking model,
which can perceive problem difficulty and automatically switch between
"Thinking" and "NoThinking" modes. We then train a specialized difficult
problem generator (DiffGen-8B) on this filtered difficult data, which can
produce new difficult problems in large scale, eliminating the need for
complex, per-instance prompting and its associated high API costs. Fine-tuning
Qwen2.5-Math-7B-Instruct on the ScaleDiff-Math dataset yields a substantial
performance increase of 11.3% compared to the original dataset and achieves a
65.9% average accuracy on AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25, and MATH500,
outperforming recent strong LRMs like OpenThinker3. Notably, this performance
is achieved using the cost-efficient Qwen3-8B model as a teacher, demonstrating
that our pipeline can effectively transfer advanced reasoning capabilities
without relying on larger, more expensive teacher models. Furthermore, we
observe a clear scaling phenomenon in model performance on difficult benchmarks
as the quantity of difficult problems increases. Code:
https://github.com/QizhiPei/ScaleDiff.
Ссылки и действия
Дополнительные ресурсы: