PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning
2509.19894v1
cs.LG, cs.CL
2025-09-26
Авторы:
Xueliang Zhao, Wei Wu, Jian Guan, Zhuocheng Gong, Lingpeng Kong
Резюме на русском
#### Контекст
Large language models (LLMs) преобразовались из простых систем общения в мощные логические средства для решения задач, включая числовые и программирование. Изначально их прогресс был способствовал не только увеличению параметров, но и увеличению вычислений при тестировании. Однако существует важный ограничение: недостаток высококачественных данных для обучения. Ручной сбор данных стоит дорого, и существующие синтетические данные, как правило, либо слишком простые, либо слишком ограниченные. PromptCoT 1.0 предложила новую технологию – внедрение логических ретроспективных мотиваций в процесс синтеза задач. Эта технология увеличивала сложность и новизну задач, но имела ограничения в масштабируемости. PromptCoT 2.0 решает эти проблемы, представляя усовершенствованную архитектуру, основанную на ожидании-максимизации (EM) для генерации синтетических задач.
#### Метод
PromptCoT 2.0 основывается на ожидании-максимизации (EM), позволяющем автоматизировать процесс синтеза логических ретроспективных мотиваций. Эта технология заменяет ручной труд на рекурсивный метод, где мотивации постоянно уточняются для создания задач, которые являются как сложными, так и разнообразными. Основной архитектурой является фреймворк с циклом EM, который включает несколько этапов: (1) инициализация мотиваций, (2) создание проблем с использованием этих мотиваций и (3) оценка сложности и разнообразия полученных задач. Модель обучается в двух основных режимах: (1) Self-Play, где модель улучшает свои результаты самостоятельно, и (2) Supervised Fine-Tuning (SFT), где модель обучается на данных, полученных от ручного испытания.
#### Результаты
Проведенные эксперименты показали, что PromptCoT 2.0 существенно улучшает результаты в тестировании в отличие от начальной модели. В режиме Self-Play, применение PromptCoT 2.0 к Qwen3-30B-A3B-Thinking-2507 привело к рекордам на 30B-шалле, с получением +4.4, +4.8, и +5.3 на AIME 24/25, +6.1 и +5.0 на LiveCodeBench v5/v6, и +35 Elo на Codeforces. В режиме SFT, обучение Qwen2.5-7B-Instruct на синтетических данных повысило точность до 73.1 на AIME 24, 65.6 на AIME 25, и 53.4 на LiveCodeBench v5. Анализы показали, что PromptCoT 2.0 не только увеличивает сложность задач, но и генерирует распределения, которые отличаются от тех, которые используются в предыдущих моделях.
#### Значимость
Промежуточные результаты указывают на широкие возможности PromptCoT 2.0 во многих областях, включая обучение моделей, которые могут решать не только логические задачи, но и решать задачи в области профессионального программирования и даже выше. Этот подход позволяет вносить новы
Abstract
Large language models (LLMs) are evolving from conversational systems into
strong reasoners for tasks such as Olympiad mathematics and competitive
programming. While scaling parameters and test-time computation has driven
progress, a key bottleneck is the lack of high-quality training problems:
human-curated datasets are costly and limited, while existing synthetic corpora
are often too easy or narrow. PromptCoT 1.0 showed that injecting rationales
into prompt synthesis increases problem difficulty. Building on this, we
present PromptCoT 2.0, a scalable framework that replaces hand-crafted
heuristics with an expectation-maximization (EM) loop, where rationales are
iteratively refined to guide prompt construction. This produces problems that
are both harder and more diverse than prior corpora. The synthetic prompts
support two post-training regimes: (1) Self-Play, where strong models improve
autonomously via verifiable feedback without stronger teachers; and (2)
Supervised Fine-Tuning (SFT), where weaker models learn from teacher-distilled
traces. Extensive experiments demonstrate the effectiveness of this approach.
In self-play, applying PromptCoT 2.0 to Qwen3-30B-A3B-Thinking-2507 sets new
state-of-the-art results at the 30B scale, with +4.4, +4.8, and +5.3 on AIME
24/25 and HMMT 25, +6.1 and +5.0 on LiveCodeBench v5/v6, and +35 Elo on
Codeforces. In SFT, training Qwen2.5-7B-Instruct solely on synthetic prompts
boosts accuracy to 73.1 (AIME 24), 65.6 (AIME 25), and 53.4 (LiveCodeBench v5),
surpassing models trained on human or hybrid data. Analyses further confirm
that PromptCoT 2.0 yields fundamentally harder and distributionally distinct
problems. These results establish prompt synthesis as a new axis for scaling
reasoning and position PromptCoT 2.0 as a scalable foundation for future
open-source models. The implementation is available at
https://github.com/inclusionAI/PromptCoT.
Ссылки и действия
Дополнительные ресурсы: