Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction

2508.03613v1 cs.LG, cs.AI 2025-08-06
Авторы:

Yong Lin, Shange Tang, Bohan Lyu, Ziran Yang, Jui-Hui Chung, Haoyu Zhao, Lai Jiang, Yihan Geng, Jiawei Ge, Jingruo Sun, Jiayun Wu, Jiri Gesi, Ximing Lu, David Acuna, Kaiyu Yang, Hongzhou Lin, Yejin Choi, Danqi Chen, Sanjeev Arora, Chi Jin

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автоматическое доказательство теорем является одним из ключевых направлений в области искусственного интеллекта и вычислительной логики. Эта область направлена на создание алгоритмов и моделей, способных автоматически доказывать математические утверждения, что может значительно ускорить процесс научных открытий и верификацию сложных систем. Однако, существующие методы зачастую сталкиваются с ограничениями в масштабируемости и сложности решаемых задач. Многие из них либо требуют значительных вычислительных ресурсов, либо не способны эффективно справляться с задачами повышенной сложности. Это создает необходимость в разработке новых подходов, которые могли бы обеспечить как высокую производительность, так и доступность для более широкого круга пользователей. Мотивация для создания Goedel-Prover-V2 заключается в преодолении этих ограничений через использование современных языковых моделей и инновационных методологий, таких как синтез данных и самокоррекция, которые позволяют улучшить обучение моделей и их способность решать сложные задачи. ## ПРЕДЛОЖЕННЫЙ МЕТОД Goedel-Prover-V2 представляет собой серию языковых моделей, разработанных для автоматического доказательства теорем. Основой предложенного метода является стандартный процесс итерации экспертов и обучения с подкреплением, в который интегрированы три ключевых инновации. Во-первых, это структурированный синтез данных, который позволяет генерировать синтетические задания с возрастающей сложностью. Это обучает модель постепенно осваивать все более сложные теоремы. Во-вторых, метод самокоррекции, управляемый верификатором, позволяет модели итеративно исправлять свои доказательства, используя обратную связь от компилятора Lean. В-третьих, усреднение моделей, которое объединяет контрольные точки модели, чтобы уменьшить снижение разнообразия выходных данных модели на поздних стадиях обучения. Эти инновации позволяют Goedel-Prover-V2 добиваться высоких результатов в доказательстве теорем, обеспечивая при этом эффективность и устойчивость модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Goedel-Prover-V2 были проведены эксперименты с использованием нескольких тестовых наборов данных. Малая модель Goedel-Prover-V2-8B достигла 84.6% по метрике pass@32 на наборе данных MiniF2F, превосходя DeepSeek-Prover-V2-671B, несмотря на то, что она в 80 раз меньше. Флагманская модель Goedel-Prover-V2-32B достигла 88.1% на MiniF2F при стандартном режиме и 90.4% в режиме самокоррекции, значительно превосходя предыдущее состояние искусства. Более того, она успешно решила 86 задач на PutnamBench при pass@184, заняв первое место среди открытых моделей, обогнав DeepSeek-Prover-V2-671B, который решил 47 задач при pass@1024. Эти результаты демонстрируют, что предложенная методология позволяет достигать высоких показателей производительности при меньших вычислительных затратах и размерах модели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Goedel-Prover-V2 имеет широкий спектр потенциальных применений в различных областях, включая математику, компьютерные науки и инженерные дисциплины, где требуется автоматизация верификации и доказательства теорем. Одним из ключевых преимуществ является возможность использования более компактных и эффективных моделей, что расширяет доступность технологии для исследовательских групп с ограниченными ресурсами. Кроме того, инновации, заложенные в методологию Goedel-Prover-V2, могут быть адаптированы и для других задач, требующих автоматического синтеза и проверки сложных структур. Переход на модели открытого исходного кода также способствует более широкому распространению и адаптации технологии в научном сообществе, что может ускорить прогресс в области автоматического доказательства теорем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Разработка Goedel-Prover-V2 представляет собой значительный шаг вперед в области автоматического доказательства теорем. Основные достижения включают в себя создание компактных и эффективных моделей, превосходящих существующие аналоги, а также внедрение инновационных методологий, таких как структурированный синтез данных и самокоррекция. В будущем исследования могут быть направлены на дальнейшее улучшение способности моделей решать задачи повышенной сложности, а также на расширение возможностей применения данных методов в других областях науки и техники. Важно продолжать развивать открытые платформы и инструменты, которые могут способствовать более быстрому и широкому распространению передовых технологий в научных кругах.

Abstract

We introduce Goedel-Prover-V2, a series of open-source language models that set a new state-of-the-art in automated theorem proving. Built on the standard expert iteration and reinforcement learning pipeline, our approach incorporates three key innovations: (1) Scaffolded data synthesis: We generate synthetic tasks of increasing difficulty to train the model to master increasingly complex theorems; (2) Verifier-guided self-correction: We enable the model to iteratively revise its proofs by leveraging feedback from the Lean compiler; (3) Model averaging: We merge model checkpoints to mitigate the decrease in model output diversity in later stages of training. Our small model, Goedel-Prover-V2-8B, reaches 84.6% pass@32 on MiniF2F and outperforms DeepSeek-Prover-V2-671B under the same metric, despite being 80X smaller. Our flagship model, Goedel-Prover-V2-32B, achieves 88.1% on MiniF2F at pass@32 in standard mode and 90.4% in self-correction mode, outperforming prior SOTA by a large margin. Additionally, our flagship model solves 86 problems on PutnamBench at pass@184, securing the first place among open-source models on the leaderboard, surpassing DeepSeek-Prover-V2-671B's record of solving 47 problems by pass@1024 with a significantly smaller model size and compute budget. At the time of its release (July-August 2025), Goedel-Prover-V2 achieves the strongest overall performance among all open-source theorem provers. It also ranks among the top-performing models--including closed-source systems with publicly reported performance--under a constrained test-time compute budget. Our models, code, and data are released at https://github.com/Goedel-LM/Goedel-Prover-V2.

Ссылки и действия