Lean Meets Theoretical Computer Science: Scalable Synthesis of Theorem Proving Challenges in Formal-Informal Pairs
2508.15878v1
cs.LO, cs.AI, cs.CL, cs.LG
2025-08-25
Авторы:
Terry Jingchen Zhang, Wenyuan Jiang, Rongchuan Liu, Yisong Wang, Junran Yang, Ning Wang, Nicole Ni, Yinya Huang, Mrinmaya Sachan
Резюме на русском
## Контекст
Теоретическое компьютерное научное исследование (TCS) является ключевым компонентом в развитии широкого спектра компьютерных технологий. Одним из важных аспектов TCS является автоматизированное доказательство теорем (FTP), которое позволяет легко проверять различные вычислительные задачи. Однако существуют значительные проблемы в этой области, включая нехватку качественных данных и высокую стоимость их ручного создания. Эти проблемы ограничивают прогресс в развитии методов автоматической проверки математических доказательств. Мы предлагаем использовать TCS как источник строго структурированных проблем для вывода автоматических доказательств, который может быть легко масштабирован для генерации трудных задач с подтвержденными формально-историческими соответствиями.
## Метод
Мы разработали фреймворк для автоматического генерирования теорем-проблем с формальными (Lean4) и информальными (Markdown) заданиями. Этот подход основывается на теоретических компьютерных науках, включая задачи типа Busy Beaver (доказательство границы жизнедеятельности Тьюринговых машин) и Mixed Boolean Arithmetic (комбинирование логических и арифметических выводов). Наша методика состоит в автоматической синтезировании проблем, которые могут быть проверены с помощью мощных теоретических методов и сравниваться с информальными описаниями задач. Это позволяет создать масштабируемую систему для генерирования доказательств с высоким уровнем сложности и строгой формальной гарантией качества.
## Результаты
Мы провели исследование, используя широкий спектр теоретических задач и моделей глубокого обучения. Наши результаты показывают, что хотя модель DeepSeekProver-V2-671B демонстрирует внушительные результаты на задачах Busy Beaver (57.5% успеха), она имеет значительно меньший успех на задачах Mixed Boolean Arithmetic (только 12% успеха). Это показывает, что даже для простоты проверок, сложность генерации трудных доказательств остается высокой. Эти результаты демонстрируют значение TCS в создании новых проблем для тестирования моделей в области автоматического доказательства теорем.
## Значимость
Наш подход открывает новые возможности для проверки моделей машинного обучения в сфере теоретических доказательств. Мы показали, что TCS может стать основой для создания новых вызовов в области автоматического доказательства, что может привести к новым решениям в AI, проверке логики и программной инженерии. Этот подход широко может использоваться в области развития новых методов для проверки теорем и развития теоретического компьютерного научного исследования.
## Выводы
Мы усп
Abstract
Formal theorem proving (FTP) has emerged as a critical foundation for
evaluating the reasoning capabilities of large language models, enabling
automated verification of mathematical proofs at scale. However, progress has
been constrained by limited datasets due to the high cost of manual curation
and the scarcity of challenging problems with verified formal-informal
correspondences. We propose leveraging theoretical computer science (TCS) as a
scalable source of rigorous proof problems, where algorithmic definitions
enable automated generation of arbitrarily many challenging theorem-proof
pairs. We demonstrate this approach on two TCS domains: Busy Beaver problems,
which involve proving bounds on Turing machine halting behavior, and Mixed
Boolean Arithmetic problems, which combine logical and arithmetic reasoning.
Our framework automatically synthesizes problems with parallel formal (Lean4)
and informal (Markdown) specifications, creating a scalable pipeline for
generating verified proof challenges. Evaluation on frontier models reveals
substantial gaps in automated theorem proving: while DeepSeekProver-V2-671B
achieves 57.5\% success on Busy Beaver problems, it manages only 12\% on Mixed
Boolean Arithmetic problems. These results highlight the difficulty of
long-form proof generation even for problems that are computationally easy to
verify, demonstrating the value of TCS domains for advancing automated
reasoning research.