Lean Meets Theoretical Computer Science: Scalable Synthesis of Theorem Proving Challenges in Formal-Informal Pairs

2508.15878v1 cs.LO, cs.AI, cs.CL, cs.LG 2025-08-25

Авторы:

Terry Jingchen Zhang, Wenyuan Jiang, Rongchuan Liu, Yisong Wang, Junran Yang, Ning Wang, Nicole Ni, Yinya Huang, Mrinmaya Sachan

Резюме на русском

## Контекст Теоретическое компьютерное научное исследование (TCS) является ключевым компонентом в развитии широкого спектра компьютерных технологий. Одним из важных аспектов TCS является автоматизированное доказательство теорем (FTP), которое позволяет легко проверять различные вычислительные задачи. Однако существуют значительные проблемы в этой области, включая нехватку качественных данных и высокую стоимость их ручного создания. Эти проблемы ограничивают прогресс в развитии методов автоматической проверки математических доказательств. Мы предлагаем использовать TCS как источник строго структурированных проблем для вывода автоматических доказательств, который может быть легко масштабирован для генерации трудных задач с подтвержденными формально-историческими соответствиями. ## Метод Мы разработали фреймворк для автоматического генерирования теорем-проблем с формальными (Lean4) и информальными (Markdown) заданиями. Этот подход основывается на теоретических компьютерных науках, включая задачи типа Busy Beaver (доказательство границы жизнедеятельности Тьюринговых машин) и Mixed Boolean Arithmetic (комбинирование логических и арифметических выводов). Наша методика состоит в автоматической синтезировании проблем, которые могут быть проверены с помощью мощных теоретических методов и сравниваться с информальными описаниями задач. Это позволяет создать масштабируемую систему для генерирования доказательств с высоким уровнем сложности и строгой формальной гарантией качества. ## Результаты Мы провели исследование, используя широкий спектр теоретических задач и моделей глубокого обучения. Наши результаты показывают, что хотя модель DeepSeekProver-V2-671B демонстрирует внушительные результаты на задачах Busy Beaver (57.5% успеха), она имеет значительно меньший успех на задачах Mixed Boolean Arithmetic (только 12% успеха). Это показывает, что даже для простоты проверок, сложность генерации трудных доказательств остается высокой. Эти результаты демонстрируют значение TCS в создании новых проблем для тестирования моделей в области автоматического доказательства теорем. ## Значимость Наш подход открывает новые возможности для проверки моделей машинного обучения в сфере теоретических доказательств. Мы показали, что TCS может стать основой для создания новых вызовов в области автоматического доказательства, что может привести к новым решениям в AI, проверке логики и программной инженерии. Этот подход широко может использоваться в области развития новых методов для проверки теорем и развития теоретического компьютерного научного исследования. ## Выводы Мы усп

Abstract

Formal theorem proving (FTP) has emerged as a critical foundation for evaluating the reasoning capabilities of large language models, enabling automated verification of mathematical proofs at scale. However, progress has been constrained by limited datasets due to the high cost of manual curation and the scarcity of challenging problems with verified formal-informal correspondences. We propose leveraging theoretical computer science (TCS) as a scalable source of rigorous proof problems, where algorithmic definitions enable automated generation of arbitrarily many challenging theorem-proof pairs. We demonstrate this approach on two TCS domains: Busy Beaver problems, which involve proving bounds on Turing machine halting behavior, and Mixed Boolean Arithmetic problems, which combine logical and arithmetic reasoning. Our framework automatically synthesizes problems with parallel formal (Lean4) and informal (Markdown) specifications, creating a scalable pipeline for generating verified proof challenges. Evaluation on frontier models reveals substantial gaps in automated theorem proving: while DeepSeekProver-V2-671B achieves 57.5\% success on Busy Beaver problems, it manages only 12\% on Mixed Boolean Arithmetic problems. These results highlight the difficulty of long-form proof generation even for problems that are computationally easy to verify, demonstrating the value of TCS domains for advancing automated reasoning research.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация