Automated Formalization via Conceptual Retrieval-Augmented LLMs

2508.06931v1 cs.AI, cs.LG 2025-08-13
Авторы:

Wangyue Lu, Lun Du, Sirui Li, Ke Weng, Haozhe Sun, Hengyu Liu, Minghe Yu, Tiancheng Zhang, Ge Yu

Резюме на русском

## Контекст Интерактивные теоремпроверы (ITPs) требуют ручного формализации, которая трудоемка и требует специальной экспертной подготовки. Рост интереса к искусству математического программирования привел к развитию автоматизированных методов формализации, которые могут существенно сократить время и усилия для формализации. Однако эти методы сталкиваются с двумя ключевыми проблемами: потенциальной халтурностью (например, неопределенные предикаты, неправильное использование символов, несовместимость версий) и семантическим пробелом, вызванным неясностью или отсутствием подробных данных в естественном языке. Эти проблемы значительно ограничивают эффективность автоматизации. Работа статьи призвана решить эти задачи, предлагая новую модель, которая будет улучшать работу существующих автоматизированных инструментов. ## Метод Мы предлагаем разработать CRAMF (Concept-driven Retrieval-Augmented Mathematical Formalization), которая улучшает LLM-based autoformalizer. Работа CRAMF основывается на поисковой методологии, которая позволяет внедрять контекстные сигналы в процесс генерации кода. Мы предлагаем автоматическую конструкцию классификации математических понятий и их определений из Mathlib4 — стандартной математической библиотеки Lean 4. Для улучшения точности и устранения проблемы полиморфизма мы предлагаем стратегию контекстного запроса, используя дополнительные доменные сигналы. Также мы разрабатываем двухканальную стратегию поиска с повторным оцениванием, чтобы обеспечить высокую точность поиска. ## Результаты Мы проводим эксперименты на стандартных тестовых наборах miniF2F, ProofNet и произвольном AdvancedMath бенчмарке. CRAMF показывает последовательные улучшения в точности формализации. Мы сравниваем результаты с текущими стандартными методами и показываем, что CRAMF добивается до 62.1% улучшения в точности и 29.9% в среднем. Это указывает на последовательность CRAMF в сильном значительном улучшении существующих методов. ## Значимость Мы отмечаем, что CRAMF может быть широко применена в сфере автоматизированной формализации математических задач. Эта модель может быть применена в широких областях, включая формализацию математических теорий, автоматическое проверивание теорем, а также в образовательных целях, помогая учащимся и экспертам в математике. Мы также отмечаем, что CRAMF может повысить эффективность работы существующих систем, таких как Lean 4 и другие ITPs, и улучшить пользовательский опыт. ## Выводы Мы представляем CRAMF, новую модель для автоматизированной формализации, которая позволяет улучшить методы, исполь

Abstract

Interactive theorem provers (ITPs) require manual formalization, which is labor-intensive and demands expert knowledge. While automated formalization offers a potential solution, it faces two major challenges: model hallucination (e.g., undefined predicates, symbol misuse, and version incompatibility) and the semantic gap caused by ambiguous or missing premises in natural language descriptions. To address these issues, we propose CRAMF, a Concept-driven Retrieval-Augmented Mathematical Formalization framework. CRAMF enhances LLM-based autoformalization by retrieving formal definitions of core mathematical concepts, providing contextual grounding during code generation. However, applying retrieval-augmented generation (RAG) in this setting is non-trivial due to the lack of structured knowledge bases, the polymorphic nature of mathematical concepts, and the high precision required in formal retrieval. We introduce a framework for automatically constructing a concept-definition knowledge base from Mathlib4, the standard mathematical library for the Lean 4 theorem prover, indexing over 26,000 formal definitions and 1,000+ core mathematical concepts. To address conceptual polymorphism, we propose contextual query augmentation with domain- and application-level signals. In addition, we design a dual-channel hybrid retrieval strategy with reranking to ensure accurate and relevant definition retrieval. Experiments on miniF2F, ProofNet, and our newly proposed AdvancedMath benchmark show that CRAMF can be seamlessly integrated into LLM-based autoformalizers, yielding consistent improvements in translation accuracy, achieving up to 62.1% and an average of 29.9% relative improvement.

Ссылки и действия