Automated Formalization via Conceptual Retrieval-Augmented LLMs
2508.06931v1
cs.AI, cs.LG
2025-08-13
Авторы:
Wangyue Lu, Lun Du, Sirui Li, Ke Weng, Haozhe Sun, Hengyu Liu, Minghe Yu, Tiancheng Zhang, Ge Yu
Резюме на русском
## Контекст
Интерактивные теоремпроверы (ITPs) требуют ручного формализации, которая трудоемка и требует специальной экспертной подготовки. Рост интереса к искусству математического программирования привел к развитию автоматизированных методов формализации, которые могут существенно сократить время и усилия для формализации. Однако эти методы сталкиваются с двумя ключевыми проблемами: потенциальной халтурностью (например, неопределенные предикаты, неправильное использование символов, несовместимость версий) и семантическим пробелом, вызванным неясностью или отсутствием подробных данных в естественном языке. Эти проблемы значительно ограничивают эффективность автоматизации. Работа статьи призвана решить эти задачи, предлагая новую модель, которая будет улучшать работу существующих автоматизированных инструментов.
## Метод
Мы предлагаем разработать CRAMF (Concept-driven Retrieval-Augmented Mathematical Formalization), которая улучшает LLM-based autoformalizer. Работа CRAMF основывается на поисковой методологии, которая позволяет внедрять контекстные сигналы в процесс генерации кода. Мы предлагаем автоматическую конструкцию классификации математических понятий и их определений из Mathlib4 — стандартной математической библиотеки Lean 4. Для улучшения точности и устранения проблемы полиморфизма мы предлагаем стратегию контекстного запроса, используя дополнительные доменные сигналы. Также мы разрабатываем двухканальную стратегию поиска с повторным оцениванием, чтобы обеспечить высокую точность поиска.
## Результаты
Мы проводим эксперименты на стандартных тестовых наборах miniF2F, ProofNet и произвольном AdvancedMath бенчмарке. CRAMF показывает последовательные улучшения в точности формализации. Мы сравниваем результаты с текущими стандартными методами и показываем, что CRAMF добивается до 62.1% улучшения в точности и 29.9% в среднем. Это указывает на последовательность CRAMF в сильном значительном улучшении существующих методов.
## Значимость
Мы отмечаем, что CRAMF может быть широко применена в сфере автоматизированной формализации математических задач. Эта модель может быть применена в широких областях, включая формализацию математических теорий, автоматическое проверивание теорем, а также в образовательных целях, помогая учащимся и экспертам в математике. Мы также отмечаем, что CRAMF может повысить эффективность работы существующих систем, таких как Lean 4 и другие ITPs, и улучшить пользовательский опыт.
## Выводы
Мы представляем CRAMF, новую модель для автоматизированной формализации, которая позволяет улучшить методы, исполь
Abstract
Interactive theorem provers (ITPs) require manual formalization, which is
labor-intensive and demands expert knowledge. While automated formalization
offers a potential solution, it faces two major challenges: model hallucination
(e.g., undefined predicates, symbol misuse, and version incompatibility) and
the semantic gap caused by ambiguous or missing premises in natural language
descriptions. To address these issues, we propose CRAMF, a Concept-driven
Retrieval-Augmented Mathematical Formalization framework. CRAMF enhances
LLM-based autoformalization by retrieving formal definitions of core
mathematical concepts, providing contextual grounding during code generation.
However, applying retrieval-augmented generation (RAG) in this setting is
non-trivial due to the lack of structured knowledge bases, the polymorphic
nature of mathematical concepts, and the high precision required in formal
retrieval. We introduce a framework for automatically constructing a
concept-definition knowledge base from Mathlib4, the standard mathematical
library for the Lean 4 theorem prover, indexing over 26,000 formal definitions
and 1,000+ core mathematical concepts. To address conceptual polymorphism, we
propose contextual query augmentation with domain- and application-level
signals. In addition, we design a dual-channel hybrid retrieval strategy with
reranking to ensure accurate and relevant definition retrieval. Experiments on
miniF2F, ProofNet, and our newly proposed AdvancedMath benchmark show that
CRAMF can be seamlessly integrated into LLM-based autoformalizers, yielding
consistent improvements in translation accuracy, achieving up to 62.1% and an
average of 29.9% relative improvement.
Ссылки и действия
Дополнительные ресурсы: