Gödel Test: Can Large Language Models Solve Easy Conjectures?
2509.18383v1
cs.AI, cs.DM, cs.LG
2025-09-25
Авторы:
Moran Feldman, Amin Karbasi
Резюме на русском
## Контекст
Недавние объявления от лабораторий самых передовых AI-систем показали впечатляющие результаты на тестах за средние и высшие школы, а также на университетских математических олимпиадах. Однако возникает вопрос: могут ли такие модели справиться с более сложными теоретическими задачами, такими как создание новых, простых утверждений в развитых областях математики? Для решения этого вопроса предлагается тест Гёдела: определить возможность модели произвести правильные доказательства для простых, до сих пор неразрешенных утверждений.
## Метод
Мы использовали модель GPT-5 для изучения ее возможности решать проблемы в области комбинаторной оптимизации. Для каждой задачи предоставили одну или две исходные работы, из которых взят элемент задачи. Оценивались способность модели анализировать ситуацию и создавать корректные доказательства. Были использованы пять проблем, относящихся к разных сложностям, включая три простых и две более сложные.
## Результаты
На простых задачах GPT-5 показала способность вывести практически верные решения. На одной задаче средней сложности она даже предложила другой гарантийный результат, который опровергла наше утверждение, но при этом дала верное решение. На более сложной задаче, которая требовала синтеза информации из нескольких источников, модель не справилась. На самой сложной задаче, не имеющей уже проверенных доказательств, модель GPT-5 предложила те же выводы, что и мы, но не смогла справиться с анализом этого решения.
## Значимость
Результаты показывают, что модель GPT-5 успешно решает простые задачи, включая некоторые элементы оригинального мышления. Однако она столкнулась с трудностями при работе с задачами, требующими синтеза информации из разных источников. Это указывает на существенный прогресс в области рационального рассуждения и возможность использования таких моделей в будущем, но также подчеркивает ограничения, особенно при необходимости кросс-документального анализа.
## Выводы
Результаты экспериментов с GPT-5 показывают существенный прогресс в области математического моделирования и анализа. Однако остаются трудности при сложных задачах, требующих кросс-документального анализа. Дальнейшие исследования будут направлены на улучшение моделей, чтобы они могли пройти тест Гёдела и стать инструментом для решения более сложных задач в математике.
Abstract
Recent announcements from frontier AI model labs have highlighted strong
results on high-school and undergraduate math competitions. Yet it remains
unclear whether large language models can solve new, simple conjectures in more
advanced areas of mathematics. We propose the G\"odel Test: evaluating whether
a model can produce correct proofs for very simple, previously unsolved
conjectures. To this end, we study the performance of GPT-5 on five conjectures
in combinatorial optimization. For each problem, we provided one or two source
papers from which the conjecture arose, withheld our own conjecture, and then
assessed the model's reasoning in detail. On the three easier problems, GPT-5
produced nearly correct solutions; for Problem 2 it even derived a different
approximation guarantee that, upon checking, refuted our conjecture while
providing a valid solution. The model failed on Problem 4, which required
combining results from two papers. On Problem 5, a harder case without a
validated conjecture, GPT-5 proposed the same algorithm we had in mind but
failed in the analysis, suggesting the proof is more challenging than expected.
Although our sample is small, the results point to meaningful progress on
routine reasoning, occasional flashes of originality, and clear limitations
when cross-paper synthesis is required. GPT-5 may represent an early step
toward frontier models eventually passing the G\"odel Test.
Ссылки и действия
Дополнительные ресурсы: