Gödel Test: Can Large Language Models Solve Easy Conjectures?

2509.18383v1 cs.AI, cs.DM, cs.LG 2025-09-25
Авторы:

Moran Feldman, Amin Karbasi

Резюме на русском

## Контекст Недавние объявления от лабораторий самых передовых AI-систем показали впечатляющие результаты на тестах за средние и высшие школы, а также на университетских математических олимпиадах. Однако возникает вопрос: могут ли такие модели справиться с более сложными теоретическими задачами, такими как создание новых, простых утверждений в развитых областях математики? Для решения этого вопроса предлагается тест Гёдела: определить возможность модели произвести правильные доказательства для простых, до сих пор неразрешенных утверждений. ## Метод Мы использовали модель GPT-5 для изучения ее возможности решать проблемы в области комбинаторной оптимизации. Для каждой задачи предоставили одну или две исходные работы, из которых взят элемент задачи. Оценивались способность модели анализировать ситуацию и создавать корректные доказательства. Были использованы пять проблем, относящихся к разных сложностям, включая три простых и две более сложные. ## Результаты На простых задачах GPT-5 показала способность вывести практически верные решения. На одной задаче средней сложности она даже предложила другой гарантийный результат, который опровергла наше утверждение, но при этом дала верное решение. На более сложной задаче, которая требовала синтеза информации из нескольких источников, модель не справилась. На самой сложной задаче, не имеющей уже проверенных доказательств, модель GPT-5 предложила те же выводы, что и мы, но не смогла справиться с анализом этого решения. ## Значимость Результаты показывают, что модель GPT-5 успешно решает простые задачи, включая некоторые элементы оригинального мышления. Однако она столкнулась с трудностями при работе с задачами, требующими синтеза информации из разных источников. Это указывает на существенный прогресс в области рационального рассуждения и возможность использования таких моделей в будущем, но также подчеркивает ограничения, особенно при необходимости кросс-документального анализа. ## Выводы Результаты экспериментов с GPT-5 показывают существенный прогресс в области математического моделирования и анализа. Однако остаются трудности при сложных задачах, требующих кросс-документального анализа. Дальнейшие исследования будут направлены на улучшение моделей, чтобы они могли пройти тест Гёдела и стать инструментом для решения более сложных задач в математике.

Abstract

Recent announcements from frontier AI model labs have highlighted strong results on high-school and undergraduate math competitions. Yet it remains unclear whether large language models can solve new, simple conjectures in more advanced areas of mathematics. We propose the G\"odel Test: evaluating whether a model can produce correct proofs for very simple, previously unsolved conjectures. To this end, we study the performance of GPT-5 on five conjectures in combinatorial optimization. For each problem, we provided one or two source papers from which the conjecture arose, withheld our own conjecture, and then assessed the model's reasoning in detail. On the three easier problems, GPT-5 produced nearly correct solutions; for Problem 2 it even derived a different approximation guarantee that, upon checking, refuted our conjecture while providing a valid solution. The model failed on Problem 4, which required combining results from two papers. On Problem 5, a harder case without a validated conjecture, GPT-5 proposed the same algorithm we had in mind but failed in the analysis, suggesting the proof is more challenging than expected. Although our sample is small, the results point to meaningful progress on routine reasoning, occasional flashes of originality, and clear limitations when cross-paper synthesis is required. GPT-5 may represent an early step toward frontier models eventually passing the G\"odel Test.

Ссылки и действия