An Investigation of Robustness of LLMs in Mathematical Reasoning: Benchmarking with Mathematically-Equivalent Transformation of Advanced Mathematical Problems
2508.08833v1
cs.CL, cs.AI, cs.LG
2025-08-14
Авторы:
Yuren Hao, Xiang Wan, Chengxiang Zhai
Резюме на русском
## Контекст
Математическое обучение с использованием языковых моделей (LLMs) становится все более важной задачей в глубоком обучении. Однако существуют ограничения в текущих методах оценки их математического разума. Обычно используются простые задачи, которые не соответствуют сложности реальных математических задач. Это приводит к несоответствию результатов и реального математического поverья моделей. Следовательно, необходимо разработать более систематический и жесткий метод оценки LLMs в области математического разума, чтобы выявить их слабые места и улучшить их навыки.
## Метод
Мы предлагаем новую систематическую фреймворк для оценки LLMs в области математического разума. Метод заключается в трансформации математически равных задач на языке, который изменяет лексические и параметрические черты, не затрагивая суть задачи. Эти трансформации позволяют нам измерить чувствительность LLMs к нематематическим пертурбациям, что дает более точное понятие их уровня математического разума. В качестве примера, мы создали бенчмарк датасет PutnamGAP, содержащий несколько математически равных вариаций реальных задач конкурсного уровня. На основе этого датасета, мы оцениваем работу нескольких лидерских моделей машинного обучения, включая OpenAI O3 и другие открытые модели.
## Результаты
Мы провели эксперименты на 18 моделях машинного обучения, включая ведущие модели от OpenAI и другие модели. Эксперименты показали, что LLMs становятся чувствительными к нетехническим изменениям в задачах, что приводит к существенной деградации их производительности. Например, OpenAI O3 показала хороший результат (49%) при работе с оригинальными задачами, но деградировала на 4% при изменении слов и на 10,5% при изменении логики задачи. Меньшие модели показали еще большую чувствительность к таким изменениям. Этот результат демонстрирует, что наша новая методология эффективна в изучении и выявлении слабых мест LLMs в области математического разума.
## Значимость
Наша работа имеет важное значение для широких областей применения, таких как образование, робототехника и глубокое обучение. Новый подход помогает выявлять лаконичные проблемы в LLMs, приводя к более точной оценке их математического поverья. Это может привести к новым инсайтам для улучшения этих моделей в будущем. Эта работа также открывает путь к созданию более надежных моделей, которые могут более точно решать реальные математические задачи.
## Выводы
Мы представили новую системутическую фреймворк для оценки LLMs в области математического разума. Наши эксперименты показали, что существуют существенные проблемы с робастностью LL
Abstract
In this paper, we introduce a systematic framework beyond conventional method
to assess LLMs' mathematical-reasoning robustness by stress-testing them on
advanced math problems that are mathematically equivalent but with linguistic
and parametric variation. These transformations allow us to measure the
sensitivity of LLMs to non-mathematical perturbations, thereby enabling a more
accurate evaluation of their mathematical reasoning capabilities. Using this
new evaluation methodology, we created PutnamGAP, a new benchmark dataset with
multiple mathematically-equivalent variations of competition-level math
problems. With the new dataset, we evaluate multiple families of representative
LLMs and examine their robustness. Across 18 commercial and open-source models
we observe sharp performance degradation on the variants. OpenAI's flagship
reasoning model, O3, scores 49 % on the originals but drops by 4 percentage
points on surface variants, and by 10.5 percentage points on core-step-based
variants, while smaller models fare far worse. Overall, the results show that
the proposed new evaluation methodology is effective for deepening our
understanding of the robustness of LLMs and generating new insights for further
improving their mathematical reasoning capabilities.
Ссылки и действия
Дополнительные ресурсы: