BeyondBench: Benchmark-Free Evaluation of Reasoning in Language Models

2509.24210v1 cs.CL, cs.AI, cs.LG 2025-10-01
Авторы:

Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi, Swastik Roy, Priya Pitre, Meng Lu, Morteza Ziyadi, Xuan Wang

Резюме на русском

## Контекст Современные языковые модели (ЯМ) широко распространены в различных областях применения, от работы с текстом до контроля роботов. Однако оценка их работы становится сложнее, так как статические бенчмарки рискуют загрязнением своим включением в обучающие данные моделей. Это затрудняет определение, выполняют ли модели настоящую рассужденную работу или только воспроизводят ответы из памяти. Данная статья предлагает BeyondBench — новую подходящую систему оценки, которая устраняет эту проблему за счет генерации алгоритмических задач на лету. ## Метод BeyondBench генерирует задачи вывода и вычисления алгоритмически, используя генеративные модели. Это позволяет создавать неповторимые задачи, которые не могут быть использованы в качестве обучающих данных. Оценка моделей происходит на 44 задачах, разделенных на три уровня сложности: - **Easy Suite (29 задач)** — для базовой арифметики и статистики; - **Medium Suite (5 задач, 49 вариантов)** — для последовательностей и рассуждения; - **Hard Suite (10 задач, 68 вариантов)** — для NP-полных задач и задач обязательного выполнения. Каждая задача порождает проблемы с комбинаторным пространством вида 10^15 уникальных вариантов, с вычислениями, проверенными через математические доказательства. ## Результаты Мы проверили 101 языковых моделей, в том числе 85 открытых и 16 закрытых, с размерами параметров от 0.5B до 141B и различными схемами квантования. Мы отметили значительные недостатки в рассуждении, особенно с увеличением сложности задач, от полиномиального до экспоненциального уровня. На Hard Suite, модели, такие как Gemini-2.5-pro, Llama-3.3-70B и Qwen2.5-72B, показали средние результаты в 56.38%, 26.91% и 33.60% соответственно. Без использования инструментов, модели, такие как GPT-5, GPT-5-mini и GPT-5-nano, показали снижение до 16.81%, 28.05% и 47.59% соответственно. Результаты могут быть посмотрены на нашем онлайн-лидереборде. ## Значимость BeyondBench может быть применено в разработке и оценке новых ЯМ, а также в сравнении их работы. Он предлагает более честную и точную оценку, так как не подвержен к загрязнению тренировочными данными. Эта новая методика позволяет видеть подробные слабые места моделей, что может привести к новым инновациям в области ИИ. ## Выводы В результате BeyondBench позволяет глубоко оценивать работу ЯМ, предоставляя независимый и отлично подготовленный бенчмарк. Настоящие слабые места моделей, особенно на NP-полных задачах, выявлены в наших исследованиях. Мы планируем расширить BeyondBench, включив более сложные задачи и проверяющие его на новых мо

Abstract

Evaluating language models fairly is becoming harder as static benchmarks available on the internet risk contamination by training data. This makes it unclear whether models are truly reasoning or just recalling answers. In this paper, we introduce BeyondBench, an evaluation framework that avoids this problem by using algorithmic problem generation. Unlike traditional benchmarks that risk contamination from internet-scale training data, BeyondBench creates mathematically grounded problems on the fly, ensuring each test remains fresh and uncontaminated. Our framework covers 44 algorithmic tasks with a total of 117 variations, grouped into three difficulty levels: the Easy Suite (29 tasks) for basic arithmetic and statistics, the Medium Suite (5 tasks, 49 variations) for sequence patterns and reasoning, and the Hard Suite (10 tasks, 68 variations) tackling NP-complete and constraint satisfaction problems. Each task generates problems from a combinatorial space larger than 10^15 unique instances, with solutions verified deterministically by mathematical proofs. We evaluated 101 language models, including 85 open-source and 16 closed-source models, spanning sizes from 0.5B to 141B parameters and multiple quantization schemes. Our results show consistent reasoning deficiencies across model families, with performance degrading sharply as problem complexity increases from polynomial to exponential. In our Hard Suite evaluations, models such as Gemini-2.5-pro, Llama-3.3-70B, and Qwen2.5-72B achieved average accuracies of 56.38%, 26.91%, and 33.60%, respectively. Moreover, we observe that performance drops drastically without tool usage, with GPT-5, GPT-5-mini, and GPT-5-nano showing a decline of 16.81%, 28.05%, and 47.59% accuracy on the hard suite. Our leaderboard is publicly available at https://ctrl-gaurav.github.io/BeyondBench/

Ссылки и действия