CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length, Intrinsic Difficulty, and Distractor Density

2509.18458v2 cs.CL, cs.AI, cs.LG, 68T50 (Primary) 68T07, 68T05, 68T20, 68T27 (Secondary), I.2.7; I.2.6; I.2.4; I.2.8 2025-09-26
Авторы:

Daniel Kaiser, Arnoldo Frigessi, Ali Ramezani-Kebrya, Benjamin Ricaud

Резюме на русском

## Контекст В последнее время стали появляться подробные исследования по методам, используемым для оценки уровня логических навыков и рационального мышления у людей. Одним из важных аспектов таких исследований является создание бенчмарков, которые могут наглядно продемонстрировать возможности и ограничения широко известных моделей глубокого обучения. Одним из таких бенчмарков является CogniLoad, который предлагает решение для проблемы оценки логических навыков с помощью различных методов. Одним из основных мотивов для разработки такого бенчмарка является необходимость определить точку сбоя моделей глубокого обучения, чтобы улучшить их точность и глубину анализа. ## Метод CogniLoad — это новый синтетический бенчмарк, который основывается на теории интеллектуальной нагрузки (Cognitive Load Theory, CLT). Он генерирует естественно-языковые логические задачки, содержащие возможность индивидуального настройки параметров, связанных с теорией CLT. Эти параметры включают в себя: $d$ — это интринсическая нагрузка, которая отражает сложность задачи; $\rho$ — это степень вмешательства внешних факторов в процесс решения задачи; и $N$ — это длина задачи, которая используется для измерения условий, требующих развития герменной нагрузки. Этот подход позволяет тщательно контролировать все основные аспекты, связанные с интеллектуальной нагрузкой, и предлагает широкий спектр возможностей для детального анализа. ## Результаты В ходе исследований были проанализированы 22 современных модели глубокого обучения, использующих естественный язык для рациональных задач. Отчеты показали, что CogniLoad позволяет выявить статистически значимые различия в производительности моделей, определяя, что длина задачи является основным ограничением для моделей. Кроме того, был выявлен U-образный закон отклика на различные уровни вмешательства внешних факторов, а также выявлена граница того, насколько модель может справиться с различными уровнями интринсической сложности задач. ## Значимость CogniLoad предлагает широкие возможности для разработки моделей глубокого обучения, особенно в сфере логических задач. Он может быть использован для точного изучения ограничений моделей, а также для выявления трудностей, которые могут возникать при решении задач с высокой интринсической сложностью или большим количеством внешних факторов. Этот бенчмарк также может быть применен в области разработки инструментов для улучшения моделей, которые будут справляться с более сложными задачами, и в оценке их точности. ## Выводы CogniLoad доказал свою эффективность в оценке того, насколько хорошо модели глубокого обучения сп

Abstract

Current benchmarks for long-context reasoning in Large Language Models (LLMs) often blur critical factors like intrinsic task complexity, distractor interference, and task length. To enable more precise failure analysis, we introduce CogniLoad, a novel synthetic benchmark grounded in Cognitive Load Theory (CLT). CogniLoad generates natural-language logic puzzles with independently tunable parameters that reflect CLT's core dimensions: intrinsic difficulty ($d$) controls intrinsic load; distractor-to-signal ratio ($\rho$) regulates extraneous load; and task length ($N$) serves as an operational proxy for conditions demanding germane load. Evaluating 22 SotA reasoning LLMs, CogniLoad reveals distinct performance sensitivities, identifying task length as a dominant constraint and uncovering varied tolerances to intrinsic complexity and U-shaped responses to distractor ratios. By offering systematic, factorial control over these cognitive load dimensions, CogniLoad provides a reproducible, scalable, and diagnostically rich tool for dissecting LLM reasoning limitations and guiding future model development.

Ссылки и действия

Связанные статьи

CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length,...

## Контекст Одной из основных проблем в развитии машинного знания являются ограничения того, насколько глубоко и адекват...

2025-09-25