CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length, Intrinsic Difficulty, and Distractor Density
2509.18458v2
cs.CL, cs.AI, cs.LG, 68T50 (Primary) 68T07, 68T05, 68T20, 68T27 (Secondary), I.2.7; I.2.6; I.2.4; I.2.8
2025-09-26
Авторы:
Daniel Kaiser, Arnoldo Frigessi, Ali Ramezani-Kebrya, Benjamin Ricaud
Резюме на русском
## Контекст
В последнее время стали появляться подробные исследования по методам, используемым для оценки уровня логических навыков и рационального мышления у людей. Одним из важных аспектов таких исследований является создание бенчмарков, которые могут наглядно продемонстрировать возможности и ограничения широко известных моделей глубокого обучения. Одним из таких бенчмарков является CogniLoad, который предлагает решение для проблемы оценки логических навыков с помощью различных методов. Одним из основных мотивов для разработки такого бенчмарка является необходимость определить точку сбоя моделей глубокого обучения, чтобы улучшить их точность и глубину анализа.
## Метод
CogniLoad — это новый синтетический бенчмарк, который основывается на теории интеллектуальной нагрузки (Cognitive Load Theory, CLT). Он генерирует естественно-языковые логические задачки, содержащие возможность индивидуального настройки параметров, связанных с теорией CLT. Эти параметры включают в себя: $d$ — это интринсическая нагрузка, которая отражает сложность задачи; $\rho$ — это степень вмешательства внешних факторов в процесс решения задачи; и $N$ — это длина задачи, которая используется для измерения условий, требующих развития герменной нагрузки. Этот подход позволяет тщательно контролировать все основные аспекты, связанные с интеллектуальной нагрузкой, и предлагает широкий спектр возможностей для детального анализа.
## Результаты
В ходе исследований были проанализированы 22 современных модели глубокого обучения, использующих естественный язык для рациональных задач. Отчеты показали, что CogniLoad позволяет выявить статистически значимые различия в производительности моделей, определяя, что длина задачи является основным ограничением для моделей. Кроме того, был выявлен U-образный закон отклика на различные уровни вмешательства внешних факторов, а также выявлена граница того, насколько модель может справиться с различными уровнями интринсической сложности задач.
## Значимость
CogniLoad предлагает широкие возможности для разработки моделей глубокого обучения, особенно в сфере логических задач. Он может быть использован для точного изучения ограничений моделей, а также для выявления трудностей, которые могут возникать при решении задач с высокой интринсической сложностью или большим количеством внешних факторов. Этот бенчмарк также может быть применен в области разработки инструментов для улучшения моделей, которые будут справляться с более сложными задачами, и в оценке их точности.
## Выводы
CogniLoad доказал свою эффективность в оценке того, насколько хорошо модели глубокого обучения сп
Abstract
Current benchmarks for long-context reasoning in Large Language Models (LLMs)
often blur critical factors like intrinsic task complexity, distractor
interference, and task length. To enable more precise failure analysis, we
introduce CogniLoad, a novel synthetic benchmark grounded in Cognitive Load
Theory (CLT). CogniLoad generates natural-language logic puzzles with
independently tunable parameters that reflect CLT's core dimensions: intrinsic
difficulty ($d$) controls intrinsic load; distractor-to-signal ratio ($\rho$)
regulates extraneous load; and task length ($N$) serves as an operational proxy
for conditions demanding germane load. Evaluating 22 SotA reasoning LLMs,
CogniLoad reveals distinct performance sensitivities, identifying task length
as a dominant constraint and uncovering varied tolerances to intrinsic
complexity and U-shaped responses to distractor ratios. By offering systematic,
factorial control over these cognitive load dimensions, CogniLoad provides a
reproducible, scalable, and diagnostically rich tool for dissecting LLM
reasoning limitations and guiding future model development.