CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length, Intrinsic Difficulty, and Distractor Density
2509.18458v1
cs.CL, cs.AI, cs.LG, 68T50 (Primary) 68T07, 68T05, 68T20, 68T27 (Secondary), I.2.7; I.2.6; I.2.4; I.2.8
2025-09-25
Авторы:
Daniel Kaiser, Arnoldo Frigessi, Ali Ramezani-Kebrya, Benjamin Ricaud
Резюме на русском
## Контекст
Одной из основных проблем в развитии машинного знания являются ограничения того, насколько глубоко и адекватно могут рассуждать текущие технологии языковых моделей. Многие существующие бенчмарки для оценки возможностей технологий, таких как Large Language Models (LLMs), не достаточно точно отражают сложности и факторы, влияющие на их результаты. Например, оценка их возможности при работе с длинными контекстами часто не учитывает внутреннюю сложность задачи, препятствий, которые могут возникнуть при оценке, и другие ключевые факторы.
CogniLoad, разработанная командой соавторов, представляет собой новую типичную модель тестирования, основанную на теории когнитивной нагрузки (Cognitive Load Theory, CLT). Она предлагает новый подход к оценке логических навыков LLMs, предоставляя уникальную возможность контролировать важные параметры, такие как внутренняя сложность, препятствия и длина задачи. Это делает CogniLoad незаменимым инструментом для более точного анализа ограничений текущих моделей.
## Метод
CogniLoad генерирует синтетические логические задачи на естественном языке, основываясь на CLT. Она включает в себя три основных части, которые отражают главные критерии воздействия на когнитивную нагрузку. Эти параметры позволяют контролировать внутреннюю сложность ($d$), выделять значимые сигналы от ненужных раздражителей ($\rho$), и визуализировать длину задачи ($N$). Эти параметры позволяют получить набор задач с разными уровнями сложности, что делает их более подходящими для подробного анализа работы LLMs.
CogniLoad генерирует наборы задач, которые могут быть легко масштабированы и повторены, чтобы обеспечить надежные эксперименты. Она предлагает детальную оценку логических моделей, которые работают с текстовыми данными, и позволяет выявить слабые места в их работе с длинными контекстами.
## Результаты
В ходе экспериментов, проведенных с использованием 22 современных логических моделей, было получено четкое понимание их способности решать задачи с разным уровнем сложности. Эксперименты показали, что длина задачи является одним из ключевых факторов ограничения производительности многих моделей. Также были выявлены различные характеристики моделей при работе с разными уровнями внутренней сложности и разными отношениями раздражителей к сигналам.
Например, модели показали У-образное поведение при различных отношениях раздражителей к сигналам, что свидетельствует о том, что некоторые модели могут быть чувствительными к определенным уровням внешних затруднений. Эти результаты дают ясную картину того, как различные модели справляются с раз
Abstract
Current benchmarks for long-context reasoning in Large Language Models (LLMs)
often blur critical factors like intrinsic task complexity, distractor
interference, and task length. To enable more precise failure analysis, we
introduce CogniLoad, a novel synthetic benchmark grounded in Cognitive Load
Theory (CLT). CogniLoad generates natural-language logic puzzles with
independently tunable parameters that reflect CLT's core dimensions: intrinsic
difficulty ($d$) controls intrinsic load; distractor-to-signal ratio ($\rho$)
regulates extraneous load; and task length ($N$) serves as an operational proxy
for conditions demanding germane load. Evaluating 22 SotA reasoning LLMs,
CogniLoad reveals distinct performance sensitivities, identifying task length
as a dominant constraint and uncovering varied tolerances to intrinsic
complexity and U-shaped responses to distractor ratios. By offering systematic,
factorial control over these cognitive load dimensions, CogniLoad provides a
reproducible, scalable, and diagnostically rich tool for dissecting LLM
reasoning limitations and guiding future model development.