CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length, Intrinsic Difficulty, and Distractor Density

2509.18458v1 cs.CL, cs.AI, cs.LG, 68T50 (Primary) 68T07, 68T05, 68T20, 68T27 (Secondary), I.2.7; I.2.6; I.2.4; I.2.8 2025-09-25
Авторы:

Daniel Kaiser, Arnoldo Frigessi, Ali Ramezani-Kebrya, Benjamin Ricaud

Резюме на русском

## Контекст Одной из основных проблем в развитии машинного знания являются ограничения того, насколько глубоко и адекватно могут рассуждать текущие технологии языковых моделей. Многие существующие бенчмарки для оценки возможностей технологий, таких как Large Language Models (LLMs), не достаточно точно отражают сложности и факторы, влияющие на их результаты. Например, оценка их возможности при работе с длинными контекстами часто не учитывает внутреннюю сложность задачи, препятствий, которые могут возникнуть при оценке, и другие ключевые факторы. CogniLoad, разработанная командой соавторов, представляет собой новую типичную модель тестирования, основанную на теории когнитивной нагрузки (Cognitive Load Theory, CLT). Она предлагает новый подход к оценке логических навыков LLMs, предоставляя уникальную возможность контролировать важные параметры, такие как внутренняя сложность, препятствия и длина задачи. Это делает CogniLoad незаменимым инструментом для более точного анализа ограничений текущих моделей. ## Метод CogniLoad генерирует синтетические логические задачи на естественном языке, основываясь на CLT. Она включает в себя три основных части, которые отражают главные критерии воздействия на когнитивную нагрузку. Эти параметры позволяют контролировать внутреннюю сложность ($d$), выделять значимые сигналы от ненужных раздражителей ($\rho$), и визуализировать длину задачи ($N$). Эти параметры позволяют получить набор задач с разными уровнями сложности, что делает их более подходящими для подробного анализа работы LLMs. CogniLoad генерирует наборы задач, которые могут быть легко масштабированы и повторены, чтобы обеспечить надежные эксперименты. Она предлагает детальную оценку логических моделей, которые работают с текстовыми данными, и позволяет выявить слабые места в их работе с длинными контекстами. ## Результаты В ходе экспериментов, проведенных с использованием 22 современных логических моделей, было получено четкое понимание их способности решать задачи с разным уровнем сложности. Эксперименты показали, что длина задачи является одним из ключевых факторов ограничения производительности многих моделей. Также были выявлены различные характеристики моделей при работе с разными уровнями внутренней сложности и разными отношениями раздражителей к сигналам. Например, модели показали У-образное поведение при различных отношениях раздражителей к сигналам, что свидетельствует о том, что некоторые модели могут быть чувствительными к определенным уровням внешних затруднений. Эти результаты дают ясную картину того, как различные модели справляются с раз

Abstract

Current benchmarks for long-context reasoning in Large Language Models (LLMs) often blur critical factors like intrinsic task complexity, distractor interference, and task length. To enable more precise failure analysis, we introduce CogniLoad, a novel synthetic benchmark grounded in Cognitive Load Theory (CLT). CogniLoad generates natural-language logic puzzles with independently tunable parameters that reflect CLT's core dimensions: intrinsic difficulty ($d$) controls intrinsic load; distractor-to-signal ratio ($\rho$) regulates extraneous load; and task length ($N$) serves as an operational proxy for conditions demanding germane load. Evaluating 22 SotA reasoning LLMs, CogniLoad reveals distinct performance sensitivities, identifying task length as a dominant constraint and uncovering varied tolerances to intrinsic complexity and U-shaped responses to distractor ratios. By offering systematic, factorial control over these cognitive load dimensions, CogniLoad provides a reproducible, scalable, and diagnostically rich tool for dissecting LLM reasoning limitations and guiding future model development.

Ссылки и действия

Связанные статьи

CogniLoad: A Synthetic Natural Language Reasoning Benchmark With Tunable Length,...

## Контекст В последнее время стали появляться подробные исследования по методам, используемым для оценки уровня логиче...

2025-09-26