Cognitive Load Limits in Large Language Models: Benchmarking Multi-Hop Reasoning
2509.19517v1
cs.AI, cs.CL, cs.LG, I.2.7; I.2.6
2025-09-26
Авторы:
Sai Teja Reddy Adapala
Резюме на русском
## Контекст
Проблема стохастической природы вывода текста существующих Лангид (LLM, Large Language Models), даже при использовании очень высококачественных данных, является одной из ключевых проблем в области ИИ. Хотя Лангиды показали свою эффективность в многих задачах, их работа под влиянием высокой нагрузки на кеш-мент (Context Saturation) и переключениях задач (Attentional Residue) остается недостаточно раскрытой. Особенно это актуально при работе с задачами многошагового рассуждения (multi-hop reasoning). Этот рабочий процесс подчеркивает необходимость разработки более тщательных методов оценки и моделирования выполняемых задач Лангидов.
## Метод
В данной работе рассматривается новая методология, основанная на формальной теории компьютерной нагрузки (computational cognitive load), которая позволяет определить уровень выполнения задач в условиях сильной нагрузки. Методом бенчмаркинга (benchmarking) использовалась интерактивная оценка (Interleaved Cognitive Evaluation, ICE), которая позволяет по одному шагу систематически увеличивать нагрузку на модель, используя различные варианты многошаговых задач. Это позволяет оценить точность работы моделей при возрастающей степени нагрузки. Для экспериментов использовались данные из различных источников, включая стандартные тестовые наборы, а также новые адаптированные наборы данных, созданные специально для этого исследования.
## Результаты
На основе экспериментов была проведена систематическая оценка того, как различные Лангиды справляются с задачами многошагового рассуждения, при увеличивающейся нагрузке. Были проанализированы результаты работы пяти моделей, включая Лангиды с открытым исходным кодом и сильно улучшенные модели с лучшим обучением. Наиболее высококачественные модели с повышенным общим ресурсом (например, Gemini-2.0-Flash-001), показали более высокую устойчивость к нагрузке, однако и у них были заметные погрешности при высоком уровне контекстной нагрузки. Более слабые модели, такие как Llama-3-8B-Instruct и Mistral-7B-Instruct-v0.2, показали значительные проблемы в производительности, даже при минимальной нагрузке.
## Значимость
Результаты экспериментов демонстрируют, что Лангиды, хотя и могут проявлять высокую точность в статичных задачах, в более сложных задачах требуют большего внимания к учету когнитивной нагрузки. Это важно для адаптации моделей к реальному миру, где задачи часто требуют выполнения в условиях высокой нагрузки. Эти результаты могут быть применены в развитии более надежных методов тестирования и моделирования выполняемых задач. Также, полученные результаты могут способствовать развитию новых архитектур Лангидов, которые будут более усто
Abstract
The scaling of Large Language Models (LLMs) has exposed a critical gap
between their performance on static benchmarks and their fragility in dynamic,
information-rich environments. While models excel at isolated tasks, the
computational limits that govern their reasoning under cognitive load remain
poorly understood. In this work, we introduce a formal theory of computational
cognitive load, positing that extraneous, task-irrelevant information (Context
Saturation) and interference from task-switching (Attentional Residue) are key
mechanisms that degrade performance. We designed the Interleaved Cognitive
Evaluation (ICE), a deconfounded benchmark to systematically manipulate these
load factors on challenging multi-hop reasoning tasks. A comprehensive study (N
= 10 replications per item across 200 questions) revealed significant
performance variations across five instruction-tuned models. Smaller
open-source architectures (Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.2)
exhibited baseline brittleness, achieving 0% accuracy (SEM = 0.0) across all
conditions, including clean controls, on this high-intrinsic-load task. In
contrast, Gemini-2.0-Flash-001 showed partial resilience, achieving 85%
accuracy in control conditions, with a statistically significant degradation
under context saturation ($\beta = -0.003$ per % load, $p < 0.001$). These
findings provide preliminary evidence that cognitive load is a key contributor
to reasoning failures, supporting theories of hallucination-as-guessing under
uncertainty. We conclude that dynamic, cognitive-aware stress testing, as
exemplified by the ICE benchmark, is essential for evaluating the true
resilience and safety of advanced AI systems.