seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs

2509.16866v1 cs.AI, cs.CL, cs.LG 2025-09-24
Авторы:

Mohammad Ramezanali, Mo Vazifeh, Paolo Santi

Резюме на русском

## Контекст Область исследования связана с проблематикой ограничений последовательного рассуждения (sequential reasoning) в больших языковых моделях (LLMs). Несмотря на высокую точность LLMs в многих задачах, их последовательное рассуждение часто ограничено. Это приводит к необходимости разработки систематических тестов, которые позволяют проверить эти ограничения и изучить их причины. Изучение последовательного рассуждения важно для улучшения LLMs в сферах, где требуется сложная логическая интерпретация и координация последовательных действий. Кроме того, понимание границ LLMs помогает сформировать более реалистичные ожидания от их применения в реальном мире. ## Метод seqBench является параметризированной системой для оценки последовательного рассуждения в LLMs. Он позволяет контролировать несколько ключевых комплексностных аспектов задачи: 1. **Логическая глубина (logical depth)** — количество последовательных действий, необходимых для ее выполнения. 2. **Шаги возврата (backtracking steps)** — число возвратов к предыдущим состояниям для удовлетворения заданных условий. 3. **Шумность (noise ratio)** — отношение полезных и значимых фактов к ненужным или зашумленным входным данным. Эти параметры позволяют генерировать задачи с разными уровнями сложности, обеспечивая прецизионный контроль над условиями экспериментов. seqBench использует генеративные модели для создания задач, которые затем проверяются на готовых LLMs. Метрики оценки включают точность решения задач и время реагирования модели. ## Результаты В ходе экспериментов LLMs показали систематические неудачи на задачах с высоким уровнем логической глубины или широким диапазоном возможных шагов возврата. Даже модели с высокой точностью столкнулись с фактическим выходом за границы своих возможностей при увеличении логической глубины задачи. Это особенно заметно при повышении шумности данных, когда модели становятся более чувствительными к неточности входных данных. Результаты показали, что даже самые мощные модели сегодня сталкиваются с трудностями в последовательном рассуждении, несмотря на успех в большинстве более простых задач. ## Значимость Результаты seqBench могут быть применены в различных областях, где последовательное рассуждение является ключевым компонентом решения задач, таких как робототехника, управление процессами и системы рекомендаций. Этот подход позволяет выявить слабые места в LLM-моделях и развить методы, которые могут улучшить их поведение в ситуациях, требующих логического управления. Кроме того, полученные данные могут способствовать более точной оценке роста моделей с временем, необходимой для построения боле

Abstract

We introduce seqBench, a parametrized benchmark for probing sequential reasoning limits in Large Language Models (LLMs) through precise, multi-dimensional control over several key complexity dimensions. seqBench allows systematic variation of (1) the logical depth, defined as the number of sequential actions required to solve the task; (2) the number of backtracking steps along the optimal path, quantifying how often the agent must revisit prior states to satisfy deferred preconditions (e.g., retrieving a key after encountering a locked door); and (3) the noise ratio, defined as the ratio between supporting and distracting facts about the environment. Our evaluations on state-of-the-art LLMs reveal a universal failure pattern: accuracy collapses exponentially beyond a model-specific logical depth. Unlike existing benchmarks, seqBench's fine-grained control facilitates targeted analyses of these reasoning failures, illuminating universal scaling laws and statistical limits, as detailed in this paper alongside its generation methodology and evaluation metrics. We find that even top-performing models systematically fail on seqBench's structured reasoning tasks despite minimal search complexity, underscoring key limitations in their commonsense reasoning capabilities. Designed for future evolution to keep pace with advancing models, the seqBench datasets are publicly released to spur deeper scientific inquiry into LLM reasoning, aiming to establish a clearer understanding of their true potential and current boundaries for robust real-world application.

Ссылки и действия