seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs
2509.16866v1
cs.AI, cs.CL, cs.LG
2025-09-24
Авторы:
Mohammad Ramezanali, Mo Vazifeh, Paolo Santi
Резюме на русском
## Контекст
Область исследования связана с проблематикой ограничений последовательного рассуждения (sequential reasoning) в больших языковых моделях (LLMs). Несмотря на высокую точность LLMs в многих задачах, их последовательное рассуждение часто ограничено. Это приводит к необходимости разработки систематических тестов, которые позволяют проверить эти ограничения и изучить их причины. Изучение последовательного рассуждения важно для улучшения LLMs в сферах, где требуется сложная логическая интерпретация и координация последовательных действий. Кроме того, понимание границ LLMs помогает сформировать более реалистичные ожидания от их применения в реальном мире.
## Метод
seqBench является параметризированной системой для оценки последовательного рассуждения в LLMs. Он позволяет контролировать несколько ключевых комплексностных аспектов задачи:
1. **Логическая глубина (logical depth)** — количество последовательных действий, необходимых для ее выполнения.
2. **Шаги возврата (backtracking steps)** — число возвратов к предыдущим состояниям для удовлетворения заданных условий.
3. **Шумность (noise ratio)** — отношение полезных и значимых фактов к ненужным или зашумленным входным данным.
Эти параметры позволяют генерировать задачи с разными уровнями сложности, обеспечивая прецизионный контроль над условиями экспериментов. seqBench использует генеративные модели для создания задач, которые затем проверяются на готовых LLMs. Метрики оценки включают точность решения задач и время реагирования модели.
## Результаты
В ходе экспериментов LLMs показали систематические неудачи на задачах с высоким уровнем логической глубины или широким диапазоном возможных шагов возврата. Даже модели с высокой точностью столкнулись с фактическим выходом за границы своих возможностей при увеличении логической глубины задачи. Это особенно заметно при повышении шумности данных, когда модели становятся более чувствительными к неточности входных данных. Результаты показали, что даже самые мощные модели сегодня сталкиваются с трудностями в последовательном рассуждении, несмотря на успех в большинстве более простых задач.
## Значимость
Результаты seqBench могут быть применены в различных областях, где последовательное рассуждение является ключевым компонентом решения задач, таких как робототехника, управление процессами и системы рекомендаций. Этот подход позволяет выявить слабые места в LLM-моделях и развить методы, которые могут улучшить их поведение в ситуациях, требующих логического управления. Кроме того, полученные данные могут способствовать более точной оценке роста моделей с временем, необходимой для построения боле
Abstract
We introduce seqBench, a parametrized benchmark for probing sequential
reasoning limits in Large Language Models (LLMs) through precise,
multi-dimensional control over several key complexity dimensions. seqBench
allows systematic variation of (1) the logical depth, defined as the number of
sequential actions required to solve the task; (2) the number of backtracking
steps along the optimal path, quantifying how often the agent must revisit
prior states to satisfy deferred preconditions (e.g., retrieving a key after
encountering a locked door); and (3) the noise ratio, defined as the ratio
between supporting and distracting facts about the environment. Our evaluations
on state-of-the-art LLMs reveal a universal failure pattern: accuracy collapses
exponentially beyond a model-specific logical depth. Unlike existing
benchmarks, seqBench's fine-grained control facilitates targeted analyses of
these reasoning failures, illuminating universal scaling laws and statistical
limits, as detailed in this paper alongside its generation methodology and
evaluation metrics. We find that even top-performing models systematically fail
on seqBench's structured reasoning tasks despite minimal search complexity,
underscoring key limitations in their commonsense reasoning capabilities.
Designed for future evolution to keep pace with advancing models, the seqBench
datasets are publicly released to spur deeper scientific inquiry into LLM
reasoning, aiming to establish a clearer understanding of their true potential
and current boundaries for robust real-world application.
Ссылки и действия
Дополнительные ресурсы: