Detecting and Characterizing Planning in Language Models

2508.18098v1 cs.CL, cs.LG 2025-08-27
Авторы:

Jatin Nainani, Sankaran Vaidyanathan, Connor Watts, Andre N. Assis, Alice Rigg

Резюме на русском

## Контекст Современные большие языковые модели (LLMs) показали впечатляющие результаты в решении многоэтапных задач, требующих логического и резолюционного мышления. Однако поведение этих моделей, особенно техники, которыми они пользуются для достижения таких результатов, до сих пор остается неполностью понятой. Одним из возможных поведений является **планирование** — выбор будущей целевой токенов заранее и последовательное выработки токенов, которые приводят к достижению этой цели. Несмотря на появление работ, утверждающих, что некоторые LLMs могут планировать, некоторые из них ограничиваются фиксированным планированием или фокусируются на одной задаче или домене. Наша мотивация заключается в том, чтобы разработать методы для логического и фактического различения планирования от импровизации в разных моделях и задачах. ## Метод Мы предлагаем **операционные критерии** для распознавания планирования, которые основываются на сравнении поведения моделей в задачах сразу на нескольких моделях и задачах. Эти критерии позволяют выявить не только планирование, но и его уровень и степень. Наш **автоматизированный анализ** включает в себя модели **Gemma-2-2B (base и instruction-tuned)** на подготовленных данных из MBPP (Multi-Benchmark Programming Problem) и подход Claude 3.5 Haiku к тексту в поэтическом формате. Мы разработали подход, который дозволяет сравнить поведение между моделями и задачами, определяя явные различия в их поведении. ## Результаты Мы исследуем два основных теста: **MBPP** и задачу **Claude 3.5 Haiku**. На MBPP мы установили, что Gemma-2-2B может планировать, но это не относится к Haiku. Наоборот, Haiku решает поэтическую задачу с использованием импровизации, в то время как Gemma-2-2B может переключаться между планированием и импровизацией в разных задачах, даже в рамках одного запуска. Мы также показали, что **инструкционное тренирование** модели Gemma-2-2B улучшает существующие планирования, но не создает их с нуля. В частности, базовая модель Gemma-2-2B уже содержит определенные планировательные поведения, но инструкционное тренирование позволяет оптимизировать их. ## Значимость Наши находки имеют значительное значение для развития теоретических и практических аспектов LLMs. В частности: - **Приложения**: Методы, разработанные в рамках наших исследований, могут быть использованы для тестирования и моделирования логических систем в широком спектре задач, включая программирование и творческое письменство. - **Преимущества**: Наш подход обеспечивает **прозрачность** в поведении моделей и достигает **корректности** в определении планирования. - **Потенциальное влияние**: Это может прив

Abstract

Modern large language models (LLMs) have demonstrated impressive performance across a wide range of multi-step reasoning tasks. Recent work suggests that LLMs may perform planning - selecting a future target token in advance and generating intermediate tokens that lead towards it - rather than merely improvising one token at a time. However, existing studies assume fixed planning horizons and often focus on single prompts or narrow domains. To distinguish planning from improvisation across models and tasks, we present formal and causally grounded criteria for detecting planning and operationalize them as a semi-automated annotation pipeline. We apply this pipeline to both base and instruction-tuned Gemma-2-2B models on the MBPP code generation benchmark and a poem generation task where Claude 3.5 Haiku was previously shown to plan. Our findings show that planning is not universal: unlike Haiku, Gemma-2-2B solves the same poem generation task through improvisation, and on MBPP it switches between planning and improvisation across similar tasks and even successive token predictions. We further show that instruction tuning refines existing planning behaviors in the base model rather than creating them from scratch. Together, these studies provide a reproducible and scalable foundation for mechanistic studies of planning in LLMs.

Ссылки и действия