Think in Blocks: Adaptive Reasoning from Direct Response to Deep Reasoning

2508.15507v1 cs.AI, cs.LG 2025-08-23
Авторы:

Yekun Zhu, Guang Chen, Chengjun Mao

Резюме на русском

## Контекст Modern AI-driven systems, особенно Large Language Models (LLMs), становятся все более важными для решения сложных задач, включая логическое рассуждение. Однако, существуют проблемы: как LLM может адаптировать свой подход к вопросу в зависимости от его сложности? В настоящее время, многие модели используют "chains-of-thought" (цепочки мыслей), которые позволяют решать задачи, но эта парадигма не всегда эффективна. Работа моделей может быть замедлена слишком длинными цепочками, или, наоборот, может не быть достаточно подробной, что приводит к неточностям. Предлагаемая модель, Think in Blocks, предлагает новый подход для адаптивного рассуждения. Она позволяет модели либо выбрать нулевую сложность (без применения цепочки мыслей), либо применить максимально сложное рассуждение в зависимости от задачи. Этот подход мог бы решить проблему эффективности и точности в рассуждении, становясь универсальным инструментом для разных типов задач. ## Метод Think in Blocks предлагает использовать **block-structured paradigm** (блочную модель), где модель сначала предсказывает число блоков (или шагов), которые будет использовать для решения задачи. Это число - это "reasoning budget" (бюджет рассуждения). Каждый блок - это отдельный шаг в цепочке мыслей, позволяя модели контролировать глубину и сложность своего рассуждения. Тренировка модели происходит в трех этапах: 1. **Supervised Fine-Tuning (Супервизированное Финетюнинг)** - модель учится предсказывать число блоков и генерировать соответствующий ответ. 2. **Reward-guided Direct Preference Optimization (Оптимизация с признаком награды)** - модель оптимизируется для повышения качества решения задач. 3. **Reinforcement Learning (Удовлетворение требований)** - модель модифицируется с использованием градиентного оптимизации, чтобы повысить свою эффективность при работе с задачами разной сложности. Эта архитектура позволяет модели адаптироваться к задаче в реальном времени, гибко контролируя свою сложность и эффективность. ## Результаты В экспериментах, Think in Blocks показала сильный показатель на ряде задач, включая сложные логические задачи. Используя данные из различных наборов, модель продемонстрировала способность адаптироваться к различным уровням сложности, выбирая идеальное число блоков для каждой задачи. Эксперименты показывают, что модель может быстро решать простые задачи без лишнего рассуждения, при этом в сложных случаях она может использовать более длинные цепочки мыслей. Это дает модели высокую точность и эффективность при работе с различными типами задач. ## Значимость Think in Blocks может быть применена в различных областях, где необходимо адаптивное и эффективное рассуждение. Например, в области компьютерного зрения, где моде

Abstract

Large Language Models (LLMs) with chains-of-thought have demonstrated strong performance on an increasing range of tasks, particularly those involving complex logical reasoning. However, excessively long chains can lead to overthinking, causing computational waste and slower responses. This raises a question: can LLMs dynamically adjust the length of their reasoning processes based on task complexity? To address this, we propose the Think in Blocks framework, which enables adaptive reasoning-from zero to deep reasoning-by partitioning the reasoning process into a tunable number of blocks. Our main contributions are: (1) Establishing an explicit block-structured paradigm in which the model first predicts an integer reasoning budget-the number of blocks-and then partitions its reasoning accordingly; (2) Training an adaptive model through a three-stage pipeline-Supervised Fine-Tuning, reward-guided Direct Preference Optimization, and Reinforcement Learning-that adjusts its reasoning depth to problem difficulty; (3) Exploiting the explicit block count to dynamically control reasoning depth at inference time, allowing flexible adjustment of chain-of-thought length during deployment.

Ссылки и действия