Explore-Execute Chain: Towards an Efficient Structured Reasoning Paradigm

2509.23946v2 cs.LG, cs.AI, cs.CL, stat.ML 2025-10-01

Авторы:

Kaisen Yang, Lixuan He, Rushi Shah, Kaicheng Yang, Qinwei Ma, Dianbo Liu, Alex Lamb

Резюме на русском

#### Контекст Структурированное рассуждение — одна из ключевых задач в области технологий искусственного интеллекта, направленных на решение сложных задач, требующих логического и стратегического подхода. На сегодняшний день, существующие модели рассуждений, такие как Chain-of-Thought (CoT) и его разновидности, достигли определенных успехов. Однако, эти модели страдают от неэффективности вычислений, ограниченного рассмотрения возможных разумами и недостаточной транспарентности. Эти проблемы являются результатом того, что высокоуровневая стратегия и шаг-по-шагное выполнение смешаны в одной архитектуре. Для решения этих проблем, мы предлагаем $E^2C$ (Explore-Execute Chain) — новую модель, которая разделяет рассуждение на две отдельных фазы: эксплоре (эксплорейшн) и выполнение (экзекушн). #### Метод Методология $E^2C$ предлагает декомпозировать процесс рассуждений на два этапа: эксплоре и эксукшн. В первой фазе, $E^2C$ использует **Stochastic Exploration**, которая генерирует монолитные и краткие планы. Эти планы затем используются на этапе выполнения, где детерминированный алгоритм выполняет шаги, определяемые планом. Для обучения, мы применяем **Supervised Fine-Tuning (SFT)** с уникальным алгоритмом для строгого соблюдения планов. Далее, мы используем **Reinforcement Learning (RL)**, чтобы усилить информативность эксплоре и точность выполнения. В результате, $E^2C$ позволяет эффективно использовать ресурсы, делая рассуждение более транспаренным и эффективным. #### Результаты Мы провели эксперименты с помощью данных из AIME'2024, где $E^2C$ показал значительные улучшения в производительности. Например, в тестовой стадии, $E^2C$ Test Time Scaling достиг 58.1% точности, используя менее 10% токенов, в сравнении с другими методами (например, Forest-of-Thought). Благодаря EF-SFT (Exploration-Focused SFT), мы достигли до 14.5% выше точности на медицинских бенчмарках, чем стандартный SFT, при использовании лишь 3.5% токенов. Эти результаты демонстрируют высокую эффективность, сильное общезначимость и повышенную транспарентность $E^2C$. #### Значимость Наши результаты открывают новые возможности в области структурированного рассуждения, особенно в задачах, требующих высокого уровня транспарентности и эффективности. $E^2C$ может быть применен в различных областях, включая медицину, финансы и робототехнику. Преимущества $E^2C$ заключаются в снижении самоссогласованности, повышение точности и эффективности рассуждений. Это модель может значительно влиять на развитие ИИ в сложных интеллек

Abstract

Chain-of-Thought (CoT) and its variants have markedly advanced the reasoning abilities of Large Language Models (LLMs), yet their monolithic and auto-regressive architecture inherently conflates high-level strategic planning with low-level step-by-step execution, leading to computational inefficiency, limited exploration of reasoning paths, and reduced interpretability. To overcome these issues, we propose the Explore-Execute Chain ($E^2C$), a structured reasoning framework that decouples reasoning into two distinct phases: an exploratory phase that stochastically generates succinct high-level plans, followed by an execution phase that deterministically carries out the chosen plan. Our approach incorporates a two-stage training methodology, which combines Supervised Fine-Tuning (SFT) - augmented by a novel data generation algorithm enforcing strict plan adherence - with a subsequent Reinforcement Learning (RL) stage that capitalizes on the informativeness of exploration and reinforces the determinism of execution. This decomposition enables an efficient test-time scaling strategy: on AIME'2024, $E^2C$ Test Time Scaling reaches 58.1% accuracy using <10% of the decoding tokens required by comparable methods (e.g., Forest-of-Thought), sharply cutting self-consistency overhead. For cross-domain adaptation, our Exploration-Focused SFT (EF-SFT) fine-tunes with only 3.5% of the tokens used by standard SFT yet yields up to 14.5% higher accuracy than standard SFT on medical benchmarks, delivering state-of-the-art performance, strong generalization, and greater interpretability by separating planning from execution. The code and pre-trained models for the project are available at: https://github.com/yks23/Explore-Execute-Chain.git

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Explore-Execute Chain: Towards an Efficient Structured Reasoning Paradigm

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

LLM Output Drift: Cross-Provider Validation & Mitigation for Financial Workflows

Towards Scalable Meta-Learning of near-optimal Interpretable Models via Syntheti...

Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Ste...

Deep sequence models tend to memorize geometrically; it is unclear why

Sequences of Logits Reveal the Low Rank Structure of Language Models

Навигация