Explore-Execute Chain: Towards an Efficient Structured Reasoning Paradigm
2509.23946v2
cs.LG, cs.AI, cs.CL, stat.ML
2025-10-01
Авторы:
Kaisen Yang, Lixuan He, Rushi Shah, Kaicheng Yang, Qinwei Ma, Dianbo Liu, Alex Lamb
Резюме на русском
#### Контекст
Структурированное рассуждение — одна из ключевых задач в области технологий искусственного интеллекта, направленных на решение сложных задач, требующих логического и стратегического подхода. На сегодняшний день, существующие модели рассуждений, такие как Chain-of-Thought (CoT) и его разновидности, достигли определенных успехов. Однако, эти модели страдают от неэффективности вычислений, ограниченного рассмотрения возможных разумами и недостаточной транспарентности. Эти проблемы являются результатом того, что высокоуровневая стратегия и шаг-по-шагное выполнение смешаны в одной архитектуре. Для решения этих проблем, мы предлагаем $E^2C$ (Explore-Execute Chain) — новую модель, которая разделяет рассуждение на две отдельных фазы: эксплоре (эксплорейшн) и выполнение (экзекушн).
#### Метод
Методология $E^2C$ предлагает декомпозировать процесс рассуждений на два этапа: эксплоре и эксукшн. В первой фазе, $E^2C$ использует **Stochastic Exploration**, которая генерирует монолитные и краткие планы. Эти планы затем используются на этапе выполнения, где детерминированный алгоритм выполняет шаги, определяемые планом. Для обучения, мы применяем **Supervised Fine-Tuning (SFT)** с уникальным алгоритмом для строгого соблюдения планов. Далее, мы используем **Reinforcement Learning (RL)**, чтобы усилить информативность эксплоре и точность выполнения. В результате, $E^2C$ позволяет эффективно использовать ресурсы, делая рассуждение более транспаренным и эффективным.
#### Результаты
Мы провели эксперименты с помощью данных из AIME'2024, где $E^2C$ показал значительные улучшения в производительности. Например, в тестовой стадии, $E^2C$ Test Time Scaling достиг 58.1% точности, используя менее 10% токенов, в сравнении с другими методами (например, Forest-of-Thought). Благодаря EF-SFT (Exploration-Focused SFT), мы достигли до 14.5% выше точности на медицинских бенчмарках, чем стандартный SFT, при использовании лишь 3.5% токенов. Эти результаты демонстрируют высокую эффективность, сильное общезначимость и повышенную транспарентность $E^2C$.
#### Значимость
Наши результаты открывают новые возможности в области структурированного рассуждения, особенно в задачах, требующих высокого уровня транспарентности и эффективности. $E^2C$ может быть применен в различных областях, включая медицину, финансы и робототехнику. Преимущества $E^2C$ заключаются в снижении самоссогласованности, повышение точности и эффективности рассуждений. Это модель может значительно влиять на развитие ИИ в сложных интеллек
Abstract
Chain-of-Thought (CoT) and its variants have markedly advanced the reasoning
abilities of Large Language Models (LLMs), yet their monolithic and
auto-regressive architecture inherently conflates high-level strategic planning
with low-level step-by-step execution, leading to computational inefficiency,
limited exploration of reasoning paths, and reduced interpretability. To
overcome these issues, we propose the Explore-Execute Chain ($E^2C$), a
structured reasoning framework that decouples reasoning into two distinct
phases: an exploratory phase that stochastically generates succinct high-level
plans, followed by an execution phase that deterministically carries out the
chosen plan. Our approach incorporates a two-stage training methodology, which
combines Supervised Fine-Tuning (SFT) - augmented by a novel data generation
algorithm enforcing strict plan adherence - with a subsequent Reinforcement
Learning (RL) stage that capitalizes on the informativeness of exploration and
reinforces the determinism of execution. This decomposition enables an
efficient test-time scaling strategy: on AIME'2024, $E^2C$ Test Time Scaling
reaches 58.1% accuracy using <10% of the decoding tokens required by comparable
methods (e.g., Forest-of-Thought), sharply cutting self-consistency overhead.
For cross-domain adaptation, our Exploration-Focused SFT (EF-SFT) fine-tunes
with only 3.5% of the tokens used by standard SFT yet yields up to 14.5% higher
accuracy than standard SFT on medical benchmarks, delivering state-of-the-art
performance, strong generalization, and greater interpretability by separating
planning from execution. The code and pre-trained models for the project are
available at: https://github.com/yks23/Explore-Execute-Chain.git