Compressing Chain-of-Thought in LLMs via Step Entropy
2508.03346v1
cs.AI
2025-08-06
Авторы:
Zeju Li, Jianyuan Zhong, Ziyang Zheng, Xiangyu Wen, Zhijian Xu, Yingying Cheng, Fan Zhang, Qiang Xu
Резюме на русском
**Резюме**
Large Language Models (LLMs), основанные на Chain-of-Thought (CoT) prompting, эффективны в решении сложных задач, но генерируют громоздкие и избыточные последовательности рассуждений, что увеличивает затраты на вычисления и снижает эффективность. Для решения этой проблемы был предложен метод CoT-сжатия на основе понятия шагового энтропийного сжатия. Энтропия позволяет определить и устранить избыточные шаги рассуждений, сохраняя точность финального ответа. Эксперименты на математических бенчмарках показали, что 80% низкоэнтропийных шагов можно удалить без существенного ущерба для точности, в отличие от случайного или высокоэнтропийного удаления, которое сильно понижает производительность.
Кроме того, была разработана двухэтапная стратегия обучения, которая включает Supervised Fine-Tuning (SFT) и Group Relative Policy Optimization (GRPO) для обучения LLMs генерировать сжатые CoT во время вывода. Этот подход значительно повышает эффективность вывода LLMs, сохраняя при этом высокую точность.
Abstract
Large Language Models (LLMs) using Chain-of-Thought (CoT) prompting excel at
complex reasoning but generate verbose thought processes with considerable
redundancy, leading to increased inference costs and reduced efficiency. We
introduce a novel CoT compression framework based on step entropy, a metric
that quantifies the informational contribution of individual reasoning steps to
identify redundancy. Through theoretical analysis and extensive empirical
validation on mathematical reasoning benchmarks, we demonstrate that steps with
low entropy are indeed highly redundant. Our experiments reveal that an
astonishing 80\% of low-entropy intermediate steps can be pruned with minor
degradation in the final answer accuracy across DeepSeek-R1-7B, 14B and
Qwen3-8B. This finding sharply contrasts with random or high-entropy pruning,
which severely impairs reasoning performance. Building on this, we propose a
novel two-stage training strategy combining Supervised Fine-Tuning (SFT) and
Group Relative Policy Optimization (GRPO) reinforcement learning. This approach
enables LLMs to autonomously learn to generate compressed COTs during inference
by strategically incorporating [SKIP] tokens. Our method significantly enhances
LLM inference efficiency while rigorously preserving accuracy, offering
profound implications for practical LLM deployment and a deeper understanding
of reasoning structures.
Ссылки и действия
Дополнительные ресурсы: