Aware First, Think Less: Dynamic Boundary Self-Awareness Drives Extreme Reasoning Efficiency in Large Language Models

2508.11582v1 cs.CL, cs.AI 2025-08-19
Авторы:

Qiguang Chen, Dengyun Peng, Jinhao Liu, HuiKang Su, Jiannan Guan, Libo Qin, Wanxiang Che

Резюме на русском

```## Контекст Последние достижения в области бо LARGE LANGUAGE MODELS (LLMs) позволили улучшить их возможности для решения сложных задач, включая решение проблем с помощью Long Chain-of-Thought (CoT). Однако данный подход часто связан с значительным издержечным объемом расчётов, что сказывается на эффективности вычислений и отрицательно влияет на реальном времени приложения. Основной причиной этого является то, что существующие методы определяют трудность задач динамически, основываясь на примерах, предоставленных человеком. Это не соответствует самосознанию LLM в отношении своей сложности, что приводит к неэффективности. Данное исследование предлагает решение этой проблемы, разработав систему Dynamic Reasoning-Boundary Self-Awareness Framework (DR. SAF), которая включает в себя три ключевых компонента: Boundary Self-Awareness Alignment, Adaptive Reward Management и Boundary Preservation Mechanism. Эти компоненты позволяют LLMs динамически оценивать свою сложность и корректировать рассуждения в зависимости от сложности задачи, балансируя между эффективностью и точностью. ## Метод DR. SAF использует три ключевых компонента для оптимизации процесса рассуждений LLMs. 1. **Boundary Self-Awareness Alignment**: этот компонент позволяет модели определять свою степень самосознания по отношению к сложности задачи. 2. **Adaptive Reward Management**: этот подход позволяет LLMs адаптировать свои внутренние награды в зависимости от прогресса в решении задачи. 3. **Boundary Preservation Mechanism**: этот механизм гарантирует, что модель сохранит логическую и математическую точность в ходе оптимизации процесса рассуждений. Эти компоненты дают LLMs возможность эффективно адаптироваться к сложности задачи, тем самым повышая общую эффективность. ## Результаты Для оценки эффективности DR. SAF проводились эксперименты на различных наборах данных, включая проблемы с логическим и математическим рассуждением. Эксперименты показали, что DR. SAF позволяет снизить общий объем ответов на 49.27% без существенного потери точности. Кроме того, DR. SAF повышает производительность на 6.59x по отношению к токенам, а также уменьшает время обучения в 5 раз. Эти результаты показывают, что DR. SAF эффективно работает в условиях ограниченных ресурсов, а также превосходит традиционные методы в токенной эффективности с более чем 16% улучшением точности при высокой нагрузке. ## Значимость DR. SAF может быть применено в различных областях, включая реальном времени приложения, социальные сети, системы поддержки принятия решений, где необходима быстрая и точная обработка информации. Основное преимущество DR. SAF заключается в том, что он позволяет значительно повысить эффективность расчётов без потери точности. Это может привести к более быстрому развитию ИИ, по

Abstract

Recent advancements in large language models (LLMs) have greatly improved their capabilities on complex reasoning tasks through Long Chain-of-Thought (CoT). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. To improve the efficiency, current methods often rely on human-defined difficulty priors, which do not align with the LLM's self-awared difficulty, leading to inefficiencies. In this paper, we introduce the Dynamic Reasoning-Boundary Self-Awareness Framework (DR. SAF), which enables models to dynamically assess and adjust their reasoning depth in response to problem complexity. DR. SAF integrates three key components: Boundary Self-Awareness Alignment, Adaptive Reward Management, and a Boundary Preservation Mechanism. These components allow models to optimize their reasoning processes, balancing efficiency and accuracy without compromising performance. Our experimental results demonstrate that DR. SAF achieves a 49.27% reduction in total response tokens with minimal loss in accuracy. The framework also delivers a 6.59x gain in token efficiency and a 5x reduction in training time, making it well-suited to resource-limited settings. During extreme training, DR. SAF can even surpass traditional instruction-based models in token efficiency with more than 16% accuracy improvement.

Ссылки и действия