ProCut: LLM Prompt Compression via Attribution Estimation
2508.02053v1
cs.CL, cs.LG
2025-08-09
Авторы:
Zhentao Xu, Fengyi Li, Albert Chen, Xiaofeng Wang
Резюме на русском
**Резюме**
В крупномасштабных системах с LLM, шаблоны запросов часто растягиваются до тысяч токенов, включая инструкции по задаче, примеры для нескольких попыток и правила оптимизации. Это приводит к громоздкости шаблонов, усложнению их поддержки и повышению задержек вывода. Для решения этой проблемы предлагается ProCut — гибкий, агностический к LLM, автономный по отношению к обучению фреймворк. Он структурирует шаблоны запросов, оценивает их вклад в результат задачи и удаляет менее важные элементы. На экспериментальных данных из пяти общедоступных наборов данных и реальных промышленных шаблонах, ProCut снизил размер шаблонов до 78%, сохранив или даже улучшив производительность (до 62% лучше альтернативных методов). Был предложен LLM-драйвенный алгоритм для эффективной оценки вклада, что снизил задержки при сжатии до 50%. Таким образом, ProCut позволяет создавать компактные, эффективные и производительные шаблоны запросов.
Abstract
In large-scale industrial LLM systems, prompt templates often expand to
thousands of tokens as teams iteratively incorporate sections such as task
instructions, few-shot examples, and heuristic rules to enhance robustness and
coverage. This expansion leads to bloated prompts that are difficult to
maintain and incur significant inference latency and serving costs. To address
this, we introduce Prompt Compression via Attribution Estimation (ProCut), a
flexible, LLM-agnostic, training-free framework that compresses prompts through
attribution analysis. ProCut segments prompt templates into semantically
meaningful units, quantifies their impact on task performance, and prunes
low-utility components. Through extensive experiments on five public benchmark
datasets and real-world industrial prompts, we show that ProCut achieves
substantial prompt size reductions (78% fewer tokens in production) while
maintaining or even slightly improving task performance (up to 62% better than
alternative methods). We further introduce an LLM-driven attribution estimator
that reduces compression latency by over 50%, and demonstrate that ProCut
integrates seamlessly with existing prompt-optimization frameworks to produce
concise, high-performing prompts.
Ссылки и действия
Дополнительные ресурсы: