COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens

2509.06836v1 cs.CL, cs.AI, cs.LG 2025-09-10
Авторы:

Eugene Kwek, Wenpeng Yin

Резюме на русском

## Контекст В последние годы широко распространились большие языковые модели (LLMs), которые достигли поразительных успехов в области естественного языка и процессов автоматизации. Однако эффективность LLMs остается значимой проблемой, особенно при их использовании на устройствах с ограниченными ресурсами, в интерактивных приложениях и при масштабной трансформации потоков данных. Одним из основных подходов к улучшению эффективности является применение методов экстремального упрощения моделей (pruning), которые уменьшают размер модели и повышают ее производительность. Несмотря на это, существующие методы признаны недостаточно эффективными в условиях разных приложений. Целью настоящей работы является разработка нового подхода к моделированию, который был бы эффективным, удобным в применении и гибким в контексте разных задач. ## Метод Метод, предложенный в работе, назван COMPACT (Common-token Optimized Model Pruning Across Channels and Tokens). Он предлагает совмещение двух техник: 1. **Удаление редких слов (токенов)** из словаря модели, чтобы уменьшить размер словарей входа и выхода (embedding и unembedding). 2. **Оптимизация слоёв FFN (функциональных нейронных сетей)** с использованием весов, определяемых соотношением редких и частых токенов в потоке данных. COMPACT построен на основе стандартной многослойной перцептронной структуры трансформера, что позволяет избежать разрушения архитектуры модели. Алгоритм оптимизации свойственной для разных моделей (например, Qwen, LLaMA, Gemma) и работает без дополнительной тренировки, что делает его высокоэффективным. ## Результаты Проведены эксперименты с моделями размеров от 0.5B до 70B параметров, включая Qwen, LLaMA и Gemma. Была произведена сравнительная оценка различных стратегий моделирования. Результаты показали, что COMPACT достигает значительных уменьшений в размере модели и повышений производительности, не ухудшая точность на задачах, связанных с естественным языком. Особое внимание уделено сравнению с другими методами pruning, где COMPACT показывает выигрыш в памяти и времени работы без потерь в производительности. ## Значимость Решение, предложенное в работе, может быть применено в различных областях, таких как обработка естественного языка, интерактивные приложения, а также для создания устойчивых моделей для обработки больших массивов данных. Оно обеспечивает значительные экономии памяти при высокой производительности и гибкость при применении в различных условиях. Это делает COMPACT универсальным инструментом для повышения эффективности и снижения затрат в широком кругу приложений. ## Выводы Разработанный подход COMPACT доказал свою эффективность в сочетании

Abstract

Making LLMs more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a key technique toward this goal. However, prior pruning methods are limited: width pruning often breaks the standard transformer layout or requires custom inference code, while depth pruning removes entire layers and can cause abrupt accuracy drops. In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/unembedding and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT enjoys merits of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab vs. FFN pruning), training-free operation with competitive pruning time, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream task performance at similar or higher pruning ratios, with substantial reductions in parameters, GPU memory, and end-to-end latency.

Ссылки и действия