Flexible Automatic Identification and Removal (FAIR)-Pruner: An Efficient Neural Network Pruning Method

2508.02291v1 cs.LG, cs.AI 2025-08-09
Авторы:

Chenqing Lin, Mostafa Hussien, Chengyao Yu, Mohamed Cheriet, Osama Abdelrahman, Ruixing Ming

Резюме на русском

#### Контекст Neural network pruning является важным методом сжатия моделей, позволяющим развертывать сложные нейронные сети на устройствах с ограниченными ресурсами. Оно сосредотачивается на удалении ненужных или менее важных параметров, чтобы уменьшить вычислительный и памятный overhead. Несмотря на его полезность, существуют проблемы: многие методы используют экспериментальный подход, применяют униформные скопы по-умолчанию или не эффективно используют своевременную оценку важности параметров. Эти ограничения приводят к неэффективности в подготовке моделей, особенно при необходимости быстрого увеличения или уменьшения модели. FAIR-Pruner предлагает новый подход для автоматического и гибкого управления процессом pruning. #### Метод FAIR-Pruner представляет собой метод структурного pruning, основанный на оценке важности каждого unit-а (e.g., neuron или channel) с помощью Utilization Score, рассчитываемого по мерельшей Уотерштейна. Для оценки потерь после удаления этого unit-a, метод использует Reconstruction Error, рассчитываемый через Тейлоровую разложение функции потерь. Наконец, FAIR-Pruner определяет те units, которые могут быть удалены без существенного влияния на модель, с помощью Tolerance of Difference. Основное преимущество FAIR-Pruner заключается в том, что он автоматически определяет слой-вести pruning rate, что позволяет получать эффективные subnetworks без ручного настройки. Кроме того, он достигает высокой одношаговой эффективности, не требуя последующего fine-tuning. #### Результаты Эксперименты проводились на разных бенчмарк-данных, таких как ImageNet, и различных архитектурах нейронных сетей, включая VGG. Результаты показали, что FAIR-Pruner достигает значительных улучшений в сжатии моделей, сохраняя высокую точность. Например, при pruning rate 0.5, FAIR-Pruner поддерживает более 90% точности на VGG-16 на ImageNet. Он также доказал эффективность при различных pruning ratios и способность получать pruned models в отличие от многих других методов, не требуя дополнительного fine-tuning. #### Значимость FAIR-Pruner может применяться в различных областях, таких как mobile edge computing, IoT-устройства и системы с низким потреблением энергии. Он предлагает преимущества в гибкости и эффективности, позволяя подготавливать модели, которые лучше подходят для реальных устройств. Этот подход также может использоваться для улучшения того, как модели обрабатывают данные в реальном времени. #### Выводы FAIR-Pruner предлагает новый гибкий и эффективный подход к pruning, который может быть применен в различных сценариях. Он доказал высокую точность при сжатии моделей при различных pruning ratios. Будущие исследования будут сфокусированы на расширении применения этого подхода к другим моделям и данным, а также на улуч

Abstract

Neural network pruning is a critical compression technique that facilitates the deployment of large-scale neural networks on resource-constrained edge devices, typically by identifying and eliminating redundant or insignificant parameters to reduce computational and memory overhead. This paper proposes the Flexible Automatic Identification and Removal (FAIR)-Pruner, a novel method for neural network structured pruning. Specifically, FAIR-Pruner first evaluates the importance of each unit (e.g., neuron or channel) through the Utilization Score quantified by the Wasserstein distance. To reflect the performance degradation after unit removal, it then introduces the Reconstruction Error, which is computed via the Taylor expansion of the loss function. Finally, FAIR-Pruner identifies superfluous units with negligible impact on model performance by controlling the proposed Tolerance of Difference, which measures differences between unimportant units and those that cause performance degradation. A major advantage of FAIR-Pruner lies in its capacity to automatically determine the layer-wise pruning rates, which yields a more efficient subnetwork structure compared to applying a uniform pruning rate. Another advantage of the FAIR-Pruner is its great one-shot performance without post-pruning fine-tuning. Furthermore, with utilization scores and reconstruction errors, users can flexibly obtain pruned models under different pruning ratios. Comprehensive experimental validation on diverse benchmark datasets (e.g., ImageNet) and various neural network architectures (e.g., VGG) demonstrates that FAIR-Pruner achieves significant model compression while maintaining high accuracy.

Ссылки и действия