Pruning Large Language Models by Identifying and Preserving Functional Networks

2508.05239v1 cs.CL, cs.AI, cs.LG 2025-08-09

Авторы:

Yiheng Liu, Junhao Ning, Sichen Xia, Xiaohui Gao, Ning Qiang, Bao Ge, Junwei Han, Xintao Hu

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large language models (LLMs) являются мощными инструментами в области естественного языка, но их развертывание в реальных приложениях часто сталкивается с проблемами, связанными со скоростью выполнения и потреблением GPU-памяти. Одним из ключевых подходов к решению этих проблем является структурная обрезка (structured pruning), которая позволяет сократить размер модели, удаляя менее важные единицы структуры, такие как нейроны или связи между ними. Однако существующие методы structured pruning часто игнорируют важный аспект LLMs — взаимодействие и сотрудничество между искусственными нейронами, которые критически важны для функциональности моделей. Традиционные подходы к обрезке основываются на оценке важности отдельных единиц структуры, но не учитывают макроскопическую архитектуру функциональных сетей в LLMs. Такой подход может привести к разрушению важных функциональных взаимосвязей, что, в свою очередь, снижает эффективность самой обрезки. Чтобы решить эту проблему, необходимо рассмотреть LLMs как комплексные системы, где взаимодействие между нейронами играет ключевую роль в поддержании их функциональности. Вдохновленные природными аналогами, такими как функциональные нейронные сети человеческого мозга, авторы предлагают новый подход к обрезке LLMs. Этот подход основывается на идентификации и сохранении функциональных сетей внутри модели, что позволяет сохранить ключевые функции модели даже после существенной её компрессии. Такой метод предлагает более глубокое понимание внутренней структуры LLMs и может повысить эффективность их работы в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках этого исследования авторы предлагают метод обрезки LLMs, основанный на идентификации и сохранении функциональных сетей. Они рассматривают LLMs как "цифровой мозг", который можно разбить на функциональные сети, аналогично тому, как в области нейроимеджинга идентифицируют функциональные сети мозга. Этот подход позволяет выделить ключевые нейроны, которые играют важную роль в обеспечении функциональности модели. Первым шагом является декомпозиция LLMs на функциональные сети. Для этого используются методы, аналогичные тем, что применяются в нейроимеджинге для анализа мозговых сетей. После идентификации этих сетей, авторы сохраняют ключевые нейроны, необходимые для поддержания функциональности сетей. Затем происходит фаза обрезки, в которой удаляются менее важные нейроны, не входящие в функциональные сети. Этот подход позволяет сократить размер модели, сохранив при этом её функциональность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предлагаемого метода. Для этого использовались различные датасеты и модели LLMs. Результаты показали, что предлагаемый метод успешно идентифицирует и сохраняет функциональные сетей в LLMs, что приводит к более эффективной обрезке моделей. Кроме того, эксперименты показали, что сохранение ключевых нейронов внутри функциональных сетей позволяет сократить размер модели без существенного ухудшения качества её производительности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод обрезки LLMs имеет значительный практический потенциал. Он может быть применен для ускорения выполнения моделей и снижения потребления GPU-памяти, что делает LLMs более доступными для реального времени и мобильных приложений. Кроме того, этот подход может быть использован для оптимизации LLMs в различных доменах, где важна высокая скорость выполнения и низкие требования к ресурсам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, предлагаемый метод обрезки LLMs представляет собой значительный шаг вперед в области компрессии моделей. Он не только позволяет сократить размер моделей, но и сохраняет их функциональность благодаря идентификации и сохранению ключевых функциональных сетей. Будущие исследования могут фокусироваться на дальнейшем улучшении этого метода и его применении к более широкому кругу задач и моделей.

Abstract

Structured pruning is one of the representative techniques for compressing large language models (LLMs) to reduce GPU memory consumption and accelerate inference speed. It offers significant practical value in improving the efficiency of LLMs in real-world applications. Current structured pruning methods typically rely on assessment of the importance of the structure units and pruning the units with less importance. Most of them overlooks the interaction and collaboration among artificial neurons that are crucial for the functionalities of LLMs, leading to a disruption in the macro functional architecture of LLMs and consequently a pruning performance degradation. Inspired by the inherent similarities between artificial neural networks and functional neural networks in the human brain, we alleviate this challenge and propose to prune LLMs by identifying and preserving functional networks within LLMs in this study. To achieve this, we treat an LLM as a digital brain and decompose the LLM into functional networks, analogous to identifying functional brain networks in neuroimaging data. Afterwards, an LLM is pruned by preserving the key neurons within these functional networks. Experimental results demonstrate that the proposed method can successfully identify and locate functional networks and key neurons in LLMs, enabling efficient model pruning. Our code is available at https://github.com/WhatAboutMyStar/LLM_ACTIVATION.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Pruning Large Language Models by Identifying and Preserving Functional Networks

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация