PATCH: Learnable Tile-level Hybrid Sparsity for LLMs
2509.23410v1
cs.LG, cs.AI, cs.PF
2025-10-01
Авторы:
Younes Hourri, Mohammad Mozaffari, Maryam Mehri Dehnavi
Резюме на русском
#### Контекст
Large language models (LLMs) представляют собой мощные инструменты для обработки естественного языка, но при этом их применение сталкивается с значительными проблемами, связанными с высокими затратами на память и вычисления. Эти затраты становятся особенно заметными при развертывании моделей в реальных ситуациях. Одним из популярных подходов к решению этой проблемы является применение методов многоуровневого упрощения моделей, в том числе моделирования локальной спARSИтии весов. Однако существующие методы страдают от недостатков: неструктурированные спARSИти имеют высокую точность но приводят к неэффективным вычислительным операциям, в то время как структурированные методы, такие как 2:4 sparsity, гарантируют более плавную работу с железом но при этом терпят снижение качества модели. Наша мотивация заключается в создании гибкого подхода, который бы восполнил этот пробел, обеспечивая как качество, так и эффективность.
#### Метод
Мы предлагаем PATCH, новый подход к управлению спARSИтией весов в моделях LLM, который работает в диапазоне от 0% до 50% sparsity. PATCH делит весовые матрицы на тайлы (малые кубы), каждый из которых может быть либо полностью взвешенным, либо реализованным в виде 2:4 sparse. Эта функциональность достигается с помощью леарнaбл маски, которая выбирает для каждого тайла тип спARSИтии. Это дает нам возможность контролировать точность и скорость модели в зависимости от конкретных областей. Мы используем спARSИтион режим, который может быть применен на разных уровнях вложенности в модели, что позволяет добиться более гибкого применения спARSИтии без потери качества.
#### Результаты
Мы провели ряд экспериментов, где использовали модели размером от 0.5 до 8 миллиардов параметров. Наши результаты показывают, что PATCH позволяет эффективно управлять trade-off между точностью и производительностью. Например, на LLaMA-2 модели 7B с GPU A6000, PATCH достигает 1.18x-1.38x speedup по сравнению с другими методами, при этом улучшая точность в 0.37%-2.96% по сравнению с MaskLLM, значимой 2:4 pruning реализацией. Эти результаты демонстрируют, что PATCH может уменьшить разрыв в точности между нетрудностью и скоростью, особенно при работе на жестком режиме GPU.
#### Значимость
Мы видим возможности для применения PATCH в различных областях, включая облачные вычисления, мобильные приложения и IoT-устройства. Наш подход предоставляет перспeктиву для более эффективного использования ресурсов, уменьшая необходимые вычислительные и памяти, при этом сохраняя высокую точность. Мы также рассматриваем возможность расширения PATCH для работы с другими типами моделей, таких как рекурр
Abstract
Large language models (LLMs) deliver impressive performance but incur
prohibitive memory and compute costs at deployment. Model pruning is an
effective way to reduce these overheads, yet existing approaches face
challenges: unstructured sparsity, where nonzeros can appear anywhere,
preserves accuracy but yields irregular access patterns that prevent GPU
acceleration, while semi-structured 2:4 sparsity is hardware-friendly but
enforces a rigid 50% pattern that degrades model quality. To bridge this gap,
we introduce PATCH, a hybrid sparsity framework that enables a continuous
sparsity ratio between 0% and 50%. PATCH partitions weight matrices into tiles,
assigning each tile to be either dense or 2:4 sparse via a learnable mask
selection mechanism. This design provides fine-grained control over
accuracy-acceleration tradeoffs and supports non-uniform sparsity across
layers, leading to superior overall quality. Across models from 0.5B to 8B
parameters, PATCH consistently narrows the gap to dense accuracy while
delivering practical speedups. For instance, on LLaMA-2 7B with an A6000 GPU,
PATCH achieves 1.18x-1.38x end-to-end speedup over dense baselines while
improving accuracy by 0.37%-2.96% compared to the state-of-the-art 2:4 pruning
method, MaskLLM.
Ссылки и действия
Дополнительные ресурсы: