PATCH: Learnable Tile-level Hybrid Sparsity for LLMs

2509.23410v1 cs.LG, cs.AI, cs.PF 2025-10-01

Авторы:

Younes Hourri, Mohammad Mozaffari, Maryam Mehri Dehnavi

Резюме на русском

#### Контекст Large language models (LLMs) представляют собой мощные инструменты для обработки естественного языка, но при этом их применение сталкивается с значительными проблемами, связанными с высокими затратами на память и вычисления. Эти затраты становятся особенно заметными при развертывании моделей в реальных ситуациях. Одним из популярных подходов к решению этой проблемы является применение методов многоуровневого упрощения моделей, в том числе моделирования локальной спARSИтии весов. Однако существующие методы страдают от недостатков: неструктурированные спARSИти имеют высокую точность но приводят к неэффективным вычислительным операциям, в то время как структурированные методы, такие как 2:4 sparsity, гарантируют более плавную работу с железом но при этом терпят снижение качества модели. Наша мотивация заключается в создании гибкого подхода, который бы восполнил этот пробел, обеспечивая как качество, так и эффективность. #### Метод Мы предлагаем PATCH, новый подход к управлению спARSИтией весов в моделях LLM, который работает в диапазоне от 0% до 50% sparsity. PATCH делит весовые матрицы на тайлы (малые кубы), каждый из которых может быть либо полностью взвешенным, либо реализованным в виде 2:4 sparse. Эта функциональность достигается с помощью леарнaбл маски, которая выбирает для каждого тайла тип спARSИтии. Это дает нам возможность контролировать точность и скорость модели в зависимости от конкретных областей. Мы используем спARSИтион режим, который может быть применен на разных уровнях вложенности в модели, что позволяет добиться более гибкого применения спARSИтии без потери качества. #### Результаты Мы провели ряд экспериментов, где использовали модели размером от 0.5 до 8 миллиардов параметров. Наши результаты показывают, что PATCH позволяет эффективно управлять trade-off между точностью и производительностью. Например, на LLaMA-2 модели 7B с GPU A6000, PATCH достигает 1.18x-1.38x speedup по сравнению с другими методами, при этом улучшая точность в 0.37%-2.96% по сравнению с MaskLLM, значимой 2:4 pruning реализацией. Эти результаты демонстрируют, что PATCH может уменьшить разрыв в точности между нетрудностью и скоростью, особенно при работе на жестком режиме GPU. #### Значимость Мы видим возможности для применения PATCH в различных областях, включая облачные вычисления, мобильные приложения и IoT-устройства. Наш подход предоставляет перспeктиву для более эффективного использования ресурсов, уменьшая необходимые вычислительные и памяти, при этом сохраняя высокую точность. Мы также рассматриваем возможность расширения PATCH для работы с другими типами моделей, таких как рекурр

Abstract

Large language models (LLMs) deliver impressive performance but incur prohibitive memory and compute costs at deployment. Model pruning is an effective way to reduce these overheads, yet existing approaches face challenges: unstructured sparsity, where nonzeros can appear anywhere, preserves accuracy but yields irregular access patterns that prevent GPU acceleration, while semi-structured 2:4 sparsity is hardware-friendly but enforces a rigid 50% pattern that degrades model quality. To bridge this gap, we introduce PATCH, a hybrid sparsity framework that enables a continuous sparsity ratio between 0% and 50%. PATCH partitions weight matrices into tiles, assigning each tile to be either dense or 2:4 sparse via a learnable mask selection mechanism. This design provides fine-grained control over accuracy-acceleration tradeoffs and supports non-uniform sparsity across layers, leading to superior overall quality. Across models from 0.5B to 8B parameters, PATCH consistently narrows the gap to dense accuracy while delivering practical speedups. For instance, on LLaMA-2 7B with an A6000 GPU, PATCH achieves 1.18x-1.38x end-to-end speedup over dense baselines while improving accuracy by 0.37%-2.96% compared to the state-of-the-art 2:4 pruning method, MaskLLM.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

PATCH: Learnable Tile-level Hybrid Sparsity for LLMs

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FlashOmni: A Unified Sparse Attention Engine for Diffusion Transformers

Estudio de la eficiencia en la escalabilidad de GPUs para el entrenamiento de In...

Generalizing Scaling Laws for Dense and Sparse Large Language Models

Навигация