HierarchicalPrune: Position-Aware Compression for Large-Scale Diffusion Models

2508.04663v1 cs.CV, cs.AI 2025-08-08
Авторы:

Young D. Kwon, Rui Li, Sijia Li, Da Li, Sourav Bhattacharya, Stylianos I. Venieris

Резюме на русском

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Текст-в-изображение (T2I) диффузорные модели (DMs) представляют собой технологии, которые достигли выдающихся результатов в синтезе высококачественных изображений. Однако их впечатляющие результаты сопровождаются серьезными техническими ограничениями: большие размеры моделей, которые могут достигать 8-11 миллиардов параметров, делают их непригодными для использования на ресурсо-ограниченных устройствах, таких как мобильные телефоны или устройства обработки данных с ограниченными вычислительными мощностями. Это ограничение является критическим в контексте распространения моделей в реальных приложениях, где важно обеспечить эффективность работы и низкие требования к ресурсам. Таким образом, существует необходимость в разработке эффективных методов для сжатия таких моделей, которые могут сократить их размер и снизить вычислительные требования, не ухудшая их качество. Традиционные подходы к сжатию моделей, такие как прунинг (pruning) и квантование, часто сталкиваются с проблемой снижения качества выходных данных, что может быть критически важно в случае с T2I моделями, где высокое качество синтезированных изображений является основной целью. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработчики представляют **HierarchicalPrune**, фреймворк для сжатия больших моделей диффузоров, основанный на иерархическом понимании функциональных блоков. Этот метод работает в несколько этапов: 1. **Иерархический Позиционный Прунинг (Hierarchical Position Pruning)**: Этот шаг определяет и удаляет менее важные блоки модели, основываясь на их позиции в иерархической структуре модели. Более ранние блоки, ответственные за формирование семантических структур, остаются неизменными, в то время как более поздние блоки, отвечающие за тонкие текстурные детали, подвергаются удалению. 2. **Позиционное Сохранение Весов (Positional Weight Preservation)**: Этот этап защищает критически важные части модели, особенно ранние блоки, которые отвечают за формирование основной структуры и смысла изображения. 3. **Чувствительность-Ориентированная Дистилляция (Sensitivity-Guided Distillation)**: Этот процесс корректирует процесс трансфера знаний между моделями, основываясь на различиях в чувствительности разных блоков. Это позволяет оптимизировать процесс обучения и сохранять качество выходных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты показали, что **HierarchicalPrune** достигает значительных результатов в сжатии моделей. Сочетание прунинга с INT4 квантованием весов позволяет сократить размер модели с 15.8 ГБ до 3.2 ГБ, что составляет 77.5-80.4% уменьшения памяти. Также уменьшается время выполнения (латенция) в диапазоне 27.9-38.0% на различных типах GPU, как высокопроизводительных, так и потребительских. При этом, качество синтезированных изображений остается высоким: снижение GenEval счетчика составило всего 2.6%, а HPSv2 счетчик – 7% по сравнению с оригинальной моделью. Более того, пользовательские исследования с участием 85 человек показали, что качество изображений, сгенерированных HierarchicalPrune, оценивается как соответствующее качеству оригинальной модели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Преимущества **HierarchicalPrune** очевидны в контексте реальных приложений. Сокращение размера модели и увеличение эффективности ее выполнения позволяют использовать такие модели на мобильных устройствах, что значительно расширяет область их применения. Кроме того, эти модели могут быть использованы в областях, требующих быстрого и качественного генерации изображений, таких как дизайн, реклама, игровая индустрия и образование. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ **HierarchicalPrune** демонстрирует значительные успехи в сжатии моделей диффузоров без существенного ухудшения качества. Будущие исследования могут фокусироваться на дальнейшей оптимизации этих методов для различных типов моделей и приложений, а также на исследовании возможностей применения таких моделей в реальных сценариях.

Abstract

State-of-the-art text-to-image diffusion models (DMs) achieve remarkable quality, yet their massive parameter scale (8-11B) poses significant challenges for inferences on resource-constrained devices. In this paper, we present HierarchicalPrune, a novel compression framework grounded in a key observation: DM blocks exhibit distinct functional hierarchies, where early blocks establish semantic structures while later blocks handle texture refinements. HierarchicalPrune synergistically combines three techniques: (1) Hierarchical Position Pruning, which identifies and removes less essential later blocks based on position hierarchy; (2) Positional Weight Preservation, which systematically protects early model portions that are essential for semantic structural integrity; and (3) Sensitivity-Guided Distillation, which adjusts knowledge-transfer intensity based on our discovery of block-wise sensitivity variations. As a result, our framework brings billion-scale diffusion models into a range more suitable for on-device inference, while preserving the quality of the output images. Specifically, when combined with INT4 weight quantisation, HierarchicalPrune achieves 77.5-80.4% memory footprint reduction (e.g., from 15.8 GB to 3.2 GB) and 27.9-38.0% latency reduction, measured on server and consumer grade GPUs, with the minimum drop of 2.6% in GenEval score and 7% in HPSv2 score compared to the original model. Last but not least, our comprehensive user study with 85 participants demonstrates that HierarchicalPrune maintains perceptual quality comparable to the original model while significantly outperforming prior works.

Ссылки и действия