HierarchicalPrune: Position-Aware Compression for Large-Scale Diffusion Models
2508.04663v1
cs.CV, cs.AI
2025-08-08
Авторы:
Young D. Kwon, Rui Li, Sijia Li, Da Li, Sourav Bhattacharya, Stylianos I. Venieris
Резюме на русском
---
title: КОНТЕКСТ И ПРОБЛЕМАТИКА
---
### message
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Текст-в-изображение (T2I) диффузорные модели (DMs) представляют собой технологии, которые достигли выдающихся результатов в синтезе высококачественных изображений. Однако их впечатляющие результаты сопровождаются серьезными техническими ограничениями: большие размеры моделей, которые могут достигать 8-11 миллиардов параметров, делают их непригодными для использования на ресурсо-ограниченных устройствах, таких как мобильные телефоны или устройства обработки данных с ограниченными вычислительными мощностями. Это ограничение является критическим в контексте распространения моделей в реальных приложениях, где важно обеспечить эффективность работы и низкие требования к ресурсам.
Таким образом, существует необходимость в разработке эффективных методов для сжатия таких моделей, которые могут сократить их размер и снизить вычислительные требования, не ухудшая их качество. Традиционные подходы к сжатию моделей, такие как прунинг (pruning) и квантование, часто сталкиваются с проблемой снижения качества выходных данных, что может быть критически важно в случае с T2I моделями, где высокое качество синтезированных изображений является основной целью.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Разработчики представляют **HierarchicalPrune**, фреймворк для сжатия больших моделей диффузоров, основанный на иерархическом понимании функциональных блоков. Этот метод работает в несколько этапов:
1. **Иерархический Позиционный Прунинг (Hierarchical Position Pruning)**: Этот шаг определяет и удаляет менее важные блоки модели, основываясь на их позиции в иерархической структуре модели. Более ранние блоки, ответственные за формирование семантических структур, остаются неизменными, в то время как более поздние блоки, отвечающие за тонкие текстурные детали, подвергаются удалению.
2. **Позиционное Сохранение Весов (Positional Weight Preservation)**: Этот этап защищает критически важные части модели, особенно ранние блоки, которые отвечают за формирование основной структуры и смысла изображения.
3. **Чувствительность-Ориентированная Дистилляция (Sensitivity-Guided Distillation)**: Этот процесс корректирует процесс трансфера знаний между моделями, основываясь на различиях в чувствительности разных блоков. Это позволяет оптимизировать процесс обучения и сохранять качество выходных данных.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Эксперименты показали, что **HierarchicalPrune** достигает значительных результатов в сжатии моделей. Сочетание прунинга с INT4 квантованием весов позволяет сократить размер модели с 15.8 ГБ до 3.2 ГБ, что составляет 77.5-80.4% уменьшения памяти. Также уменьшается время выполнения (латенция) в диапазоне 27.9-38.0% на различных типах GPU, как высокопроизводительных, так и потребительских.
При этом, качество синтезированных изображений остается высоким: снижение GenEval счетчика составило всего 2.6%, а HPSv2 счетчик – 7% по сравнению с оригинальной моделью. Более того, пользовательские исследования с участием 85 человек показали, что качество изображений, сгенерированных HierarchicalPrune, оценивается как соответствующее качеству оригинальной модели.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Преимущества **HierarchicalPrune** очевидны в контексте реальных приложений. Сокращение размера модели и увеличение эффективности ее выполнения позволяют использовать такие модели на мобильных устройствах, что значительно расширяет область их применения. Кроме того, эти модели могут быть использованы в областях, требующих быстрого и качественного генерации изображений, таких как дизайн, реклама, игровая индустрия и образование.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
**HierarchicalPrune** демонстрирует значительные успехи в сжатии моделей диффузоров без существенного ухудшения качества. Будущие исследования могут фокусироваться на дальнейшей оптимизации этих методов для различных типов моделей и приложений, а также на исследовании возможностей применения таких моделей в реальных сценариях.
Abstract
State-of-the-art text-to-image diffusion models (DMs) achieve remarkable
quality, yet their massive parameter scale (8-11B) poses significant challenges
for inferences on resource-constrained devices. In this paper, we present
HierarchicalPrune, a novel compression framework grounded in a key observation:
DM blocks exhibit distinct functional hierarchies, where early blocks establish
semantic structures while later blocks handle texture refinements.
HierarchicalPrune synergistically combines three techniques: (1) Hierarchical
Position Pruning, which identifies and removes less essential later blocks
based on position hierarchy; (2) Positional Weight Preservation, which
systematically protects early model portions that are essential for semantic
structural integrity; and (3) Sensitivity-Guided Distillation, which adjusts
knowledge-transfer intensity based on our discovery of block-wise sensitivity
variations. As a result, our framework brings billion-scale diffusion models
into a range more suitable for on-device inference, while preserving the
quality of the output images. Specifically, when combined with INT4 weight
quantisation, HierarchicalPrune achieves 77.5-80.4% memory footprint reduction
(e.g., from 15.8 GB to 3.2 GB) and 27.9-38.0% latency reduction, measured on
server and consumer grade GPUs, with the minimum drop of 2.6% in GenEval score
and 7% in HPSv2 score compared to the original model. Last but not least, our
comprehensive user study with 85 participants demonstrates that
HierarchicalPrune maintains perceptual quality comparable to the original model
while significantly outperforming prior works.
Ссылки и действия
Дополнительные ресурсы: