SlimDiff: Training-Free, Activation-Guided Hands-free Slimming of Diffusion Models

2509.21498v1 cs.LG, cs.CV 2025-09-30
Авторы:

Arani Roy, Shristi Das Biswas, Kaushik Roy

Резюме на русском

#### Контекст Diffusion models (DMs) являются одним из самых продвинутых инструментов для генерирования качественных данных, особенно в области изображений и текстов. Однако, они ограничены высоким потреблением ресурсов, связанным с огромным числом параметров и сложной итеративной структурой. Это приводит к значительной вычислительной нагрузке, что делает их менее эффективными в реальном времени. Известные методы, такие как quantization, pruning или timestep reduction, требуют сложных процессов fine-tuning или retraining, что приводит к убыткам в качестве генерации и добавляет дополнительные затраты. В данной работе мы предлагаем SlimDiff, уникальную автоматизированную систему, которая сокращает размерность активаций и входов в DMs без использования никаких градиентных методов. #### Метод SlimDiff основывается на активационно-информированной спектральной аппроксимации. Он использует ковариации активаций во время последовательных шагов denoising для определения low-rank subspaces. Это позволяет динамически уменьшить размерность в модулях, таких как query-key, value-output и feedforward, без переобучения. Особенность SlimDiff заключается в том, что он применяет module-wise decompositions, чтобы учитывать неоднородную геометрию diffusion trajectories. Это позволяет адаптивно распределять sparsity по модулям без ухудшения качества. Метод включает эффективное управление распределением ресурсов, полностью основанное на активациях, без необходимости в backpropagation. #### Результаты Мы проверили SlimDiff на нескольких задачах, включая задачи image generation с популярными DMs. При этом SlimDiff позволил достичь значительных экономий в ресурсах: до 35% ускорения и снижения до $\sim$100M параметров, при этом сохраняя качество генерации на уровне uncompressed models. Эксперименты показали, что SlimDiff требует всего 500 калибровочных сэмплов, что значительно меньше, чем у аналогов (примерно 70$\times$ меньше). Метод демонстрирует высокую эффективность и теоретическую ясность, предоставляя практический и простой способ сжатия DMs. #### Значимость SlimDiff может быть применен в тех разделах, где необходима уменьшенная модель, но при этом необходимо сохранить качество генерации. Это включает в себя работы на устройствах с ограниченными ресурсами, таких как мобильные телефоны и IoT-устройства. Этот подход также имеет преимущества из-за того, что он не требует retraining или fine-tuning, чтобы поддерживать качество. Будущие исследования могут сфокусироваться на расширении SlimDiff для других типов моделей и его интеграции с другими методами сжатия, чтобы достичь еще более высокого эффекта. #### Выводы SlimDiff представляет собой первый closed-form, activation-guided подход к сжатию DMs без необходимости в градиентных методах. Он позво

Abstract

Diffusion models (DMs), lauded for their generative performance, are computationally prohibitive due to their billion-scale parameters and iterative denoising dynamics. Existing efficiency techniques, such as quantization, timestep reduction, or pruning, offer savings in compute, memory, or runtime but are strictly bottlenecked by reliance on fine-tuning or retraining to recover performance. In this work, we introduce SlimDiff, an automated activation-informed structural compression framework that reduces both attention and feedforward dimensionalities in DMs, while being entirely gradient-free. SlimDiff reframes DM compression as a spectral approximation task, where activation covariances across denoising timesteps define low-rank subspaces that guide dynamic pruning under a fixed compression budget. This activation-aware formulation mitigates error accumulation across timesteps by applying module-wise decompositions over functional weight groups: query--key interactions, value--output couplings, and feedforward projections, rather than isolated matrix factorizations, while adaptively allocating sparsity across modules to respect the non-uniform geometry of diffusion trajectories. SlimDiff achieves up to 35\% acceleration and $\sim$100M parameter reduction over baselines, with generation quality on par with uncompressed models without any backpropagation. Crucially, our approach requires only about 500 calibration samples, over 70$\times$ fewer than prior methods. To our knowledge, this is the first closed-form, activation-guided structural compression of DMs that is entirely training-free, providing both theoretical clarity and practical efficiency.

Ссылки и действия