SlimDiff: Training-Free, Activation-Guided Hands-free Slimming of Diffusion Models
2509.21498v1
cs.LG, cs.CV
2025-09-30
Авторы:
Arani Roy, Shristi Das Biswas, Kaushik Roy
Резюме на русском
#### Контекст
Diffusion models (DMs) являются одним из самых продвинутых инструментов для генерирования качественных данных, особенно в области изображений и текстов. Однако, они ограничены высоким потреблением ресурсов, связанным с огромным числом параметров и сложной итеративной структурой. Это приводит к значительной вычислительной нагрузке, что делает их менее эффективными в реальном времени. Известные методы, такие как quantization, pruning или timestep reduction, требуют сложных процессов fine-tuning или retraining, что приводит к убыткам в качестве генерации и добавляет дополнительные затраты. В данной работе мы предлагаем SlimDiff, уникальную автоматизированную систему, которая сокращает размерность активаций и входов в DMs без использования никаких градиентных методов.
#### Метод
SlimDiff основывается на активационно-информированной спектральной аппроксимации. Он использует ковариации активаций во время последовательных шагов denoising для определения low-rank subspaces. Это позволяет динамически уменьшить размерность в модулях, таких как query-key, value-output и feedforward, без переобучения. Особенность SlimDiff заключается в том, что он применяет module-wise decompositions, чтобы учитывать неоднородную геометрию diffusion trajectories. Это позволяет адаптивно распределять sparsity по модулям без ухудшения качества. Метод включает эффективное управление распределением ресурсов, полностью основанное на активациях, без необходимости в backpropagation.
#### Результаты
Мы проверили SlimDiff на нескольких задачах, включая задачи image generation с популярными DMs. При этом SlimDiff позволил достичь значительных экономий в ресурсах: до 35% ускорения и снижения до $\sim$100M параметров, при этом сохраняя качество генерации на уровне uncompressed models. Эксперименты показали, что SlimDiff требует всего 500 калибровочных сэмплов, что значительно меньше, чем у аналогов (примерно 70$\times$ меньше). Метод демонстрирует высокую эффективность и теоретическую ясность, предоставляя практический и простой способ сжатия DMs.
#### Значимость
SlimDiff может быть применен в тех разделах, где необходима уменьшенная модель, но при этом необходимо сохранить качество генерации. Это включает в себя работы на устройствах с ограниченными ресурсами, таких как мобильные телефоны и IoT-устройства. Этот подход также имеет преимущества из-за того, что он не требует retraining или fine-tuning, чтобы поддерживать качество. Будущие исследования могут сфокусироваться на расширении SlimDiff для других типов моделей и его интеграции с другими методами сжатия, чтобы достичь еще более высокого эффекта.
#### Выводы
SlimDiff представляет собой первый closed-form, activation-guided подход к сжатию DMs без необходимости в градиентных методах. Он позво
Abstract
Diffusion models (DMs), lauded for their generative performance, are
computationally prohibitive due to their billion-scale parameters and iterative
denoising dynamics. Existing efficiency techniques, such as quantization,
timestep reduction, or pruning, offer savings in compute, memory, or runtime
but are strictly bottlenecked by reliance on fine-tuning or retraining to
recover performance. In this work, we introduce SlimDiff, an automated
activation-informed structural compression framework that reduces both
attention and feedforward dimensionalities in DMs, while being entirely
gradient-free. SlimDiff reframes DM compression as a spectral approximation
task, where activation covariances across denoising timesteps define low-rank
subspaces that guide dynamic pruning under a fixed compression budget. This
activation-aware formulation mitigates error accumulation across timesteps by
applying module-wise decompositions over functional weight groups: query--key
interactions, value--output couplings, and feedforward projections, rather than
isolated matrix factorizations, while adaptively allocating sparsity across
modules to respect the non-uniform geometry of diffusion trajectories. SlimDiff
achieves up to 35\% acceleration and $\sim$100M parameter reduction over
baselines, with generation quality on par with uncompressed models without any
backpropagation. Crucially, our approach requires only about 500 calibration
samples, over 70$\times$ fewer than prior methods. To our knowledge, this is
the first closed-form, activation-guided structural compression of DMs that is
entirely training-free, providing both theoretical clarity and practical
efficiency.
Ссылки и действия
Дополнительные ресурсы: