OmniCache: A Trajectory-Oriented Global Perspective on Training-Free Cache Reuse for Diffusion Transformer Models
2508.16212v2
cs.CV, cs.AI, cs.LG
2025-08-26
Авторы:
Huanpeng Chu, Wei Wu, Guanyu Fen, Yutao Zhang
Резюме на русском
#### Контекст
Diffusion models являются мощным подходом для решения задач генеративного моделирования, таких как синтез изображений и видео. Особенностью этих моделей является их высокая точность и качество, однако это приходит на разряд высокой вычислительной сложности. Это особенно видно в случае трансформеров для размытия, где высокая сложность вычислений и большое число семплирования шагов становятся значительными ограничениями для реального времени. Отсутствие эффективных методов ускорения, которые сохраняли бы качество генерации, ставит под угрозу внедрение этих моделей в реальные приложения.
#### Метод
Метод OmniCache предлагает новый подход к ускорению диффузионных трансформеров, основываясь на анализе глобальной редундантности в процессе размытия. В отличие от существующих методов, которые определяют стратегии кеширования на основе сходства между шагами, OmniCache использует перспективу самого размытия. Он оценивает глобальные траектории размытия и распределяет кеш ресурсов по всему процессу, а не только к определенным этапам. Также в процессе кеширования вводится динамическая оценка шума и его фильтрация, что позволяет снизить его влияние на результат.
#### Результаты
Исследования были проведены на обширных наборах данных, включая изображения и видео. Результаты показывают, что OmniCache эффективно ускоряет процесс размытия, сохраняя высокий уровень качества. Например, на изображениях с высоким разрешением, стандартные методы демонстрируют снижение качества при ускорении, в то время как OmniCache поддерживает высокий уровень качества без дополнительных ресурсов.
#### Значимость
OmniCache открывает новые возможности для использования диффузионных трансформеров в реальном времени. Он применяется в широком спектре задач, включая синтез изображений, видеогенерацию и даже генеративные модели для текстовых данных. Основные преимущества включают ускорение процесса обучения, сохранение качества результатов и эффективное использование ресурсов. Это может способствовать расширению применения диффузионных моделей в области искусственного интеллекта и синтетического контента.
#### Выводы
OmniCache продемонстрировал свою эффективность в ускорении размытия, сохраняя качество результатов. Будущие исследования будут фокусироваться на повышении его скорости и эффективности, а также на расширении его применения в различных сферах генеративного моделирования.
Abstract
Diffusion models have emerged as a powerful paradigm for generative tasks
such as image synthesis and video generation, with Transformer architectures
further enhancing performance. However, the high computational cost of
diffusion Transformers-stemming from a large number of sampling steps and
complex per-step computations-presents significant challenges for real-time
deployment. In this paper, we introduce OmniCache, a training-free acceleration
method that exploits the global redundancy inherent in the denoising process.
Unlike existing methods that determine caching strategies based on inter-step
similarities and tend to prioritize reusing later sampling steps, our approach
originates from the sampling perspective of DIT models. We systematically
analyze the model's sampling trajectories and strategically distribute cache
reuse across the entire sampling process. This global perspective enables more
effective utilization of cached computations throughout the diffusion
trajectory, rather than concentrating reuse within limited segments of the
sampling procedure. In addition, during cache reuse, we dynamically estimate
the corresponding noise and filter it out to reduce its impact on the sampling
direction. Extensive experiments demonstrate that our approach accelerates the
sampling process while maintaining competitive generative quality, offering a
promising and practical solution for efficient deployment of diffusion-based
generative models.
Ссылки и действия
Дополнительные ресурсы: