OmniCache: A Trajectory-Oriented Global Perspective on Training-Free Cache Reuse for Diffusion Transformer Models

2508.16212v2 cs.CV, cs.AI, cs.LG 2025-08-26
Авторы:

Huanpeng Chu, Wei Wu, Guanyu Fen, Yutao Zhang

Резюме на русском

#### Контекст Diffusion models являются мощным подходом для решения задач генеративного моделирования, таких как синтез изображений и видео. Особенностью этих моделей является их высокая точность и качество, однако это приходит на разряд высокой вычислительной сложности. Это особенно видно в случае трансформеров для размытия, где высокая сложность вычислений и большое число семплирования шагов становятся значительными ограничениями для реального времени. Отсутствие эффективных методов ускорения, которые сохраняли бы качество генерации, ставит под угрозу внедрение этих моделей в реальные приложения. #### Метод Метод OmniCache предлагает новый подход к ускорению диффузионных трансформеров, основываясь на анализе глобальной редундантности в процессе размытия. В отличие от существующих методов, которые определяют стратегии кеширования на основе сходства между шагами, OmniCache использует перспективу самого размытия. Он оценивает глобальные траектории размытия и распределяет кеш ресурсов по всему процессу, а не только к определенным этапам. Также в процессе кеширования вводится динамическая оценка шума и его фильтрация, что позволяет снизить его влияние на результат. #### Результаты Исследования были проведены на обширных наборах данных, включая изображения и видео. Результаты показывают, что OmniCache эффективно ускоряет процесс размытия, сохраняя высокий уровень качества. Например, на изображениях с высоким разрешением, стандартные методы демонстрируют снижение качества при ускорении, в то время как OmniCache поддерживает высокий уровень качества без дополнительных ресурсов. #### Значимость OmniCache открывает новые возможности для использования диффузионных трансформеров в реальном времени. Он применяется в широком спектре задач, включая синтез изображений, видеогенерацию и даже генеративные модели для текстовых данных. Основные преимущества включают ускорение процесса обучения, сохранение качества результатов и эффективное использование ресурсов. Это может способствовать расширению применения диффузионных моделей в области искусственного интеллекта и синтетического контента. #### Выводы OmniCache продемонстрировал свою эффективность в ускорении размытия, сохраняя качество результатов. Будущие исследования будут фокусироваться на повышении его скорости и эффективности, а также на расширении его применения в различных сферах генеративного моделирования.

Abstract

Diffusion models have emerged as a powerful paradigm for generative tasks such as image synthesis and video generation, with Transformer architectures further enhancing performance. However, the high computational cost of diffusion Transformers-stemming from a large number of sampling steps and complex per-step computations-presents significant challenges for real-time deployment. In this paper, we introduce OmniCache, a training-free acceleration method that exploits the global redundancy inherent in the denoising process. Unlike existing methods that determine caching strategies based on inter-step similarities and tend to prioritize reusing later sampling steps, our approach originates from the sampling perspective of DIT models. We systematically analyze the model's sampling trajectories and strategically distribute cache reuse across the entire sampling process. This global perspective enables more effective utilization of cached computations throughout the diffusion trajectory, rather than concentrating reuse within limited segments of the sampling procedure. In addition, during cache reuse, we dynamically estimate the corresponding noise and filter it out to reduce its impact on the sampling direction. Extensive experiments demonstrate that our approach accelerates the sampling process while maintaining competitive generative quality, offering a promising and practical solution for efficient deployment of diffusion-based generative models.

Ссылки и действия