MixCache: Mixture-of-Cache for Video Diffusion Transformer Acceleration

2508.12691v1 cs.GR, cs.CV, cs.LG 2025-08-20
Авторы:

Yuanxin Wei, Lansong Diao, Bujiao Chen, Shenggan Cheng, Zhengping Qian, Wenyuan Yu, Nong Xiao, Wei Lin, Jiangsu Du

Резюме на русском

#### Контекст Видеогенерация — одна из самых сложных и ресурсоемких задач в области искусственного интеллекта. Новая трендовая технология, основанная на Transformer-архитектуре и процессе диффузии (DiT), доминирует в области высококачественной видеогенерации. Однако многошаговый процесс денойсинга в DiT-моделях требует высокой вычислительной нагрузки и влияет на высокую задержку при инференсе. Одним из популярных методов оптимизации является кэширование, которое использует нередкость в процессе диффузии для пропуска вычислений на разных уровнях (строк, блоках, шагах). Тем не менее, существующие методы ограничиваются одноуровневыми стратегиями кэширования, что не позволяет достичь баланса между качеством генерации и производительностью инференса. #### Метод В этой работе предлагается MixCache — новая, тренировка-не требующаяся стратегия кэширования для ускорения видео-DiT. Основной идеей является установление интерфейса между различными стратегиями кэширования и их интерфейсом. MixCache вводит контекстно-ориентированную стратегию активации кэша, чтобы определить, когда кэширование должно быть включено, и адаптивную стратегию гибридного кэширования для выбора наиболее оптимального уровня кэширования в зависимости от текущего контекста. Эта архитектура не требует дополнительных вычислений во время обучения, что делает ее эффективной и простую в использовании. #### Результаты Мы провести ряд экспериментов на различных моделях видеогенерации, включая Wan 14B и HunyuanVideo. Результаты показывают, что MixCache ускоряет обработку видео до 1.94$\times$ при работе с Wan 14B и 1.97$\times$ при работе с HunyuanVideo. В то же время, MixCache демонстрирует не только высокую производительность, но также значительное улучшение качества генерации видео по сравнению с базовыми методами. Это демонстрирует высокую эффективность и универсальность MixCache в разных контекстах. #### Значимость MixCache может быть применено в различных задачах видеогенерации, включая генерацию высококачественных видеороликов, редактирование видео и синтез видео. Он предоставляет значительные преимущества в скорости и эффективности, что делает его привлекательным для сценариев с реального времени, таких как стриминг, видеоредактирование и трансляции. Также MixCache открывает новые пути для будущих исследований в области оптимизации глубоких моделей с использованием кэширования в многоуровневой стратегии. #### Выводы Мы предлагаем MixCache — новую, тренировка-не требующуюся стратегию кэширования для ускорения видео-DiT. Она успешно решает проблему бала

Abstract

Leveraging the Transformer architecture and the diffusion process, video DiT models have emerged as a dominant approach for high-quality video generation. However, their multi-step iterative denoising process incurs high computational cost and inference latency. Caching, a widely adopted optimization method in DiT models, leverages the redundancy in the diffusion process to skip computations in different granularities (e.g., step, cfg, block). Nevertheless, existing caching methods are limited to single-granularity strategies, struggling to balance generation quality and inference speed in a flexible manner. In this work, we propose MixCache, a training-free caching-based framework for efficient video DiT inference. It first distinguishes the interference and boundary between different caching strategies, and then introduces a context-aware cache triggering strategy to determine when caching should be enabled, along with an adaptive hybrid cache decision strategy for dynamically selecting the optimal caching granularity. Extensive experiments on diverse models demonstrate that, MixCache can significantly accelerate video generation (e.g., 1.94$\times$ speedup on Wan 14B, 1.97$\times$ speedup on HunyuanVideo) while delivering both superior generation quality and inference efficiency compared to baseline methods.

Ссылки и действия