Video-BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation

2508.10774v1 cs.CV, cs.AI, cs.LG 2025-08-16
Авторы:

Youping Gu, Xiaolong Li, Yuhao Hu, Bohan Zhuang

Резюме на русском

#### Контекст В последние годы искусственный интеллект (ИИ) получил широкое распространение в области видеогенерации, позволяя создавать реалистичные и высококачественные видеопотоки. Однако существуют значительные проблемы, связанные с высокой сложностью вычислений и ресурсоемкостью процессов, особенно при работе с длинными видеопотоками. Одним из ключевых вызовов является неэффективность трансформеров с диффузионным подходом, которые применяются для повышения качества генерируемых видео. Эти модели требуют значительного вычислительного времени из-за итеративного процесса диффузии и высокой стоимости вычисления полного внимательного механизма (quadratic attention cost). Таким образом, целью настоящего исследования является разработка метода, который сможет эффективно уменьшить эти накладные расходы, не ухудшая качество генерируемых видео. #### Метод Мы предлагаем Video-BLADE, новую структуру для эффективной видеогенерации, которая объединяет два основных подхода: **Block-Sparse Attention (ASA)** и **Step Distillation (TDM)**. **ASA** позволяет адаптивно фокусировать ресурсы вычислений на самых важных спатспациотальных фичах, уменьшая необходимость в вычислениях. **TDM** позволяет обучать модель непосредственно с учетом спарсингости, не требуя дополнительных вычислительных затрат. Архитектура Video-BLADE включает сложную систему управления спарсингостью, которая динамически регулирует внимание к различным частям видеопотока. Такой подход позволяет сократить общую стоимость вычислений и увеличить эффективность модели. #### Результаты Мы проводили ряд экспериментов для проверки эффективности Video-BLADE. Мы использовали две модели для видеогенерации: **CogVideoX-5B** и **Wan2.1-1.3B**. Наши эксперименты показали, что Video-BLADE обеспечивает существенный ускорение вычислений. На модели Wan2.1-1.3B удалось достичь **14.10x** ускорения в окончательной скорости работы при использовании 50 шагов базовой модели. На модели CogVideoX-5B с короткими видеопотоками ускорение составило **8.89x**. Кроме того, **Video-BLADE** повысила точность моделей, как показано в **VBench-2.0**, где CogVideoX-5B показала улучшение с **0.534** до **0.569**, а Wan2.1-1.3B — с **0.563** до **0.570**. #### Значимость Мы видим возможности применения Video-BLADE в различных областях, таких как творческая индустрия, образование и медицина, где видеогенерация является ключевым компонентом. Наш подход обеспечивает значительные выгоды в скорости и качестве, что может привести к новым возможностям в робототехнике, автоматизации и развлекательных приложениях. Мы считаем, что наша работа открывает новые го

Abstract

Diffusion transformers currently lead the field in high-quality video generation, but their slow iterative denoising process and prohibitive quadratic attention costs for long sequences create significant inference bottlenecks. While both step distillation and sparse attention mechanisms have shown promise as independent acceleration strategies, effectively combining these approaches presents critical challenges -- training-free integration yields suboptimal results, while separately training sparse attention after step distillation requires prohibitively expensive high-quality video data. To overcome these limitations, we propose BLADE, an innovative data-free joint training framework that introduces: (1) an Adaptive Block-Sparse Attention (ASA) mechanism for dynamically generating content-aware sparsity masks to focus computation on salient spatiotemporal features, and (2) a sparsity-aware step distillation paradigm built upon Trajectory Distribution Matching (TDM) that directly incorporates sparsity into the distillation process rather than treating it as a separate compression step, with fast convergence. We validate BLADE on text-to-video models like CogVideoX-5B and Wan2.1-1.3B. Our framework demonstrates remarkable efficiency gains across different scales. On Wan2.1-1.3B, BLADE achieves a 14.10x end-to-end inference acceleration over a 50-step baseline. Moreover, on models such as CogVideoX-5B with short video sequence lengths, our framework delivers a robust 8.89x speedup. Crucially, the acceleration is accompanied by a consistent quality improvement. On the VBench-2.0 benchmark, BLADE boosts the score of CogVideoX-5B to 0.569 (from 0.534) and Wan2.1-1.3B to 0.570 (from 0.563), results that are further corroborated by superior ratings in human evaluations. Our code and model weights are publicly available at: http://ziplab.co/BLADE-Homepage/.

Ссылки и действия