Video-BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation
2508.10774v1
cs.CV, cs.AI, cs.LG
2025-08-16
Авторы:
Youping Gu, Xiaolong Li, Yuhao Hu, Bohan Zhuang
Резюме на русском
#### Контекст
В последние годы искусственный интеллект (ИИ) получил широкое распространение в области видеогенерации, позволяя создавать реалистичные и высококачественные видеопотоки. Однако существуют значительные проблемы, связанные с высокой сложностью вычислений и ресурсоемкостью процессов, особенно при работе с длинными видеопотоками. Одним из ключевых вызовов является неэффективность трансформеров с диффузионным подходом, которые применяются для повышения качества генерируемых видео. Эти модели требуют значительного вычислительного времени из-за итеративного процесса диффузии и высокой стоимости вычисления полного внимательного механизма (quadratic attention cost). Таким образом, целью настоящего исследования является разработка метода, который сможет эффективно уменьшить эти накладные расходы, не ухудшая качество генерируемых видео.
#### Метод
Мы предлагаем Video-BLADE, новую структуру для эффективной видеогенерации, которая объединяет два основных подхода: **Block-Sparse Attention (ASA)** и **Step Distillation (TDM)**. **ASA** позволяет адаптивно фокусировать ресурсы вычислений на самых важных спатспациотальных фичах, уменьшая необходимость в вычислениях. **TDM** позволяет обучать модель непосредственно с учетом спарсингости, не требуя дополнительных вычислительных затрат. Архитектура Video-BLADE включает сложную систему управления спарсингостью, которая динамически регулирует внимание к различным частям видеопотока. Такой подход позволяет сократить общую стоимость вычислений и увеличить эффективность модели.
#### Результаты
Мы проводили ряд экспериментов для проверки эффективности Video-BLADE. Мы использовали две модели для видеогенерации: **CogVideoX-5B** и **Wan2.1-1.3B**. Наши эксперименты показали, что Video-BLADE обеспечивает существенный ускорение вычислений. На модели Wan2.1-1.3B удалось достичь **14.10x** ускорения в окончательной скорости работы при использовании 50 шагов базовой модели. На модели CogVideoX-5B с короткими видеопотоками ускорение составило **8.89x**. Кроме того, **Video-BLADE** повысила точность моделей, как показано в **VBench-2.0**, где CogVideoX-5B показала улучшение с **0.534** до **0.569**, а Wan2.1-1.3B — с **0.563** до **0.570**.
#### Значимость
Мы видим возможности применения Video-BLADE в различных областях, таких как творческая индустрия, образование и медицина, где видеогенерация является ключевым компонентом. Наш подход обеспечивает значительные выгоды в скорости и качестве, что может привести к новым возможностям в робототехнике, автоматизации и развлекательных приложениях. Мы считаем, что наша работа открывает новые го
Abstract
Diffusion transformers currently lead the field in high-quality video
generation, but their slow iterative denoising process and prohibitive
quadratic attention costs for long sequences create significant inference
bottlenecks. While both step distillation and sparse attention mechanisms have
shown promise as independent acceleration strategies, effectively combining
these approaches presents critical challenges -- training-free integration
yields suboptimal results, while separately training sparse attention after
step distillation requires prohibitively expensive high-quality video data. To
overcome these limitations, we propose BLADE, an innovative data-free joint
training framework that introduces: (1) an Adaptive Block-Sparse Attention
(ASA) mechanism for dynamically generating content-aware sparsity masks to
focus computation on salient spatiotemporal features, and (2) a sparsity-aware
step distillation paradigm built upon Trajectory Distribution Matching (TDM)
that directly incorporates sparsity into the distillation process rather than
treating it as a separate compression step, with fast convergence. We validate
BLADE on text-to-video models like CogVideoX-5B and Wan2.1-1.3B. Our framework
demonstrates remarkable efficiency gains across different scales. On
Wan2.1-1.3B, BLADE achieves a 14.10x end-to-end inference acceleration over a
50-step baseline. Moreover, on models such as CogVideoX-5B with short video
sequence lengths, our framework delivers a robust 8.89x speedup. Crucially, the
acceleration is accompanied by a consistent quality improvement. On the
VBench-2.0 benchmark, BLADE boosts the score of CogVideoX-5B to 0.569 (from
0.534) and Wan2.1-1.3B to 0.570 (from 0.563), results that are further
corroborated by superior ratings in human evaluations. Our code and model
weights are publicly available at: http://ziplab.co/BLADE-Homepage/.
Ссылки и действия
Дополнительные ресурсы: