SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention
2509.24006v1
cs.LG, cs.AI, cs.CV
2025-10-01
Авторы:
Jintao Zhang, Haoxu Wang, Kai Jiang, Shuo Yang, Kaiwen Zheng, Haocheng Xi, Ziteng Wang, Hongzhou Zhu, Min Zhao, Ion Stoica, Joseph E. Gonzalez, Jun Zhu, Jianfei Chen
Резюме на русском
#### Контекст
В Diffusion Transformer (DiT) моделях, особенно при генерации видео, время обработки внимания (attention latency) является критическим ограничением из-за длинных последовательностей и квадратичной сложности. Это приводит к значительным затратам ресурсов на вычисления. Однако наблюдение, что внимание может быть разделено на две части — с характеристикой высокой и низкой ранга, подсказывает возможность применения специальных стратегий ускорения. Это мотивирует разработку эффективных методов, уменьшающих затраты на вычисления без ущерба для качества.
#### Метод
Мы предлагаем Sparse-Linear Attention (SLA), метод, который сочетает в себе спарсное и линейное внимание. SLA классифицирует веса внимания на три группы: критические, маргинальные и незначительные. Для критических весов применяется полное внимание (O(N^2)), для маргинальных — уменьшенное (O(N)), а незначительные пропускаются. Мы реализовали персистентную классификацию весов в процессе обучения, что позволяет оптимизировать вычисления. Благодаря интеграции всех этих операций в один GPU-ядро и поддержке обратного прохода, SLA достигает высокой эффективности. Этот подход легко поддается оптимизации в уже обученных моделях с минимальным количеством файн-тюнинга.
#### Результаты
Мы провели эксперименты на видеогенерации с DiT моделями Wan2.1-1.3B. SLA позволила сократить вычислительные затраты на внимание в 95% при сохранении качества генерации. Это дало значительный ускорение — 13.7x в скорости вычисления внимания и 2.2x в общем времени генерации видео. Наши результаты показывают, что SLA дает значительное ускорение, опережая базовые методы в эффективности.
#### Значимость
Метод SLA может быть применен в различных областях, где используются Diffusion Transformer модели, таких как видеогенерация, трансляция и музыкальное создание. Он обеспечивает значительное ускорение без ущерба качеству и может быть эффективно интегрирован в существующие рабочие процессы. Это решение не только улучшает производительность, но и позволяет обрабатывать более длинные последовательности, расширяя возможности приложений.
#### Выводы
Мы представили SLA, новый метод ускорения Diffusion Transformer моделей, который эффективно разделяет внимание на критические, маргинальные и незначительные весы, применяя соответствующие ускорения. Этот подход позволяет значительно уменьшить время вычислений, при этом сохраняя качество генерации. Наше исследование открывает новые пути для будущих исследований в направлении эффективности и ускорения глубоких моделей видеогенерации.
Abstract
In Diffusion Transformer (DiT) models, particularly for video generation,
attention latency is a major bottleneck due to the long sequence length and the
quadratic complexity. We find that attention weights can be separated into two
parts: a small fraction of large weights with high rank and the remaining
weights with very low rank. This naturally suggests applying sparse
acceleration to the first part and low-rank acceleration to the second. Based
on this finding, we propose SLA (Sparse-Linear Attention), a trainable
attention method that fuses sparse and linear attention to accelerate diffusion
models. SLA classifies attention weights into critical, marginal, and
negligible categories, applying O(N^2) attention to critical weights, O(N)
attention to marginal weights, and skipping negligible ones. SLA combines these
computations into a single GPU kernel and supports both forward and backward
passes. With only a few fine-tuning steps using SLA, DiT models achieve a 20x
reduction in attention computation, resulting in significant acceleration
without loss of generation quality. Experiments show that SLA reduces attention
computation by 95% without degrading end-to-end generation quality,
outperforming baseline methods. In addition, we implement an efficient GPU
kernel for SLA, which yields a 13.7x speedup in attention computation and a
2.2x end-to-end speedup in video generation on Wan2.1-1.3B.
Ссылки и действия
Дополнительные ресурсы: