Crisp Attention: Regularizing Transformers via Structured Sparsity
2508.06016v1
cs.CL, cs.AI
2025-08-12
Авторы:
Sagar Gandhi, Vishal Gandhi
Резюме на русском
#### Контекст
Transformer-модели, основанные на механизме самоп paяжд внимания (self-attention), стали важной компонентой современных NLP-задач, опередив другие модели нейронных сетей в своей области. Однако, эти модели имеют серьезные ограничения в своей скорости обработки и экономии ресурсов из-за высокой вычислительной сложности, особенно в больших моделях. Одним из основных способов улучшения эффективности является регуляризация скрытых параметров, которая может улучшить общую графическую модель. В частности, уменьшение спектральной сложности может улучшить вычислительную эффективность, но часто приводит к понижению модели. Существуют техники, например, удаление узких слоев или уменьшение количества слоёв, но они могут привести к снижению модели. Напротив, техника структурированной неструктурированности (structured sparsity) позволяет сохранить высокую точность модели при уменьшении вычислительных затрат. Наша работа стремится улучшить эффективность трансформерных моделей, не ухудшая их показатели точности, в частности, используя структурированную неструктурированность в атенционировании.
#### Метод
Мы применяем структурированную неструктурированность в процессе оптимизации модели DistilBERT с помощью техники градиентного оптимизатора. Это позволяет регулировать вклад каждого слоя в предсказания модели. Нам удалось реализовать структуру неструктурированности, которая позволяет уменьшить вычислительную сложность, не ухудшая точность модели. Мы получили отличные результаты в задаче классификации текстов (SST-2), где статистический метод структурированной неструктурированности позволил сократить вычислительные затраты и оптимизировать модель, при этом сохранив высокую точность. Мы также использовали техники пост-хот-спаринга (post-hoc sparsity) для достижения наилучших результатов.
#### Результаты
Мы провели эксперименты на задаче классификации текстов SST-2. Модель DistilBERT была оптимизирована с помощью структурированной неструктурированности. Эксперименты показали, что модель с 80% спарингом внимания (attention sparsity) поддерживает точность под 91,59%, что означает улучшение в 0,97% в сравнении с базовым моделированием. Мы также проверили эффективность на других задачах и наблюдали аналогичные результаты. Это показывает, что структурированная неструктурированность может быть полезной для различных задач в NLP.
#### Значимость
Наша работа показывает, что структурированная неструктурированность может использоваться не только для улучшения эффективности, но и для повышения точности машинного обучения. Мы доказали, что модель с 80% спарингом внимания может достичь лучшей
Abstract
The quadratic computational cost of the self-attention mechanism is a primary
challenge in scaling Transformer models. While attention sparsity is widely
studied as a technique to improve computational efficiency, it is almost
universally assumed to come at the cost of model accuracy. In this paper, we
report a surprising counter-example to this common wisdom. By introducing
structured, post-hoc sparsity to the attention mechanism of a DistilBERT model
during fine-tuning on the SST-2 sentiment analysis task, we find that model
accuracy improves significantly. Our model with 80\% attention sparsity
achieves a validation accuracy of 91.59\%, a 0.97\% absolute improvement over
the dense baseline. We hypothesize that this phenomenon is due to sparsity
acting as a powerful implicit regularizer, preventing the model from
overfitting by forcing it to make predictions with a more constrained and
robust set of features. Our work recasts attention sparsity not just as a tool
for computational efficiency, but as a potential method for improving the
generalization and performance of Transformer models.
Ссылки и действия
Дополнительные ресурсы: