Towards Interpretable and Efficient Attention: Compressing All by Contracting a Few

2509.16875v2 cs.LG, cs.CV 2025-09-24

Авторы:

Qishuai Wen, Zhiyuan Huang, Chun-Guang Li

Резюме на русском

#### Контекст Transformer-based модели, особенно в сфере глубокого обучения, стали одним из наиболее эффективных инструментов для представления и обработки данных. Одна из ключевых компонент, обеспечивающих этот успех, является модель автопрогноза (self-attention), которая позволяет моделям сфокусироваться на самых важных частях входных данных. Однако, существуют две основные проблемы, связанные с такими моделями: необходимость в повышении прозрачности и эффективности. Современные методы атанданса часто являются непрозрачными, что затрудняет их использование в задачах, требующих понимания решений, и высокосложностными, что ограничивает применение моделей в реальном времени. Эти проблемы стимулируют развитие методов, способных объединить прозрачность и эффективность в одном решении. #### Метод Мы предлагаем Contract-and-Broadcast Self-Attention (CBSA), новую атанданс-методику, которая решает проблему непрозрачности и сложности, связанной с моделями атанданса. CBSA работает путем "сжатия" всех токенов во входных данных до низкоразмерных представлений (contracting), используя лишь несколько представительных токенов. Затем эти сжатые представления "обращаются" обратно в выходное представление (broadcasting). Этот подход гарантирует линейную сложность, что позволяет модели обрабатывать большие объемы данных быстрее и эффективнее. Таким образом, CBSA объединяет прозрачность и эффективность, которыми обычно страдают разные методы. #### Результаты Мы провели эксперименты на нескольких задачах, включая обработку естественных языков и изображений, используя наши модели CBSA. Результаты показали, что CBSA совместима с традиционными моделями в терминах точности, при этом существенно улучшая их скорость и сжимая модели. Кроме того, мы выявили, что CBSA достигает этих результатов благодаря уникальной архитектуре, которая не требует дополнительных ресурсов, чем стандартные модели. Эти результаты указывают на потенциал CBSA в различных задачах, где требуется быстрый и прозрачный анализ данных. #### Значимость Наш подход значительно расширяет возможности использования атанданс-методов в сценариях, где участвуют большие объемы данных. Для примера, в области глубокого обучения и мобильных приложений, где необходимы высокая скорость и низкий расход памяти, CBSA может стать ключевым решением. Эта новая атанданс-методика также открывает пути для дальнейшего изучения того, как модели могут быть как прозрачными, так и эффективными. #### Выводы Мы представили CBSA — новую методику, которая успешно решает проблемы непрозрачности и сложности моделей атанданса. Наши эксперименты показали, что CBSA

Abstract

Attention mechanisms in Transformers have gained significant empirical success. Nonetheless, the optimization objectives underlying their forward pass are still unclear. Additionally, the quadratic complexity of self-attention is increasingly prohibitive. Unlike the prior work on addressing the interpretability or efficiency issue separately, we propose a unified optimization objective to alleviate both issues simultaneously. By unrolling the optimization over the objective, we derive an inherently interpretable and efficient attention mechanism, which compresses all tokens into low-dimensional structures by contracting a few representative tokens and then broadcasting the contractions back. This Contract-and-Broadcast Self-Attention (CBSA) mechanism can not only scale linearly but also generalize existing attention mechanisms as its special cases. Experiments further demonstrate comparable performance and even superior advantages of CBSA on several visual tasks. Code is available at this https URL.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Towards Interpretable and Efficient Attention: Compressing All by Contracting a Few

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Studying Various Activation Functions and Non-IID Data for Machine Learning Mode...

Feature Engineering vs. Deep Learning for Automated Coin Grading: A Comparative ...

Rethinking Decoupled Knowledge Distillation: A Predictive Distribution Perspecti...

Value Gradient Guidance for Flow Matching Alignment

Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe

Навигация