Towards Interpretable and Efficient Attention: Compressing All by Contracting a Few
2509.16875v2
cs.LG, cs.CV
2025-09-24
Авторы:
Qishuai Wen, Zhiyuan Huang, Chun-Guang Li
Резюме на русском
#### Контекст
Transformer-based модели, особенно в сфере глубокого обучения, стали одним из наиболее эффективных инструментов для представления и обработки данных. Одна из ключевых компонент, обеспечивающих этот успех, является модель автопрогноза (self-attention), которая позволяет моделям сфокусироваться на самых важных частях входных данных. Однако, существуют две основные проблемы, связанные с такими моделями: необходимость в повышении прозрачности и эффективности. Современные методы атанданса часто являются непрозрачными, что затрудняет их использование в задачах, требующих понимания решений, и высокосложностными, что ограничивает применение моделей в реальном времени. Эти проблемы стимулируют развитие методов, способных объединить прозрачность и эффективность в одном решении.
#### Метод
Мы предлагаем Contract-and-Broadcast Self-Attention (CBSA), новую атанданс-методику, которая решает проблему непрозрачности и сложности, связанной с моделями атанданса. CBSA работает путем "сжатия" всех токенов во входных данных до низкоразмерных представлений (contracting), используя лишь несколько представительных токенов. Затем эти сжатые представления "обращаются" обратно в выходное представление (broadcasting). Этот подход гарантирует линейную сложность, что позволяет модели обрабатывать большие объемы данных быстрее и эффективнее. Таким образом, CBSA объединяет прозрачность и эффективность, которыми обычно страдают разные методы.
#### Результаты
Мы провели эксперименты на нескольких задачах, включая обработку естественных языков и изображений, используя наши модели CBSA. Результаты показали, что CBSA совместима с традиционными моделями в терминах точности, при этом существенно улучшая их скорость и сжимая модели. Кроме того, мы выявили, что CBSA достигает этих результатов благодаря уникальной архитектуре, которая не требует дополнительных ресурсов, чем стандартные модели. Эти результаты указывают на потенциал CBSA в различных задачах, где требуется быстрый и прозрачный анализ данных.
#### Значимость
Наш подход значительно расширяет возможности использования атанданс-методов в сценариях, где участвуют большие объемы данных. Для примера, в области глубокого обучения и мобильных приложений, где необходимы высокая скорость и низкий расход памяти, CBSA может стать ключевым решением. Эта новая атанданс-методика также открывает пути для дальнейшего изучения того, как модели могут быть как прозрачными, так и эффективными.
#### Выводы
Мы представили CBSA — новую методику, которая успешно решает проблемы непрозрачности и сложности моделей атанданса. Наши эксперименты показали, что CBSA
Abstract
Attention mechanisms in Transformers have gained significant empirical
success. Nonetheless, the optimization objectives underlying their forward pass
are still unclear. Additionally, the quadratic complexity of self-attention is
increasingly prohibitive. Unlike the prior work on addressing the
interpretability or efficiency issue separately, we propose a unified
optimization objective to alleviate both issues simultaneously. By unrolling
the optimization over the objective, we derive an inherently interpretable and
efficient attention mechanism, which compresses all tokens into low-dimensional
structures by contracting a few representative tokens and then broadcasting the
contractions back. This Contract-and-Broadcast Self-Attention (CBSA) mechanism
can not only scale linearly but also generalize existing attention mechanisms
as its special cases. Experiments further demonstrate comparable performance
and even superior advantages of CBSA on several visual tasks. Code is available
at this https URL.
Ссылки и действия
Дополнительные ресурсы: