Integrating attention into explanation frameworks for language and vision transformers
2508.08966v1
cs.LG, stat.ML
2025-08-14
Авторы:
Marte Eggen, Jacob Lysnæs-Larsen, Inga Strümke
Резюме на русском
## Контекст
Transformer-архитектуры, основанные на механизме внимания (attention), стали одним из ключевых инструментов в областях естественного языка обработки (NLP) и компьютерного зрения (computer vision). Они позволяют эффективно обрабатывать и анализировать большие объемы данных. Однако, несмотря на их высокую точность, эти модели часто становятся "черными ящиками", трудно объясняющими свои решения. Это затрудняет их использование в задачах, требующих понимания принципов принятия решений, таких как медицина, финансы и правоохранительные действия. Значительный интерес в последние годы уделяется развитию методов explainable AI (XAI), которые способствуют пониманию того, как модели принимают свои решения. Тем не менее, существующие методы часто ограничены в точности или не включают в себя понимание внутренних механизмов, таких как внимательность.
## Метод
Разработанные в этой работе методы интегрируют внимательность в рамки существующих XAI-фреймворков, адаптируя их для обеспечения более точных и интуитивных объяснений. Одна из методик предлагает интегрировать внимательность с теорией Шапли (Shapley values), определив характеристическую функцию через парные взаимодействия токенов, восходящие к внимательной модели. Это позволяет получать подробные локальные объяснения, которые отражают вклад каждого токена в модельное решение. Вторая методика использвает внимательность для измерения вклада токенов в различные понятия (concepts), используя векторы активации понятий. Эти методы работают как для NLP, так и для компьютерного зрения, обеспечивая универсальность и гибкость.
## Результаты
Наши эксперименты проводились на стандартных NLP- и computer vision-benchmarks, включая задачи классификации текстов и визуального распознавания. Мы сравнивали полученные результаты с тремя широко распространенными методами XAI. Результаты показали, что интеграция внимательности в эти фреймворки улучшает точность и понятность объяснений. Например, адаптированные методы Shapley values с внимательностью демонстрировали более точные локальные объяснения, чем исходные методы. Точность global explanation-методов, использующих векторы активации понятий, также существенно увеличилась, что было доказано с помощью метрик, таких как faithfulness и comprehensiveness.
## Значимость
Интеграция внимательности в XAI-фреймворки имеет значительный потенциал в различных областях применения. В NLP, эти методы могут использоваться для создания более прозрачных систем перевода, синтеза и обслуживания клиентов. В компьютерном зрении, они могут повысить доверие к моделям в таких приложениях, как диагностика заболеваний и авто
Abstract
The attention mechanism lies at the core of the transformer architecture,
providing an interpretable model-internal signal that has motivated a growing
interest in attention-based model explanations. Although attention weights do
not directly determine model outputs, they reflect patterns of token influence
that can inform and complement established explainability techniques. This work
studies the potential of utilising the information encoded in attention weights
to provide meaningful model explanations by integrating them into explainable
AI (XAI) frameworks that target fundamentally different aspects of model
behaviour. To this end, we develop two novel explanation methods applicable to
both natural language processing and computer vision tasks. The first
integrates attention weights into the Shapley value decomposition by redefining
the characteristic function in terms of pairwise token interactions via
attention weights, thus adapting this widely used game-theoretic solution
concept to provide attention-driven attributions for local explanations. The
second incorporates attention weights into token-level directional derivatives
defined through concept activation vectors to measure concept sensitivity for
global explanations. Our empirical evaluations on standard benchmarks and in a
comparison study with widely used explanation methods show that attention
weights can be meaningfully incorporated into the studied XAI frameworks,
highlighting their value in enriching transformer explainability.
Ссылки и действия
Дополнительные ресурсы: