Integrating attention into explanation frameworks for language and vision transformers

2508.08966v1 cs.LG, stat.ML 2025-08-14
Авторы:

Marte Eggen, Jacob Lysnæs-Larsen, Inga Strümke

Резюме на русском

## Контекст Transformer-архитектуры, основанные на механизме внимания (attention), стали одним из ключевых инструментов в областях естественного языка обработки (NLP) и компьютерного зрения (computer vision). Они позволяют эффективно обрабатывать и анализировать большие объемы данных. Однако, несмотря на их высокую точность, эти модели часто становятся "черными ящиками", трудно объясняющими свои решения. Это затрудняет их использование в задачах, требующих понимания принципов принятия решений, таких как медицина, финансы и правоохранительные действия. Значительный интерес в последние годы уделяется развитию методов explainable AI (XAI), которые способствуют пониманию того, как модели принимают свои решения. Тем не менее, существующие методы часто ограничены в точности или не включают в себя понимание внутренних механизмов, таких как внимательность. ## Метод Разработанные в этой работе методы интегрируют внимательность в рамки существующих XAI-фреймворков, адаптируя их для обеспечения более точных и интуитивных объяснений. Одна из методик предлагает интегрировать внимательность с теорией Шапли (Shapley values), определив характеристическую функцию через парные взаимодействия токенов, восходящие к внимательной модели. Это позволяет получать подробные локальные объяснения, которые отражают вклад каждого токена в модельное решение. Вторая методика использвает внимательность для измерения вклада токенов в различные понятия (concepts), используя векторы активации понятий. Эти методы работают как для NLP, так и для компьютерного зрения, обеспечивая универсальность и гибкость. ## Результаты Наши эксперименты проводились на стандартных NLP- и computer vision-benchmarks, включая задачи классификации текстов и визуального распознавания. Мы сравнивали полученные результаты с тремя широко распространенными методами XAI. Результаты показали, что интеграция внимательности в эти фреймворки улучшает точность и понятность объяснений. Например, адаптированные методы Shapley values с внимательностью демонстрировали более точные локальные объяснения, чем исходные методы. Точность global explanation-методов, использующих векторы активации понятий, также существенно увеличилась, что было доказано с помощью метрик, таких как faithfulness и comprehensiveness. ## Значимость Интеграция внимательности в XAI-фреймворки имеет значительный потенциал в различных областях применения. В NLP, эти методы могут использоваться для создания более прозрачных систем перевода, синтеза и обслуживания клиентов. В компьютерном зрении, они могут повысить доверие к моделям в таких приложениях, как диагностика заболеваний и авто

Abstract

The attention mechanism lies at the core of the transformer architecture, providing an interpretable model-internal signal that has motivated a growing interest in attention-based model explanations. Although attention weights do not directly determine model outputs, they reflect patterns of token influence that can inform and complement established explainability techniques. This work studies the potential of utilising the information encoded in attention weights to provide meaningful model explanations by integrating them into explainable AI (XAI) frameworks that target fundamentally different aspects of model behaviour. To this end, we develop two novel explanation methods applicable to both natural language processing and computer vision tasks. The first integrates attention weights into the Shapley value decomposition by redefining the characteristic function in terms of pairwise token interactions via attention weights, thus adapting this widely used game-theoretic solution concept to provide attention-driven attributions for local explanations. The second incorporates attention weights into token-level directional derivatives defined through concept activation vectors to measure concept sensitivity for global explanations. Our empirical evaluations on standard benchmarks and in a comparison study with widely used explanation methods show that attention weights can be meaningfully incorporated into the studied XAI frameworks, highlighting their value in enriching transformer explainability.

Ссылки и действия