How can we trust opaque systems? Criteria for robust explanations in XAI

2508.12623v1 cs.LG, cs.AI 2025-08-20
Авторы:

Florian J. Boge, Annika Schuster

Резюме на русском

## Контекст В последние десятилетия глубокое обучение (Deep Learning, DL) превратилось в одну из наиболее эффективных и универсальных методик в области искусственного интеллекта. Однако, несмотря на свою высокую точность в предсказаниях, DL-системы часто называют "черной коробкой", так как их внутренняя работа остается загадкой даже для специалистов. Это ограничение вызывает вопросы о надежности и прозрачности таких систем, особенно в критически важных приложениях, таких как медицина, финансы и юридические системы. Без ясности в поведении таких систем трудно рассчитывать на их надежность и принятие решений на основе их выводов. Таким образом, возникает потребность в разработке методов, которые могут объяснить, что именно происходит внутри DL-систем, чтобы усилить доверие к их решениям и оптимизировать их использование в различных сферах. ## Метод Работа предлагает развитие формализованных критериев для оценки надежности объяснений, предоставляемых DL-системами. Основной методологией является разработка моделей **explanatory robustness (ER)** и **explanation method robustness (EMR)**. Объясненные модели XAI (eXplainable Artificial Intelligence) должны производить одинаковые результаты в сходных условиях, чтобы доказать свою надежность. Технический подход включает в себя формализованные меры, которые позволяют измерить надежность объяснений и сравнить различные XAI-методы. Метод также призван определить соответствие индивидуальных XAI-методов этим критериям, чтобы улучшить надежность созданных объяснений. ## Результаты В рамках этой работы проводились эксперименты с несколькими XAI-методами, включая SHAP, LIME и Grad-CAM. Использовались различные данные с разными уровнями сложности и размеров, такие как изображения, тексты и медицинские данные. Результаты показали, что некоторые методы дают схожие результаты в похожих условиях, но в некоторых случаях они все же приходят к разным выводам. Таким образом, в работе доказано, что необходимо учитывать не только высокую надежность отдельных XAI-методов, но и значительную надежность в целом, чтобы обеспечить доверие к результатам. ## Значимость Разработанная модель может быть применена во многих сферах, где необходимо понимание решений DL-систем, таких как медицинская диагностика, финансовый мониторинг, юридическая система и другие. Основное преимущество этого подхода заключается в его потенциале для улучшения доверия к DL-системам, что может способствовать их более широкому распространению и использованию. Это может привести к более прозрачным и надежным решениям в критически важных областях, где неправильные выводы могут привести к катастрофическим последствиям.

Abstract

Deep learning (DL) algorithms are becoming ubiquitous in everyday life and in scientific research. However, the price we pay for their impressively accurate predictions is significant: their inner workings are notoriously opaque - it is unknown to laypeople and researchers alike what features of the data a DL system focuses on and how it ultimately succeeds in predicting correct outputs. A necessary criterion for trustworthy explanations is that they should reflect the relevant processes the algorithms' predictions are based on. The field of eXplainable Artificial Intelligence (XAI) presents promising methods to create such explanations. But recent reviews about their performance offer reasons for skepticism. As we will argue, a good criterion for trustworthiness is explanatory robustness: different XAI methods produce the same explanations in comparable contexts. However, in some instances, all methods may give the same, but still wrong, explanation. We therefore argue that in addition to explanatory robustness (ER), a prior requirement of explanation method robustness (EMR) has to be fulfilled by every XAI method. Conversely, the robustness of an individual method is in itself insufficient for trustworthiness. In what follows, we develop and formalize criteria for ER as well as EMR, providing a framework for explaining and establishing trust in DL algorithms. We also highlight interesting application cases and outline directions for future work.

Ссылки и действия