Informative Post-Hoc Explanations Only Exist for Simple Functions

2508.11441v1 cs.LG, cs.AI 2025-08-19
Авторы:

Eric Günther, Balázs Szabados, Robi Bhattacharjee, Sebastian Bordt, Ulrike von Luxburg

Резюме на русском

## Контекст В современном машинном обучении возникла необходимость в понимании и объяснении решений, принимаемых моделями. Локальные алгоритмы пост-хок (post-hoc) объяснений получили широкое применение для разгруппировки работы сложной модели и получения интуитивно понятных обоснований её действий. Однако существуют существенные ограничения: большинство теоретических гарантий получены только для простых моделей, в то время как теория информативности подобных методов для сложных моделей остается неизясненной. Эта проблема имеет практическое значение, так как многие приложения, такие как аудит моделей и регулирование, требуют доказательства того, что работа модели имеет понятное обоснование и может быть проверена с помощью пост-хок алгоритмов. В данной работе мы предлагаем новую формализацию термина "информативность" для таких методов и проверяем её на популярных алгоритмах. ## Метод Мы предлагаем новый формализм информативности, основанный на теории обучения. Информативность определяется как способность алгоритма уменьшить комплексность пространства возможных решений. Мы используем этот формализм для анализа широкого круга алгоритмов, включая gradient explanations, counterfactual explanations, SHAP, и anchor explanations. Наши эксперименты проводятся на синтетических и реальных данных, а результаты оцениваются с помощью теоретического анализа и сравнения взаимодействия алгоритмов с различными моделями. ## Результаты Мы показали, что многие популярные алгоритмы объяснений не информативны в отношении сложности моделей. Например, gradient explanations и counterfactual explanations не могут уменьшить комплексность пространства различных моделей, если эти модели являются различными выпуклыми штрафами. То же самое касается SHAP и anchor explanations при работе с моделями деревьев решений. Наши результаты демонстрируют, что для того, чтобы алгоритм стал информативным, требуются сильные дополнительные ограничения на модели и данные. ## Значимость Наши результаты показывают, что локальные пост-хок объяснения не могут гарантировать информативность для сложных моделей. Это имеет значительные последствия для широкого круга применений, включая аудит моделей, регулирование и приложения, требующие высокой надёжности. Мы также обсуждаем, как могут быть модифицированы существующие методы, чтобы стать информативными, и показываем, что это влечёт за собой существенные усложнения алгоритмов. ## Выводы Наше исследование сформулировало новый формализм информативности для объяснений, а также дало первые оценки того, насколько сложно достичь информативности в сложных моделях. Это подчеркивает необходимость более глубокого понимания интуити

Abstract

Many researchers have suggested that local post-hoc explanation algorithms can be used to gain insights into the behavior of complex machine learning models. However, theoretical guarantees about such algorithms only exist for simple decision functions, and it is unclear whether and under which assumptions similar results might exist for complex models. In this paper, we introduce a general, learning-theory-based framework for what it means for an explanation to provide information about a decision function. We call an explanation informative if it serves to reduce the complexity of the space of plausible decision functions. With this approach, we show that many popular explanation algorithms are not informative when applied to complex decision functions, providing a rigorous mathematical rejection of the idea that it should be possible to explain any model. We then derive conditions under which different explanation algorithms become informative. These are often stronger than what one might expect. For example, gradient explanations and counterfactual explanations are non-informative with respect to the space of differentiable functions, and SHAP and anchor explanations are not informative with respect to the space of decision trees. Based on these results, we discuss how explanation algorithms can be modified to become informative. While the proposed analysis of explanation algorithms is mathematical, we argue that it holds strong implications for the practical applicability of these algorithms, particularly for auditing, regulation, and high-risk applications of AI.

Ссылки и действия