Attribution Explanations for Deep Neural Networks: A Theoretical Perspective
2508.07636v1
cs.LG, cs.AI
2025-08-13
Авторы:
Huiqi Deng, Hongbin Pei, Quanshi Zhang, Mengnan Du
Резюме на русском
#### Контекст
В последние годы глубокие нейронные сети (DNNs) стали одним из наиболее эффективных инструментов в области машинного обучения, применяемых в различных сферах, от обработки естественных языков до медицины. Однако, несмотря на их высокую точность и надежность, DNNs часто описываются как "черные ящики", так как их работа не всегда понятна. Это снижает их потенциал в принятии важных решений в критически важных областях. Чтобы улучшить понимание работы DNNs, были разработаны различные методы атрибуции, которые предлагают важность входных переменных для получения конечного вывода. Эти методы помогают пользователям понять, что именно влияет на решение сети. Тем не менее, остается уточнить: могут ли эти методы полностью и точно отражать вклад входных переменных в процесс принятия решений? Эта проблема, известная как "проблема надежности," настойчиво остается неразрешенной, что снижает доверие к этим методам в практическом применении.
#### Метод
Чтобы обозначить теоретические проблемы и развитие методов атрибуции, мы привлекли три основных направления исследований. **Первый** состоит в теоретическом объединении методов. Мы рассматриваем существующие методы атрибуции, анализируя их сходства и различия, что позволяет проводить систематическую оценку и сравнение их эффективности. **Второй** направление заключается в разработке теоретических обоснований. Мы постарались прояснить фундаментальную логику, на которой основываются методы, чтобы улучшить их понятность и доказательство того, как они работают. **Третий** направление — теоретическое оценивание. Мы разрабатываем методы, которые позволяют строго доказывать, соответствуют ли атрибуционные методы фидбеку-принципам, устанавливающим, насколько точно они отражают вклад входных переменных в вывод. Эти три направления способствуют более глубокому пониманию существующих методов и информируют нас о том, какие из них могут считаться надежными для конкретных задач.
#### Результаты
Мы провели эксперименты, используя широкий спектр данных и методов атрибуции, чтобы проверить вышеупомянутые теоретические направления. Мы оценили, насколько каждый метод соответствует нашим теоретическим ожиданиям в ситуациях, когда вклад входных переменных может быть явно измерен. Наши результаты показали, что некоторые методы проявляют высокий уровень надежности и полноты в отражении вклада входных переменных, в то время как другие показали слабую надежность или несогласованность. Эти эксперименты подкреплялись статистическими данными и анализом структуры каждого метода, чтобы прояс
Abstract
Attribution explanation is a typical approach for explaining deep neural
networks (DNNs), inferring an importance or contribution score for each input
variable to the final output. In recent years, numerous attribution methods
have been developed to explain DNNs. However, a persistent concern remains
unresolved, i.e., whether and which attribution methods faithfully reflect the
actual contribution of input variables to the decision-making process. The
faithfulness issue undermines the reliability and practical utility of
attribution explanations. We argue that these concerns stem from three core
challenges. First, difficulties arise in comparing attribution methods due to
their unstructured heterogeneity, differences in heuristics, formulations, and
implementations that lack a unified organization. Second, most methods lack
solid theoretical underpinnings, with their rationales remaining absent,
ambiguous, or unverified. Third, empirically evaluating faithfulness is
challenging without ground truth. Recent theoretical advances provide a
promising way to tackle these challenges, attracting increasing attention. We
summarize these developments, with emphasis on three key directions: (i)
Theoretical unification, which uncovers commonalities and differences among
methods, enabling systematic comparisons; (ii) Theoretical rationale,
clarifying the foundations of existing methods; (iii) Theoretical evaluation,
rigorously proving whether methods satisfy faithfulness principles. Beyond a
comprehensive review, we provide insights into how these studies help deepen
theoretical understanding, inform method selection, and inspire new attribution
methods. We conclude with a discussion of promising open problems for further
work.
Ссылки и действия
Дополнительные ресурсы: