DeepFaith: A Domain-Free and Model-Agnostic Unified Framework for Highly Faithful Explanations

2508.03586v1 cs.LG, cs.AI 2025-08-06
Авторы:

Yuhan Guo, Lizhong Ding, Shihan Jia, Yanyu Ren, Pengqi Li, Jiarun Fu, Changsheng Li, Ye yuan, Guoren Wang

Резюме на русском

Существующие методы Explainable AI (XAI) измеряют faithfulness десятками разных метрик и не имеют единой «правильной» интерпретации, что затрудняет объективное сравнение и дальнейшие улучшения. Авторы предлагают DeepFaith — единую модель-агностичную рамку, которая теоретически выводит оптимальное объяснение, максимизирующеe faithfulness сразу по всем популярным метрикам. Обучение идёт на «супервайзере», собранном из лучших фрагментов существующих методов, и заканчивается одним forward-pass без доступа к целевой модели. На 12 задачах, 6 моделях и 6 датасетах DeepFaith показывает наивысшие средние значения по 10 фундаментальным метрикам, демонстрируя домен-независимую обобщаемость и практическую применимость.

Abstract

Explainable AI (XAI) builds trust in complex systems through model attribution methods that reveal the decision rationale. However, due to the absence of a unified optimal explanation, existing XAI methods lack a ground truth for objective evaluation and optimization. To address this issue, we propose Deep architecture-based Faith explainer (DeepFaith), a domain-free and model-agnostic unified explanation framework under the lens of faithfulness. By establishing a unified formulation for multiple widely used and well-validated faithfulness metrics, we derive an optimal explanation objective whose solution simultaneously achieves optimal faithfulness across these metrics, thereby providing a ground truth from a theoretical perspective. We design an explainer learning framework that leverages multiple existing explanation methods, applies deduplicating and filtering to construct high-quality supervised explanation signals, and optimizes both pattern consistency loss and local correlation to train a faithful explainer. Once trained, DeepFaith can generate highly faithful explanations through a single forward pass without accessing the model being explained. On 12 diverse explanation tasks spanning 6 models and 6 datasets, DeepFaith achieves the highest overall faithfulness across 10 metrics compared to all baseline methods, highlighting its effectiveness and cross-domain generalizability.

Ссылки и действия