On the Complexity-Faithfulness Trade-off of Gradient-Based Explanations

2508.10490v1 cs.LG, cs.AI, cs.CV 2025-08-16
Авторы:

Amir Mehrpanah, Matteo Gamba, Kevin Smith, Hossein Azizpour

Резюме на русском

#### Контекст Визуальные задачи, такие как обработка изображений и классификация, часто основываются на ReLU-сетях, известных своим высоким эффективностью и точностью. Однако эти сети обладают сильными переходами, которые могут привести к тому, что их предсказания зависят от отдельных пикселей или небольших наборов данных. Это вызывает проблемы для градиентно-основанных методов объяснения, таких как Grad-CAM, которые часто отдают шумные и неточные результаты. Недостаточная четкость и надежность таких методов ограничивают их применение в реальных задачах. Наша мотивация заключается в том, чтобы разработать более прозрачные и точные методы объяснения, которые могут быть эффективно использованы в сложных задачах машинного обучения. #### Метод Мы предлагаем универсальный спектральный подход для анализа и измерения точности и достоверности градиентных методов объяснения. Наше решение построено на двух основных компонентах. Во-первых, мы разрабатываем методы для измерения "высокочастотного содержания" в выходных данных сети, которые часто становятся причиной шума в градиентных методах. Во-вторых, мы вводим квантифицированную меру того, как подходы, такие как Grad-CAM, могут изменять логику сети при попытке улучшить их читаемость. Это позволяет нам формально определить "explanation gap" — разницу между настоящими причинами предсказания и тому, что мы видим в объяснении. #### Результаты Мы проводили эксперименты на нескольких датасетах, включая CIFAR-10 и ImageNet. Используя нашу модель, мы смогли точно определить и измерить "explanation gap" для различных методов объяснения. Наши результаты показали, что существующие методы, такие как Grad-CAM, могут существенно деформировать выводы, когда они стараются уменьшить шум. Мы также проанализировали как различные архитектурные решения, такие как различные виды нормализации и аугментаций, влияют на точность и достоверность объяснений. #### Значимость Наша работа имеет значительное значение для нескольких областей, включая обучение с подкреплением, медицинскую информатику и многоязычные модели. Методы, разработанные в этой статье, могут помочь уменьшить неточности в объяснениях, улучшить надежность моделей в задачах, требующих высокой точности, и обеспечить более прозрачную интеракцию с моделями. Это может привести к повышению доверия пользователей к моделям и их расширенному применению в критичных областях. #### Выводы Мы установили, что существует естественный трейдоф между читаемостью и точностью объяснений, и мы предложили способы измерить и регулировать этот трейдоф. Наш подход может быть расширен для исследования других ас

Abstract

ReLU networks, while prevalent for visual data, have sharp transitions, sometimes relying on individual pixels for predictions, making vanilla gradient-based explanations noisy and difficult to interpret. Existing methods, such as GradCAM, smooth these explanations by producing surrogate models at the cost of faithfulness. We introduce a unifying spectral framework to systematically analyze and quantify smoothness, faithfulness, and their trade-off in explanations. Using this framework, we quantify and regularize the contribution of ReLU networks to high-frequency information, providing a principled approach to identifying this trade-off. Our analysis characterizes how surrogate-based smoothing distorts explanations, leading to an ``explanation gap'' that we formally define and measure for different post-hoc methods. Finally, we validate our theoretical findings across different design choices, datasets, and ablations.

Ссылки и действия