On Spectral Properties of Gradient-based Explanation Methods

2508.10595v1 cs.LG, cs.AI, cs.CV 2025-08-16

Авторы:

Amir Mehrpanah, Erik Englesson, Hossein Azizpour

Резюме на русском

## Контекст Глубокие нейронные сети (ДНС) позволяют решать сложные задачи анализа данных, но их поведение часто остается непонятным. Это возражает обратную сторону их мощи — недостаток прозрачности и уязвимость к ошибкам. Чтобы увеличить надежность результатов ДНС, необходимо понять, почему они приходят к определенным выводам. В этой области важным направлением является развитие методов объяснения (explanation methods), которые помогают понять, как ДНС приходят к своим решениям. Однако существуют проблемы надежности и последовательности результатов этих методов. Одним из основных причин является недостаточное формализм, что приводит к несостоятельности в анализе. Наша работа направлена на устранение этого недостатка, используя новые математические подходы, чтобы дать обоснованные и последовательные ответы на вопросы о поведении глубоких нейронных сетей. ## Метод Мы применяем новые формализмы, основанные на проблемах градиентных методов объяснения, чтобы проанализировать их поведение. Наша методология основывается на двух главных подходах: (i) **проблема градиента в качестве основы интерпретации** и (ii) **проблема спектральных свойств полученных результатов**. Мы исследуем, как использование градиентов в методах объяснения влияет на результат и какие спектральные свойства могут быть получены в результате этого использования. Мы также рассматриваем различные методы, такие как **SmoothGrad**, которые вводят дополнительные параметры в процессе объяснения. Наша архитектура позволяет связать все эти приемы с помощью нового градиентно-спектрального формализма, чтобы уточнить и улучшить понимание результатов. ## Результаты Мы проводим многочисленные эксперименты с различными методами объяснения, включая **SmoothGrad** и другие, с различными наборами гиперпараметров. Мы используем разных типов данных и глубоких нейронных сетей, чтобы проверить наши теоретические выводы. Наши результаты показывают, что методы, основанные на градиентах, имеют часто встречающуюся **градиентно-спектральную биаз**. Мы также показываем, что **сквадратный градиент** и **погрешность ввода** — основные факторы, которые влияют на результат. Кроме того, мы выявляем, что корректный выбор **параметров упряжения (perturbation)** в методах, таких как SmoothGrad, может привести к непоследовательности результатов. Мы предлагаем два новых метода, чтобы устранить эти проблемы: (i) механизм для определения **стандартной гиперпараметра упряжения** и (ii) **агрегационный метод SpectralLens**, который позволяет улучшить полученные результаты и дать более последовательные объяснения. ## Значимость Наши резуль

Abstract

Understanding the behavior of deep networks is crucial to increase our confidence in their results. Despite an extensive body of work for explaining their predictions, researchers have faced reliability issues, which can be attributed to insufficient formalism. In our research, we adopt novel probabilistic and spectral perspectives to formally analyze explanation methods. Our study reveals a pervasive spectral bias stemming from the use of gradient, and sheds light on some common design choices that have been discovered experimentally, in particular, the use of squared gradient and input perturbation. We further characterize how the choice of perturbation hyperparameters in explanation methods, such as SmoothGrad, can lead to inconsistent explanations and introduce two remedies based on our proposed formalism: (i) a mechanism to determine a standard perturbation scale, and (ii) an aggregation method which we call SpectralLens. Finally, we substantiate our theoretical results through quantitative evaluations.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

On Spectral Properties of Gradient-based Explanation Methods

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TV2TV: A Unified Framework for Interleaved Language and Video Generation

The Universal Weight Subspace Hypothesis

STeP-Diff: Spatio-Temporal Physics-Informed Diffusion Models for Mobile Fine-Gra...

Open-Set Domain Adaptation Under Background Distribution Shift: Challenges and A...

First On-Orbit Demonstration of a Geospatial Foundation Model

Навигация