On Spectral Properties of Gradient-based Explanation Methods
2508.10595v1
cs.LG, cs.AI, cs.CV
2025-08-16
Авторы:
Amir Mehrpanah, Erik Englesson, Hossein Azizpour
Резюме на русском
## Контекст
Глубокие нейронные сети (ДНС) позволяют решать сложные задачи анализа данных, но их поведение часто остается непонятным. Это возражает обратную сторону их мощи — недостаток прозрачности и уязвимость к ошибкам. Чтобы увеличить надежность результатов ДНС, необходимо понять, почему они приходят к определенным выводам. В этой области важным направлением является развитие методов объяснения (explanation methods), которые помогают понять, как ДНС приходят к своим решениям. Однако существуют проблемы надежности и последовательности результатов этих методов. Одним из основных причин является недостаточное формализм, что приводит к несостоятельности в анализе. Наша работа направлена на устранение этого недостатка, используя новые математические подходы, чтобы дать обоснованные и последовательные ответы на вопросы о поведении глубоких нейронных сетей.
## Метод
Мы применяем новые формализмы, основанные на проблемах градиентных методов объяснения, чтобы проанализировать их поведение. Наша методология основывается на двух главных подходах: (i) **проблема градиента в качестве основы интерпретации** и (ii) **проблема спектральных свойств полученных результатов**. Мы исследуем, как использование градиентов в методах объяснения влияет на результат и какие спектральные свойства могут быть получены в результате этого использования. Мы также рассматриваем различные методы, такие как **SmoothGrad**, которые вводят дополнительные параметры в процессе объяснения. Наша архитектура позволяет связать все эти приемы с помощью нового градиентно-спектрального формализма, чтобы уточнить и улучшить понимание результатов.
## Результаты
Мы проводим многочисленные эксперименты с различными методами объяснения, включая **SmoothGrad** и другие, с различными наборами гиперпараметров. Мы используем разных типов данных и глубоких нейронных сетей, чтобы проверить наши теоретические выводы. Наши результаты показывают, что методы, основанные на градиентах, имеют часто встречающуюся **градиентно-спектральную биаз**. Мы также показываем, что **сквадратный градиент** и **погрешность ввода** — основные факторы, которые влияют на результат. Кроме того, мы выявляем, что корректный выбор **параметров упряжения (perturbation)** в методах, таких как SmoothGrad, может привести к непоследовательности результатов. Мы предлагаем два новых метода, чтобы устранить эти проблемы: (i) механизм для определения **стандартной гиперпараметра упряжения** и (ii) **агрегационный метод SpectralLens**, который позволяет улучшить полученные результаты и дать более последовательные объяснения.
## Значимость
Наши резуль
Abstract
Understanding the behavior of deep networks is crucial to increase our
confidence in their results. Despite an extensive body of work for explaining
their predictions, researchers have faced reliability issues, which can be
attributed to insufficient formalism. In our research, we adopt novel
probabilistic and spectral perspectives to formally analyze explanation
methods. Our study reveals a pervasive spectral bias stemming from the use of
gradient, and sheds light on some common design choices that have been
discovered experimentally, in particular, the use of squared gradient and input
perturbation. We further characterize how the choice of perturbation
hyperparameters in explanation methods, such as SmoothGrad, can lead to
inconsistent explanations and introduce two remedies based on our proposed
formalism: (i) a mechanism to determine a standard perturbation scale, and (ii)
an aggregation method which we call SpectralLens. Finally, we substantiate our
theoretical results through quantitative evaluations.
Ссылки и действия
Дополнительные ресурсы: