Representation Understanding via Activation Maximization
2508.07281v1
cs.CV, cs.AI
2025-08-13
Авторы:
Hongbo Zhu, Angelo Cangelosi
Резюме на русском
#### Контекст
В последние годы глубокие нейронные сети (DNNs) стали одним из наиболее эффективных инструментов для решения задач классификации изображений, текстов и аудио. Однако у них существует значительный недостаток: недостаточная понятность интерпретации результатов. Это ограничивает их применение в критических областях, таких как медицина и юриспруденция, где требуется понятная интерпретация решений. Одним из подходов к разъяснению внутренних представлений сетей является Activation Maximization (AM) — метод, нацеленный на синтез входных данных, вызывающих сильные ответы от нейронов сети. Несмотря на то, что AM был применен ранее, основные исследования фокусировались на последних слоях сверточных нейронных сетей (CNNs). Наша мотивация заключается в расширении этого подхода на внутренние слои и использовании его для разных архитектур, включая Vision Transformers (ViTs).
#### Метод
Мы предлагаем обобщенную фреймфорк для визуализации функций, который может быть применен к CNNs и ViTs. Наш метод строится на идее максимизации активации нейрона, используя градиентный подъем по многомерному пространству входов. Для того чтобы расширить применение метода на внутренние слои, мы применяем локальные ограничения, чтобы генерировать входы, которые активируют конкретные нейроны внутри этих слоев. Для ViTs мы используем трансформерские блоки для уточненной визуализации. Эта архитектура позволяет проводить эксперименты не только с выходными слоями, но и с промежуточными, что дает более полное представление о внутреннем устройстве сетей.
#### Результаты
Используя наши методы, мы провели эксперименты на популярных базах данных, таких как CIFAR-10 и ImageNet. Мы сравнивали наши результаты с текущими методами визуализации и показали, что наш подход дает более ясные и точные представления о внутренних представлениях. Мы также проверили эффективность нашего подхода в создании адверсарных примеров, показав, что он может эффективно использоваться для выявления уязвимостей DNNs. Выполненные эксперименты указывают на широкую применимость нашего подхода к разным типам нейронных сетей.
#### Значимость
Наш подход может быть применен в системах, требующих понятной интерпретации результатов, таких как медицинские системы диагностики и системы безопасности. Он также может стать полезным для отладки моделей и выявления уязвимостей, что может привести к более надежным системам. Более широкое применение включает в себя исследования в области обучения с подкреплением и моделирования внимания, где понимание внутренних представлений ключевое значение имеет.
#### Выводы
М
Abstract
Understanding internal feature representations of deep neural networks (DNNs)
is a fundamental step toward model interpretability. Inspired by neuroscience
methods that probe biological neurons using visual stimuli, recent deep
learning studies have employed Activation Maximization (AM) to synthesize
inputs that elicit strong responses from artificial neurons. In this work, we
propose a unified feature visualization framework applicable to both
Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). Unlike
prior efforts that predominantly focus on the last output-layer neurons in
CNNs, we extend feature visualization to intermediate layers as well, offering
deeper insights into the hierarchical structure of learned feature
representations. Furthermore, we investigate how activation maximization can be
leveraged to generate adversarial examples, revealing potential vulnerabilities
and decision boundaries of DNNs. Our experiments demonstrate the effectiveness
of our approach in both traditional CNNs and modern ViT, highlighting its
generalizability and interpretive value.
Ссылки и действия
Дополнительные ресурсы: