Representation Understanding via Activation Maximization

2508.07281v1 cs.CV, cs.AI 2025-08-13
Авторы:

Hongbo Zhu, Angelo Cangelosi

Резюме на русском

#### Контекст В последние годы глубокие нейронные сети (DNNs) стали одним из наиболее эффективных инструментов для решения задач классификации изображений, текстов и аудио. Однако у них существует значительный недостаток: недостаточная понятность интерпретации результатов. Это ограничивает их применение в критических областях, таких как медицина и юриспруденция, где требуется понятная интерпретация решений. Одним из подходов к разъяснению внутренних представлений сетей является Activation Maximization (AM) — метод, нацеленный на синтез входных данных, вызывающих сильные ответы от нейронов сети. Несмотря на то, что AM был применен ранее, основные исследования фокусировались на последних слоях сверточных нейронных сетей (CNNs). Наша мотивация заключается в расширении этого подхода на внутренние слои и использовании его для разных архитектур, включая Vision Transformers (ViTs). #### Метод Мы предлагаем обобщенную фреймфорк для визуализации функций, который может быть применен к CNNs и ViTs. Наш метод строится на идее максимизации активации нейрона, используя градиентный подъем по многомерному пространству входов. Для того чтобы расширить применение метода на внутренние слои, мы применяем локальные ограничения, чтобы генерировать входы, которые активируют конкретные нейроны внутри этих слоев. Для ViTs мы используем трансформерские блоки для уточненной визуализации. Эта архитектура позволяет проводить эксперименты не только с выходными слоями, но и с промежуточными, что дает более полное представление о внутреннем устройстве сетей. #### Результаты Используя наши методы, мы провели эксперименты на популярных базах данных, таких как CIFAR-10 и ImageNet. Мы сравнивали наши результаты с текущими методами визуализации и показали, что наш подход дает более ясные и точные представления о внутренних представлениях. Мы также проверили эффективность нашего подхода в создании адверсарных примеров, показав, что он может эффективно использоваться для выявления уязвимостей DNNs. Выполненные эксперименты указывают на широкую применимость нашего подхода к разным типам нейронных сетей. #### Значимость Наш подход может быть применен в системах, требующих понятной интерпретации результатов, таких как медицинские системы диагностики и системы безопасности. Он также может стать полезным для отладки моделей и выявления уязвимостей, что может привести к более надежным системам. Более широкое применение включает в себя исследования в области обучения с подкреплением и моделирования внимания, где понимание внутренних представлений ключевое значение имеет. #### Выводы М

Abstract

Understanding internal feature representations of deep neural networks (DNNs) is a fundamental step toward model interpretability. Inspired by neuroscience methods that probe biological neurons using visual stimuli, recent deep learning studies have employed Activation Maximization (AM) to synthesize inputs that elicit strong responses from artificial neurons. In this work, we propose a unified feature visualization framework applicable to both Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). Unlike prior efforts that predominantly focus on the last output-layer neurons in CNNs, we extend feature visualization to intermediate layers as well, offering deeper insights into the hierarchical structure of learned feature representations. Furthermore, we investigate how activation maximization can be leveraged to generate adversarial examples, revealing potential vulnerabilities and decision boundaries of DNNs. Our experiments demonstrate the effectiveness of our approach in both traditional CNNs and modern ViT, highlighting its generalizability and interpretive value.

Ссылки и действия