Feature Space Analysis by Guided Diffusion Model

2509.07936v1 cs.CV, eess.IV 2025-09-11
Авторы:

Kimiaki Shirahama, Miki Yanobu, Kaduki Yamashita, Miho Ohsaki

Резюме на русском

#### Контекст В Deep Neural Networks (DNNs) одной из основных проблем является их "черный ящик" при функционировании, когда поведение внутренних фичей так и остается неясным. Особенно затруднительно это видеть в областях, связанных с зрительной обработкой. Этот аспект представляет весомую проблему, так как сложно провести взаимосвязь между входными факторами и выходными результатами. Наша исследовательская мотивация заключается в разработке доступных методов для анализа и визуализации внутренних функций DNN, чтобы облегчить их понимание и доверие. #### Метод Для решения этой проблемы мы предлагаем использовать **guided diffusion model**, который оптимизирует процесс обратной размытости изображений, с целью наилучшего соответствия пользовательским фичам. Метод основывается на минимизации Евклидовой меры расстояния между фичами обрабатываемого изображения и целевыми атрибутами, заданными пользователем. Модель архитектурно основывается на выводных процессах, гарантирующих точное детерминированное поведение. Это решение позволяет работать без дополнительной тренировки модели и работать на одной GPU, что весьма эффективно. #### Результаты Мы проводили эксперименты, используя три модели DNN: **CLIP's image encoder**, **ResNet-50** и **Vision Transformer**. Результаты показали, что изображения, сгенерированные нашей моделью, имеют фичи, значительно продемонстрировавшие сходство с заданными пользователем. Эти результаты не только показали, какие атрибуты DNN связывает с каждой фичей, но также дали ценные визуализации для понимания характера работы DNN. #### Значимость Наше решение имеет широкую область применения, включая визуальную обработку, здравоохранение, промышленность и машинное обучение. Оно предоставляет значительные преимущества: прозрачность внутренних процессов DNN, эффективность в реализации и гибкость в работе с различными моделями без дополнительных тренировок. Таким образом, оно может способствовать развитию транспарентных интеллектуальных систем. #### Выводы Наша работа показала, что **guided diffusion model** является эффективным инструментом для анализа фичей DNN. Мы планируем продолжить работу над улучшением метода, в том числе расширением на другие архитектуры DNN и исследованием возможности расширения для других задач, таких как видео-анализ и семантическая обработка.

Abstract

One of the key issues in Deep Neural Networks (DNNs) is the black-box nature of their internal feature extraction process. Targeting vision-related domains, this paper focuses on analysing the feature space of a DNN by proposing a decoder that can generate images whose features are guaranteed to closely match a user-specified feature. Owing to this guarantee that is missed in past studies, our decoder allows us to evidence which of various attributes in an image are encoded into a feature by the DNN, by generating images whose features are in proximity to that feature. Our decoder is implemented as a guided diffusion model that guides the reverse image generation of a pre-trained diffusion model to minimise the Euclidean distance between the feature of a clean image estimated at each step and the user-specified feature. One practical advantage of our decoder is that it can analyse feature spaces of different DNNs with no additional training and run on a single COTS GPU. The experimental results targeting CLIP's image encoder, ResNet-50 and vision transformer demonstrate that images generated by our decoder have features remarkably similar to the user-specified ones and reveal valuable insights into these DNNs' feature spaces.

Ссылки и действия