Entropy-Based Non-Invasive Reliability Monitoring of Convolutional Neural Networks

2508.21715v1 cs.CV, cs.AI, cs.CR, cs.IT, eess.IV, math.IT 2025-09-02
Авторы:

Amirhossein Nazeri, Wael Hafez

Резюме на русском

## Контекст Convolutional Neural Networks (CNNs) являются основой современных систем компьютерного зрения, достигших неподражаемой точности в задачах распознавания изображений. Однако эти сети остаются уязвимыми к атакам с адверсарными помехами — подавленными модификациями входа, которые приводят к неверному классификационному решению с высокой уверенностью. Обнаружение таких вторжений требует, как правило, дорогостоящей ре-тренировки сети, изменения её архитектуры или снижения точности на чистых данных. Однако недавние исследования показали, что адверсарные помехи вызывают отклонения в структуре функций активации CNN, которые могут быть отслежены без изменения модели. Это открытие открыло путь к самодиагностическим системам, которые могут определять адверсарные вторжения в реальном времени без ущерба для производительности. ## Метод Мы предлагаем метод основанный на энтропии для мониторинга надежности CNN неинвазивным способом. Метод использует многопоточный мониторинг энтропии во входных слоях CNN, оперируя степенью распределения энтропии в выходных функциях. Для экспериментов была использована модель VGG-16, подвергнутай атакам типа FGSM и PGD. Сравнение чистых входных данных с адверсарными помехами проводилось с использованием критерия Шапкирова–Фишера для вычисления разницы между распределениями энтропии. Этот подход позволил выделить существенные отличия в структуре активаций CNN при отклике на адверсарные входы. ## Результаты Исследования показали, что адверсарные вторжения вызывают существенные отклонения в распределении энтропии во входных слоях VGG-16, особенно в ранних слоях. Эти отклонения отличаются на 7% по сравнению с чистыми входами, что создает возможность выделить адверсарные входы с 90% точностью. Использование критерия Шапкирова–Фишера позволило достичь заметных улучшений в обнаружении с низкими значениями злонамеренных ошибок (фальсиды и false negatives), равными приблизительно 20%. Эти результаты доказывают, что CNN могут быть эффективно мониторины по их энтропийным сигналам, не требуя каких-либо модификаций модели. ## Значимость Наш подход может быть применен в различных областях, где релевантность и надежность сетей CNN играют ключевую роль, таких как безопасность видеонаблюдения, системы распознавания голоса и медицинское искусственное интеллект. Главными преимуществами являются его инвазивность, низкий расход ресурсов и возможность реализации на реальном железе в реальном времени. Это может стать основой для развития систем, которые не только обнаружят адверсарные вторжения, но и

Abstract

Convolutional Neural Networks (CNNs) have become the foundation of modern computer vision, achieving unprecedented accuracy across diverse image recognition tasks. While these networks excel on in-distribution data, they remain vulnerable to adversarial perturbations imperceptible input modifications that cause misclassification with high confidence. However, existing detection methods either require expensive retraining, modify network architecture, or degrade performance on clean inputs. Here we show that adversarial perturbations create immediate, detectable entropy signatures in CNN activations that can be monitored without any model modification. Using parallel entropy monitoring on VGG-16, we demonstrate that adversarial inputs consistently shift activation entropy by 7% in early convolutional layers, enabling 90% detection accuracy with false positives and false negative rates below 20%. The complete separation between clean and adversarial entropy distributions reveals that CNNs inherently encode distribution shifts in their activation patterns. This work establishes that CNN reliability can be assessed through activation entropy alone, enabling practical deployment of self-diagnostic vision systems that detect adversarial inputs in real-time without compromising original model performance.

Ссылки и действия