Entropy-Based Non-Invasive Reliability Monitoring of Convolutional Neural Networks
2508.21715v1
cs.CV, cs.AI, cs.CR, cs.IT, eess.IV, math.IT
2025-09-02
Авторы:
Amirhossein Nazeri, Wael Hafez
Резюме на русском
## Контекст
Convolutional Neural Networks (CNNs) являются основой современных систем компьютерного зрения, достигших неподражаемой точности в задачах распознавания изображений. Однако эти сети остаются уязвимыми к атакам с адверсарными помехами — подавленными модификациями входа, которые приводят к неверному классификационному решению с высокой уверенностью. Обнаружение таких вторжений требует, как правило, дорогостоящей ре-тренировки сети, изменения её архитектуры или снижения точности на чистых данных. Однако недавние исследования показали, что адверсарные помехи вызывают отклонения в структуре функций активации CNN, которые могут быть отслежены без изменения модели. Это открытие открыло путь к самодиагностическим системам, которые могут определять адверсарные вторжения в реальном времени без ущерба для производительности.
## Метод
Мы предлагаем метод основанный на энтропии для мониторинга надежности CNN неинвазивным способом. Метод использует многопоточный мониторинг энтропии во входных слоях CNN, оперируя степенью распределения энтропии в выходных функциях. Для экспериментов была использована модель VGG-16, подвергнутай атакам типа FGSM и PGD. Сравнение чистых входных данных с адверсарными помехами проводилось с использованием критерия Шапкирова–Фишера для вычисления разницы между распределениями энтропии. Этот подход позволил выделить существенные отличия в структуре активаций CNN при отклике на адверсарные входы.
## Результаты
Исследования показали, что адверсарные вторжения вызывают существенные отклонения в распределении энтропии во входных слоях VGG-16, особенно в ранних слоях. Эти отклонения отличаются на 7% по сравнению с чистыми входами, что создает возможность выделить адверсарные входы с 90% точностью. Использование критерия Шапкирова–Фишера позволило достичь заметных улучшений в обнаружении с низкими значениями злонамеренных ошибок (фальсиды и false negatives), равными приблизительно 20%. Эти результаты доказывают, что CNN могут быть эффективно мониторины по их энтропийным сигналам, не требуя каких-либо модификаций модели.
## Значимость
Наш подход может быть применен в различных областях, где релевантность и надежность сетей CNN играют ключевую роль, таких как безопасность видеонаблюдения, системы распознавания голоса и медицинское искусственное интеллект. Главными преимуществами являются его инвазивность, низкий расход ресурсов и возможность реализации на реальном железе в реальном времени. Это может стать основой для развития систем, которые не только обнаружят адверсарные вторжения, но и
Abstract
Convolutional Neural Networks (CNNs) have become the foundation of modern
computer vision, achieving unprecedented accuracy across diverse image
recognition tasks. While these networks excel on in-distribution data, they
remain vulnerable to adversarial perturbations imperceptible input
modifications that cause misclassification with high confidence. However,
existing detection methods either require expensive retraining, modify network
architecture, or degrade performance on clean inputs. Here we show that
adversarial perturbations create immediate, detectable entropy signatures in
CNN activations that can be monitored without any model modification. Using
parallel entropy monitoring on VGG-16, we demonstrate that adversarial inputs
consistently shift activation entropy by 7% in early convolutional layers,
enabling 90% detection accuracy with false positives and false negative rates
below 20%. The complete separation between clean and adversarial entropy
distributions reveals that CNNs inherently encode distribution shifts in their
activation patterns. This work establishes that CNN reliability can be assessed
through activation entropy alone, enabling practical deployment of
self-diagnostic vision systems that detect adversarial inputs in real-time
without compromising original model performance.