Benchmarking Vision Transformers and CNNs for Thermal Photovoltaic Fault Detection with Explainable AI Validation
2509.07039v1
cs.LG, cs.CV
2025-09-12
Авторы:
Serra Aksoy
Резюме на русском
#### Контекст
Автоматическая мониторингная система для тепловых фотоэлементов (PV) является важной задачей в области энергетики, поскольку становится все более необходимой для обеспечения надежной работы энергетической инфраструктуры. Однако существуют серьезные проблемы, связанные с нехваткой понимания моделей искусственного интеллекта при принятии решений о фотоэлементных дефектаах. Это сделано сложнее системным разрывом между высокой точностью моделей, активно используемых для обнаружения ошибок, и невозможностью гарантировать, что выводы моделей соответствуют физическим принципам. Этот рост беспокоит техников и экспертов в области энергетики, которые нуждаются в доказательстве того, что модели могут быть доверенными.
#### Метод
Данное исследование проводит сравнительный анализ виджетных нейронных сетей (ResNet-18, EfficientNet-B0) и трансформеров (ViT-Tiny, Swin-Tiny) для обнаружения дефектов на тепловых фотоэлементах. Используется метод XRAI (eXplainable Saliency Interpretation) для проверки того, что модели выводят решения, соответствующие термодинамическим принципам. Для тестирования использованы 20 000 изображений тепловых камер, которые содержат образцы обычного функционирования и 11 категорий дефектов. Это первое исследование, проводящее подробное сравнение CNN с трансформерами для теплов обнаружения дефектов и использующее физически обоснованный подход к интерпретации моделей.
#### Результаты
В результатах эксперимента Swin Transformer показал лучший результат в обнаружении дефектов с бинарной точностью 94% и многоклассовой точностью 73%. Кроме того, XRAI анализ показал, что модели, особенно Swin Transformer, успешно выделяют важные термодинамические признаки, такие как: местные горячие точки для дефектов клетки, линейные термодинамические пути для дефектов диодов и термодинамические границы для затенения вегетации. Однако показана значительная разница в поведении моделей для разных категорий дефектов. Так, для электрических дефектов F1-меру достигают >0.90, в то время как для экологических факторов, таких как загрязнение, оценки F1-меры ниже 0.33, что свидетельствует о существующих ограничениях, связанных с разрешением изображений тепловых камер.
#### Значимость
Результаты исследования имеют важное значение в нескольких областях применения. Во-первых, они предоставляют новый подход к валидации AI-решений в сфере энергетики, который может повысить уверенность экспертов в использовании моделей для автоматизированного мониторинга. Во-вторых, они подкрепляют роль трансформеров в области те
Abstract
Artificial intelligence deployment for automated photovoltaic (PV) monitoring
faces interpretability barriers that limit adoption in energy infrastructure
applications. While deep learning achieves high accuracy in thermal fault
detection, validation that model decisions align with thermal physics
principles remains lacking, creating deployment hesitancy where understanding
model reasoning is critical. This study provides a systematic comparison of
convolutional neural networks (ResNet-18, EfficientNet-B0) and vision
transformers (ViT-Tiny, Swin-Tiny) for thermal PV fault detection, using XRAI
saliency analysis to assess alignment with thermal physics principles. This
represents the first systematic comparison of CNNs and vision transformers for
thermal PV fault detection with physics-validated interpretability. Evaluation
on 20,000 infrared images spanning normal operation and 11 fault categories
shows that Swin Transformer achieves the highest performance (94% binary
accuracy; 73% multiclass accuracy) compared to CNN approaches. XRAI analysis
reveals that models learn physically meaningful features, such as localized
hotspots for cell defects, linear thermal paths for diode failures, and thermal
boundaries for vegetation shading, consistent with expected thermal signatures.
However, performance varies significantly across fault types: electrical faults
achieve strong detection (F1-scores >0.90) while environmental factors like
soiling remain challenging (F1-scores 0.20-0.33), indicating limitations
imposed by thermal imaging resolution. The thermal physics-guided
interpretability approach provides methodology for validating AI
decision-making in energy monitoring applications, addressing deployment
barriers in renewable energy infrastructure.
Ссылки и действия
Дополнительные ресурсы: