Benchmarking Vision Transformers and CNNs for Thermal Photovoltaic Fault Detection with Explainable AI Validation

2509.07039v1 cs.LG, cs.CV 2025-09-12
Авторы:

Serra Aksoy

Резюме на русском

#### Контекст Автоматическая мониторингная система для тепловых фотоэлементов (PV) является важной задачей в области энергетики, поскольку становится все более необходимой для обеспечения надежной работы энергетической инфраструктуры. Однако существуют серьезные проблемы, связанные с нехваткой понимания моделей искусственного интеллекта при принятии решений о фотоэлементных дефектаах. Это сделано сложнее системным разрывом между высокой точностью моделей, активно используемых для обнаружения ошибок, и невозможностью гарантировать, что выводы моделей соответствуют физическим принципам. Этот рост беспокоит техников и экспертов в области энергетики, которые нуждаются в доказательстве того, что модели могут быть доверенными. #### Метод Данное исследование проводит сравнительный анализ виджетных нейронных сетей (ResNet-18, EfficientNet-B0) и трансформеров (ViT-Tiny, Swin-Tiny) для обнаружения дефектов на тепловых фотоэлементах. Используется метод XRAI (eXplainable Saliency Interpretation) для проверки того, что модели выводят решения, соответствующие термодинамическим принципам. Для тестирования использованы 20 000 изображений тепловых камер, которые содержат образцы обычного функционирования и 11 категорий дефектов. Это первое исследование, проводящее подробное сравнение CNN с трансформерами для теплов обнаружения дефектов и использующее физически обоснованный подход к интерпретации моделей. #### Результаты В результатах эксперимента Swin Transformer показал лучший результат в обнаружении дефектов с бинарной точностью 94% и многоклассовой точностью 73%. Кроме того, XRAI анализ показал, что модели, особенно Swin Transformer, успешно выделяют важные термодинамические признаки, такие как: местные горячие точки для дефектов клетки, линейные термодинамические пути для дефектов диодов и термодинамические границы для затенения вегетации. Однако показана значительная разница в поведении моделей для разных категорий дефектов. Так, для электрических дефектов F1-меру достигают >0.90, в то время как для экологических факторов, таких как загрязнение, оценки F1-меры ниже 0.33, что свидетельствует о существующих ограничениях, связанных с разрешением изображений тепловых камер. #### Значимость Результаты исследования имеют важное значение в нескольких областях применения. Во-первых, они предоставляют новый подход к валидации AI-решений в сфере энергетики, который может повысить уверенность экспертов в использовании моделей для автоматизированного мониторинга. Во-вторых, они подкрепляют роль трансформеров в области те

Abstract

Artificial intelligence deployment for automated photovoltaic (PV) monitoring faces interpretability barriers that limit adoption in energy infrastructure applications. While deep learning achieves high accuracy in thermal fault detection, validation that model decisions align with thermal physics principles remains lacking, creating deployment hesitancy where understanding model reasoning is critical. This study provides a systematic comparison of convolutional neural networks (ResNet-18, EfficientNet-B0) and vision transformers (ViT-Tiny, Swin-Tiny) for thermal PV fault detection, using XRAI saliency analysis to assess alignment with thermal physics principles. This represents the first systematic comparison of CNNs and vision transformers for thermal PV fault detection with physics-validated interpretability. Evaluation on 20,000 infrared images spanning normal operation and 11 fault categories shows that Swin Transformer achieves the highest performance (94% binary accuracy; 73% multiclass accuracy) compared to CNN approaches. XRAI analysis reveals that models learn physically meaningful features, such as localized hotspots for cell defects, linear thermal paths for diode failures, and thermal boundaries for vegetation shading, consistent with expected thermal signatures. However, performance varies significantly across fault types: electrical faults achieve strong detection (F1-scores >0.90) while environmental factors like soiling remain challenging (F1-scores 0.20-0.33), indicating limitations imposed by thermal imaging resolution. The thermal physics-guided interpretability approach provides methodology for validating AI decision-making in energy monitoring applications, addressing deployment barriers in renewable energy infrastructure.

Ссылки и действия