Architectural Co-Design for Zero-Shot Anomaly Detection: Decoupling Representation and Dynamically Fusing Features in CLIP

2508.07819v1 cs.CV, cs.AI, cs.LG 2025-08-13

Авторы:

Ke Ma, Jun Long, Hongxiao Fei, Liujie Hua, Yueyi Luo

Резюме на русском

#### Контекст Предварительно обученные Vision-Language Models (VLMs) широко применяются в задачах обработки изображений и текста. Однако при их использовании в Zero-Shot Anomaly Detection (ZSAD) возникают серьезные проблемы, связанные с отсутствием локальных индуктивных приращений для точной сегментации и статичным подходом к скрещиванию признаков. Эти ограничения приводят к низкой точности и недостаточной устойчивости моделей в задачах детектирования аномалий. Этот аспект подчеркивает необходимость развития более гибких и эффективных архитектур, которые могли бы улучшить процесс адаптации VLMs к ZSAD. #### Метод Предлагаемая архитектура Architectural Co-Design состоит из двух основных компонентов. Адаптер Convolutional Low-Rank Adaptation (Conv-LoRA) реализует локальные приращения, улучшая точность представления локальных признаков. Dynamic Fusion Gateway (DFG) вводит динамическую модификацию текстовых признаков, адаптируемую к визуальному контексту. Эти компоненты совмещаются в единой архитектуре, обеспечивающей мощный поиск признаков и гибкий механизм скрещивания. Такой подход позволяет не только улучшить результаты ZSAD, но и достичь высокой устойчивости в различных сценариях применения. #### Результаты Исследования проводились на различных датасетах, включая индустриальные и медицинские наборы данных. Предложенная модель показала существенное превосходство по точности и устойчивости по сравнению с современными методами. Эксперименты также подтвердили высокую эффективность Conv-LoRA в точной региональной обработке и DFG в адаптивной модификации признаков. Эти результаты демонстрируют, что сочетание локальной индуктивной модификации и динамического скрещивания признаков является ключевым фактором успеха. #### Значимость Предложенный подход может быть применен в различных областях, включая обработку изображений, анализ данных, индустрию и медицину. Он предоставляет преимущества в точности, устойчивости и гибкости. Потенциальное влияние заключается в улучшении адаптации VLMs к задачам ZSAD, что может привести к новым решениям в области ИИ, в том числе для детектирования и раннего обнаружения аномалий. #### Выводы Предложенная модель Architectural Co-Design демонстрирует эффективность в ZSAD за счет комбинации Conv-LoRA и DFG. Будущие исследования будут сфокусированы на расширении модели для задач с большим масштабом и уточнении динамических механизмов скрещивания признаков. Это может привести к еще более высокой точности и устойчивости в применении моделей VLMs к задачам детектирования аномалий.

Abstract

Pre-trained Vision-Language Models (VLMs) face a significant adaptation gap when applied to Zero-Shot Anomaly Detection (ZSAD), stemming from their lack of local inductive biases for dense prediction and their reliance on inflexible feature fusion paradigms. We address these limitations through an Architectural Co-Design framework that jointly refines feature representation and cross-modal fusion. Our method integrates a parameter-efficient Convolutional Low-Rank Adaptation (Conv-LoRA) adapter to inject local inductive biases for fine-grained representation, and introduces a Dynamic Fusion Gateway (DFG) that leverages visual context to adaptively modulate text prompts, enabling a powerful bidirectional fusion. Extensive experiments on diverse industrial and medical benchmarks demonstrate superior accuracy and robustness, validating that this synergistic co-design is critical for robustly adapting foundation models to dense perception tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Architectural Co-Design for Zero-Shot Anomaly Detection: Decoupling Representation and Dynamically Fusing Features in CLIP

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация