AD-FM: Multimodal LLMs for Anomaly Detection via Multi-Stage Reasoning and Fine-Grained Reward Optimization
2508.04175v1
cs.CV
2025-08-09
Авторы:
Jingyi Liao, Yongyi Su, Rong-Cheng Tu, Zhao Jin, Wenhao Sun, Yiting Li, Dacheng Tao, Xun Xu, Xulei Yang
Резюме на русском
Адаптация общевойзначимых мультимодальных ЛЛМ к специализированным задачам, таким как отклонение от нормы (Anomaly Detection, AD), сталкивается с проблемами при недостаточной адаптации к конкретным доменам. Это ограничивает их эффективность в выполнении задач, которые требуют тонкой визуальной дискриминации, например, в отраслях производства. Мы предлагаем AD-FM — рамформа, решающую эти проблемы. Она вводит мультистаднаий подход с делеберирующим разумованием, который пошагово направляет модель от общей области внимания к точеному анализу, улучшая генерацию ответов и обеспечивая структурированную навизакацию в процессе. Также мы разработали усовершенствованный механизм награждения, который превращает бинарные ответы модели в непрерывные сигналы, отражающие точность и уровень субъективности. Эксперименты на промышленных данных показали, что наш подход значительно повышает точность и эффективность адаптации генерально-целевых МЛЛМ к конкретным задачам AD. Таким образом, мы устанавливаем новый стандарт для применения МЛЛМ в технических задачах доробления.
Abstract
While Multimodal Large Language Models (MLLMs) demonstrate remarkable
capabilities across diverse domains, their application to specialized anomaly
detection (AD) remains constrained by domain adaptation challenges. Existing
Group Relative Policy Optimization (GRPO) based approaches suffer from two
critical limitations: inadequate training data utilization when models produce
uniform responses, and insufficient supervision over reasoning processes that
encourage immediate binary decisions without deliberative analysis. We propose
a comprehensive framework addressing these limitations through two synergistic
innovations. First, we introduce a multi-stage deliberative reasoning process
that guides models from region identification to focused examination,
generating diverse response patterns essential for GRPO optimization while
enabling structured supervision over analytical workflows. Second, we develop a
fine-grained reward mechanism incorporating classification accuracy and
localization supervision, transforming binary feedback into continuous signals
that distinguish genuine analytical insight from spurious correctness.
Comprehensive evaluation across multiple industrial datasets demonstrates
substantial performance improvements in adapting general vision-language models
to specialized anomaly detection. Our method achieves superior accuracy with
efficient adaptation of existing annotations, effectively bridging the gap
between general-purpose MLLM capabilities and the fine-grained visual
discrimination required for detecting subtle manufacturing defects and
structural irregularities.
Ссылки и действия
Дополнительные ресурсы: