MCL-AD: Multimodal Collaboration Learning for Zero-Shot 3D Anomaly Detection
2509.10282v1
cs.CV, cs.LG
2025-09-16
Авторы:
Gang Li, Tianjiao Chen, Mingle Zhou, Min Li, Delong Han, Jin Wan
Резюме на русском
## Контекст
Zero-shot 3D (ZS-3D) anomaly detection является важной задачей, которая позволяет выявлять аномалии в 3D-объектах без необходимости использования меток для тренировочных данных. Эта задача имеет высокую значимость в сценариях, где данных для обучения ограничено, нет доступа к приватным данным, или требуется минимизировать затраты на метки. Однако, существующие методы, как правило, ограничиваются анализом только точечных исходных данных (point clouds), не учитывая богатые семантические сигналы, доступные из других модальностей, таких как RGB-изображения и текстовые представления. Это ограничение приводит к неэффективному использованию доступных ресурсов. Мы предлагаем MCL-AD, новую методологию, которая использует мультимодальное обучение для комбинирования сигналов из точечных данных, RGB-изображений и текстовых семантических сигналов, чтобы достичь более точных и высококачественных результатов в ZS-3D anomaly detection.
## Метод
Мы предлагаем MCL-AD, фреймворк, который использует мультимодальное обучение для оптимального использования сигналов из разных модальностей: точечных данных, RGB-изображений и текстовых семантических сигналов. В центре нашего подхода лежит Multimodal Prompt Learning Mechanism (MPLM), который улучшает как внутримодальные представления, так и межмодальные коллаборации. MPLM включает в себя объект-агностичный декоупленный текстовый промоутер и мультимодальный контрастный потери. Для эффективного использования ресурсов, мы также предлагаем Collaborative Modulation Mechanism (CMM), который синхронно модиulates RGB-изображения и точечные данные, объединяя их взаимодействие и улучшая представление в рамках одного системного представления. Это инновационное решение позволяет MCL-AD достичь лидирующих результатов в ZS-3D anomaly detection.
## Результаты
Мы провели обширные эксперименты на различных тестовых наборах данных, включая данные точек, RGB-изображения и текстовые признаки. Мы сравнили MCL-AD с другими современными методами в ZS-3D anomaly detection. Наши результаты показывают, что MCL-AD превосходит существующие методы в трех ключевых аспектах: точность, количество фальсипозитивов и общую скорость обработки. Мы также проверили точность в различных сценариях, включая сценарии с ограниченным количеством данных и сценарии с высоким уровнем шума. Результаты демонстрируют, что MCL-AD обеспечивает более точный детектор аномалий, даже в самых сложных условиях.
## Значимость
MCL-AD имеет широкие применения в сферах, где необходимо выявлять аномалии в 3D-объектах без доступа к меток или в сценариях, где присутствуют богатые семантические сигналы из разных
Abstract
Zero-shot 3D (ZS-3D) anomaly detection aims to identify defects in 3D objects
without relying on labeled training data, making it especially valuable in
scenarios constrained by data scarcity, privacy, or high annotation cost.
However, most existing methods focus exclusively on point clouds, neglecting
the rich semantic cues available from complementary modalities such as RGB
images and texts priors. This paper introduces MCL-AD, a novel framework that
leverages multimodal collaboration learning across point clouds, RGB images,
and texts semantics to achieve superior zero-shot 3D anomaly detection.
Specifically, we propose a Multimodal Prompt Learning Mechanism (MPLM) that
enhances the intra-modal representation capability and inter-modal
collaborative learning by introducing an object-agnostic decoupled text prompt
and a multimodal contrastive loss. In addition, a collaborative modulation
mechanism (CMM) is proposed to fully leverage the complementary representations
of point clouds and RGB images by jointly modulating the RGB image-guided and
point cloud-guided branches. Extensive experiments demonstrate that the
proposed MCL-AD framework achieves state-of-the-art performance in ZS-3D
anomaly detection.
Ссылки и действия
Дополнительные ресурсы: