DistillMatch: Leveraging Knowledge Distillation from Vision Foundation Model for Multimodal Image Matching
2509.16017v1
cs.CV, I.4.3; I.5.2
2025-09-23
Авторы:
Meng Yang, Fan Fan, Zizhuo Li, Songchu Deng, Yong Ma, Jiayi Ma
Резюме на русском
####################
## Контекст
####################
Multimodal image matching является ключевым заданием в области кросс-модального визуального перцепции, слияния и анализа данных. Оно заключается в установлении пиксельных соответствий между изображениями различных модальностей, таких как RGB и энергетические изображения. Однако высокая разница в аппаратуре и внешних условиях затрудняет этот процесс. Ограниченность высококачественных данных для обучения искусственных нейронных сетей существенно снижает их точность и универсальность. Vision Foundation Model (VFM) становится решением этой проблемы: он обучен на огромных данных и производит общие, устойчивые к модальности функции, которые могут быть использованы в разных сценариях. Мы предлагаем DistillMatch — метод, использующий методы знаний видной модели VFM для повышения эффективности метода мультимодального матчинга.
####################
## Метод
####################
DistillMatch использует знания от VFM (например, DINOv2 и DINOv3) для построения легковесной модели-ученика. Метод добавляет в функции выделение модальности, которое помогает сохранить специфические для модальности функции. В дополнение, мы разработали V2I-GAN, архитектуру, которая увеличивает данные с помощью перевода видимых изображений в изображения с подобным моментом. Метод DistillMatch стремится к более высокой точности и универсальности в кросс-модальном матчинге.
####################
## Результаты
####################
Мы проводили эксперименты на нескольких стандартных наборах данных. DistillMatch показал существенное улучшение по сравнению с существующими методами в кросс-модальном матчинге. Он достиг более высокой точности и универсальности, особенно в сложных условиях, таких как различия в модальностях и малом количестве данных. Эти результаты подтверждают эффективность нашего подхода в адаптации к различным сценариям.
####################
## Значимость
####################
DistillMatch может применяться в различных областях, таких как кросс-модальный анализ, синтез изображений и системы поиска объектов. Он предоставляет высокую точность и гибкость, что делает его полезным для сложных задач визуального перцепции. Благодаря универсальности и эффективности, DistillMatch может стать мощным инструментом для развития технологий визуального анализа.
####################
## Выводы
####################
Мы предложили DistillMatch — метод мультимодального матчинга, который использует знания из VFM для повышения качества и универсальности. Мы также разработали V2I-GAN для увеличения данных. Эксперименты показали существенное улучшение по сравнению с другими методами. Будущие исследования будут уделять внимание улучшению производительности для более сложных задач.
Abstract
Multimodal image matching seeks pixel-level correspondences between images of
different modalities, crucial for cross-modal perception, fusion and analysis.
However, the significant appearance differences between modalities make this
task challenging. Due to the scarcity of high-quality annotated datasets,
existing deep learning methods that extract modality-common features for
matching perform poorly and lack adaptability to diverse scenarios. Vision
Foundation Model (VFM), trained on large-scale data, yields generalizable and
robust feature representations adapted to data and tasks of various modalities,
including multimodal matching. Thus, we propose DistillMatch, a multimodal
image matching method using knowledge distillation from VFM. DistillMatch
employs knowledge distillation to build a lightweight student model that
extracts high-level semantic features from VFM (including DINOv2 and DINOv3) to
assist matching across modalities. To retain modality-specific information, it
extracts and injects modality category information into the other modality's
features, which enhances the model's understanding of cross-modal correlations.
Furthermore, we design V2I-GAN to boost the model's generalization by
translating visible to pseudo-infrared images for data augmentation.
Experiments show that DistillMatch outperforms existing algorithms on public
datasets.
Ссылки и действия
Дополнительные ресурсы: