📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 DistillMatch: Leveraging Knowledge Distillation from Vision Foundation Model for Multimodal Image Matching

2025-09-23

Авторы:

Meng Yang, Fan Fan, Zizhuo Li, Songchu Deng, Yong Ma, Jiayi Ma

#################### ## Контекст #################### Multimodal image matching является ключевым заданием в области кросс-модального визуального перцепции, слияния и анализа данных. Оно заключается в установлении пиксельных соответствий между изображениями различных модальностей, таких как RGB и энергетические изображения. Однако высокая разница в аппаратуре и внешних условиях затрудняет этот процесс. Ограниченность высококачественных данных для обучения искусственных нейронных сетей существенно снижает их точность и универсальность. Vision Foundation Model (VFM) становится решением этой проблемы: он обучен на огромных данных и производит общие, устойчивые к модальности функции, которые могут быть использованы в разных сценариях. Мы предлагаем DistillMatch — метод, использующий методы знаний видной модели VFM для повышения эффективности метода мультимодального матчинга. #################### ## Метод #################### DistillMatch использует знания от VFM (например, DINOv2 и DINOv3) для построения легковесной модели-ученика. Метод добавляет в функции выделение модальности, которое помогает сохранить специфические для модальности функции. В дополнение, мы разработали V2I-GAN, архитектуру, которая увеличивает данные с помощью перевода видимых изображений в изображения с подобным моментом. Метод DistillMatch стремится к более высокой точности и универсальности в кросс-модальном матчинге. #################### ## Результаты #################### Мы проводили эксперименты на нескольких стандартных наборах данных. DistillMatch показал существенное улучшение по сравнению с существующими методами в кросс-модальном матчинге. Он достиг более высокой точности и универсальности, особенно в сложных условиях, таких как различия в модальностях и малом количестве данных. Эти результаты подтверждают эффективность нашего подхода в адаптации к различным сценариям. #################### ## Значимость #################### DistillMatch может применяться в различных областях, таких как кросс-модальный анализ, синтез изображений и системы поиска объектов. Он предоставляет высокую точность и гибкость, что делает его полезным для сложных задач визуального перцепции. Благодаря универсальности и эффективности, DistillMatch может стать мощным инструментом для развития технологий визуального анализа. #################### ## Выводы #################### Мы предложили DistillMatch — метод мультимодального матчинга, который использует знания из VFM для повышения качества и универсальности. Мы также разработали V2I-GAN для увеличения данных. Эксперименты показали существенное улучшение по сравнению с другими методами. Будущие исследования будут уделять внимание улучшению производительности для более сложных задач.

Annotation:

Multimodal image matching seeks pixel-level correspondences between images of different modalities, crucial for cross-modal perception, fusion and analysis. However, the significant appearance differences between modalities make this task challenging. Due to the scarcity of high-quality annotated datasets, existing deep learning methods that extract modality-common features for matching perform poorly and lack adaptability to diverse scenarios. Vision Foundation Model (VFM), trained on large-sca...

ID: 2509.16017v1 cs.CV, I.4.3; I.5.2

arXiv PDF