SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion

2508.05264v1 cs.CV, cs.AI 2025-08-09

Авторы:

Xiaoyang Zhang, Zhen Hua, Yakun Ju, Wei Zhou, Jun Liu, Alex C. Kot

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Инфракрасно-видимое изображение (IVIF) — это ключевой процесс в области компьютерного зрения, направленный на комбинацию тепловой радиации, присущей инфракрасным изображениям, и деталей текстуры, характерных для видимых изображений. Цель этого процесса — улучшить восприятие и повысить эффективность вычислительных задач, таких как наблюдение, распознавание объектов и мониторинг. Однако традиционные методы IVIF сталкиваются с серьёзными ограничениями. Проблема заключается в том, что существующие подходы часто не могут должным образом сохранить ключевые объекты и детали из-за отсутствия глубокого семантического понимания сцены. Это приводит к потере важной информации и возникновению артефактов в результирующем изображении. Кроме того, процесс слияния может привести к потере деталей и снижению качества изображения, что негативно сказывается на производительности в дополнительных задачах. Мотивация для разработки новых методов заключается в необходимости создания более эффективных решений, которые бы сочетали высокое качество изображений с сохранением ключевых семантических деталей. Подобные методы должны быть в состоянии обеспечить высокую точность функциональных задач, таких как распознавание и классификация, особенно в условиях, где исходные данные имеют различные модальности и сложность. В этой статье авторы предлагают SGDFuse — инновационный подход, который использует Segment Anything Model (SAM) для генерации высококачественных семантических масок. Эти маски служат явными приоритетов для улучшения процесса фузирования, обеспечивая тем самым более точный и высококачественный результат. ## ПРЕДЛОЖЕННЫЙ МЕТОД SGDFuse представляет собой уникальную комбинацию модели Conditional Diffusion Model (CDM) и Segment Anything Model (SAM) для достижения высококачественного и семантически осмысленного фузирования инфракрасных и видимых изображений. Архитектура метода основана на двух этапах. На первом этапе производится предварительное фузирование мультимодальных фичи с использованием традиционных подходов. На втором этапе SAM используется для генерации высококачественных семантических масок, которые вместе с результатом предварительного фузирования служат условием для оптимизации модели CDM. Это гарантирует, что процесс фузирования будет направлен на сохранение важной семантической информации и устранение артефактов. Ключевой момент метода заключается в том, что SAM предоставляет явные семантические приоритеты, которые помогают CDM в процессе шумоподавления и генерации изображений. Этот подход обеспечивает качество результата на высоком уровне, сохраняя при этом важные детали и структуру изображения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели широкий набор экспериментов для оценки эффективности SGDFuse. Использовались различные наборы данных, включая инфракрасные и видимые изображения с различными условиями захвата. Результаты показали, что SGDFuse достигает лучших показателей по качественным и количественным показателям по сравнению с современными методами. В частности, SGDFuse показал значительное улучшение в плане сохранения деталей, уменьшения артефактов и повышения качества результирующих изображений. Эксперименты также подтвердили высокую адаптивность метода к различным задачам, таким как распознавание объектов и мониторинг, что делает его универсальным инструментом для практического применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SGDFuse имеет широкое применение в различных областях, где важна высокая точность и качество обработки изображений. Этот метод может быть использован в таких областях, как наблюдение и мониторинг, распознавание объектов, медицинское изображение и системы безопасности. Его способность сохранять ключевые семантические детали и обеспечивать высокое качество изображений делает его важным инструментом для разработки высокопроизводительных систем компьютерного зрения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SGDFuse представляет собой значительный шаг вперёд в области IVIF, обеспечивая высококачественное и семантически осмысленное фузирование изображений. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры, включая использование более продвинутых моделей для генерации семантических масок и оптимизации процесса фузирования. Кроме того, можно исследовать возможности применения этого подхода к другим модальностям изображений и задачам компьютерного зрения.

Abstract

Infrared and visible image fusion (IVIF) aims to combine the thermal radiation information from infrared images with the rich texture details from visible images to enhance perceptual capabilities for downstream visual tasks. However, existing methods often fail to preserve key targets due to a lack of deep semantic understanding of the scene, while the fusion process itself can also introduce artifacts and detail loss, severely compromising both image quality and task performance. To address these issues, this paper proposes SGDFuse, a conditional diffusion model guided by the Segment Anything Model (SAM), to achieve high-fidelity and semantically-aware image fusion. The core of our method is to utilize high-quality semantic masks generated by SAM as explicit priors to guide the optimization of the fusion process via a conditional diffusion model. Specifically, the framework operates in a two-stage process: it first performs a preliminary fusion of multi-modal features, and then utilizes the semantic masks from SAM jointly with the preliminary fused image as a condition to drive the diffusion model's coarse-to-fine denoising generation. This ensures the fusion process not only has explicit semantic directionality but also guarantees the high fidelity of the final result. Extensive experiments demonstrate that SGDFuse achieves state-of-the-art performance in both subjective and objective evaluations, as well as in its adaptability to downstream tasks, providing a powerful solution to the core challenges in image fusion. The code of SGDFuse is available at https://github.com/boshizhang123/SGDFuse.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SGDFuse: SAM-Guided Diffusion for High-Fidelity Infrared and Visible Image Fusion

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация