Region-to-Region: Enhancing Generative Image Harmonization with Adaptive Regional Injection

2508.09746v1 cs.CV, cs.AI 2025-08-15

Авторы:

Zhiqiu Zhang, Dongqi Fan, Mingjie Wang, Qiang Tang, Jian Yang, Zili Yi

Резюме на русском

## Контекст В области компьютерного зрения, визуальное сочетание элементов изображения, называемое **image harmonization**, является ключевым заданием. Цель этого задания заключается в том, чтобы адаптировать формат и цветовую гамму форенигета (переднего плана) в композитном изображении, чтобы он гармонично сочетался с фоном. Несмотря на некоторые успехи, существующие парадигмы сталкиваются с проблемами, такими как недостаточная точность в подробностях и ограниченная способность адаптироваться к сложным реальным условиям света. Эти ограничения нарушают естественность и реалистичность изображений. Мы предлагаем **Region-to-Region (R2R)**, новую модель, повышающую качество изображений в процессе harmonization. ## Метод Мы предлагаем **Region-to-Region (R2R)**, модель, основанную на **Latent Diffusion Model (LDM)**, которая выполняет region-to-region transformation. Модель **Clear-VAE** используется для сохранения высокочастотных деталей в форэнгете, а **Harmony Controller**, основанный на **Mask-aware Adaptive Channel Attention (MACA)**, адаптирует взаимодействие между фоном и передней планей. Для улучшения качества изображений в синтетических данных мы используем **Random Poisson Blending**, технику, которая передает информацию о цвете и освещении из подходящих регионов в переднюю планку. Этот подход позволяет создавать более современные и сложные изображения. ## Результаты Мы проводили эксперименты, используя **R2R** на реальных и синтетических данных. Модель показала превосходство по метрикам **PSNR** и **SSIM** в сравнении с другими существующими методами. Мы также провели визуальные оценки, показав, что наши результаты гармоничнее и более реалистичные. Наша модель также продемонстрировала высокую точность в сохранении деталей и адаптации к сложным источникам освещения. ## Значимость Наша модель имеет широкие перспективы применения в области визуальных эффектов, редактирования изображений, а также в задачах, требующих создания реалистичных композитов. Она демонстрирует значительные преимущества по сравнению с другими методами в том числе в ситуациях с нерегулярным освещением. Модель **R2R** также может применяться для генерирования новых синтетических данных, которые могут быть использованы в обучении других моделей. ## Выводы Мы представили **Region-to-Region (R2R)**, новую модель для улучшения **image harmonization**. Модель **Clear-VAE** сохраняет детали, а **Harmony Controller** динамически адаптирует сочетание в зависимости от важности каналов. Мы также предложили **Random Poisson Blending** для создания более сложных синтетических данных. Эксперименты показали, что **R2R** превосходит другие методы в ряде критериев. Мы выпустили нашу модель, код и данные для откры

Abstract

The goal of image harmonization is to adjust the foreground in a composite image to achieve visual consistency with the background. Recently, latent diffusion model (LDM) are applied for harmonization, achieving remarkable results. However, LDM-based harmonization faces challenges in detail preservation and limited harmonization ability. Additionally, current synthetic datasets rely on color transfer, which lacks local variations and fails to capture complex real-world lighting conditions. To enhance harmonization capabilities, we propose the Region-to-Region transformation. By injecting information from appropriate regions into the foreground, this approach preserves original details while achieving image harmonization or, conversely, generating new composite data. From this perspective, We propose a novel model R2R. Specifically, we design Clear-VAE to preserve high-frequency details in the foreground using Adaptive Filter while eliminating disharmonious elements. To further enhance harmonization, we introduce the Harmony Controller with Mask-aware Adaptive Channel Attention (MACA), which dynamically adjusts the foreground based on the channel importance of both foreground and background regions. To address the limitation of existing datasets, we propose Random Poisson Blending, which transfers color and lighting information from a suitable region to the foreground, thereby generating more diverse and challenging synthetic images. Using this method, we construct a new synthetic dataset, RPHarmony. Experiments demonstrate the superiority of our method over other methods in both quantitative metrics and visual harmony. Moreover, our dataset helps the model generate more realistic images in real examples. Our code, dataset, and model weights have all been released for open access.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Region-to-Region: Enhancing Generative Image Harmonization with Adaptive Regional Injection

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация