Region-to-Region: Enhancing Generative Image Harmonization with Adaptive Regional Injection
2508.09746v1
cs.CV, cs.AI
2025-08-15
Авторы:
Zhiqiu Zhang, Dongqi Fan, Mingjie Wang, Qiang Tang, Jian Yang, Zili Yi
Резюме на русском
## Контекст
В области компьютерного зрения, визуальное сочетание элементов изображения, называемое **image harmonization**, является ключевым заданием. Цель этого задания заключается в том, чтобы адаптировать формат и цветовую гамму форенигета (переднего плана) в композитном изображении, чтобы он гармонично сочетался с фоном. Несмотря на некоторые успехи, существующие парадигмы сталкиваются с проблемами, такими как недостаточная точность в подробностях и ограниченная способность адаптироваться к сложным реальным условиям света. Эти ограничения нарушают естественность и реалистичность изображений. Мы предлагаем **Region-to-Region (R2R)**, новую модель, повышающую качество изображений в процессе harmonization.
## Метод
Мы предлагаем **Region-to-Region (R2R)**, модель, основанную на **Latent Diffusion Model (LDM)**, которая выполняет region-to-region transformation. Модель **Clear-VAE** используется для сохранения высокочастотных деталей в форэнгете, а **Harmony Controller**, основанный на **Mask-aware Adaptive Channel Attention (MACA)**, адаптирует взаимодействие между фоном и передней планей. Для улучшения качества изображений в синтетических данных мы используем **Random Poisson Blending**, технику, которая передает информацию о цвете и освещении из подходящих регионов в переднюю планку. Этот подход позволяет создавать более современные и сложные изображения.
## Результаты
Мы проводили эксперименты, используя **R2R** на реальных и синтетических данных. Модель показала превосходство по метрикам **PSNR** и **SSIM** в сравнении с другими существующими методами. Мы также провели визуальные оценки, показав, что наши результаты гармоничнее и более реалистичные. Наша модель также продемонстрировала высокую точность в сохранении деталей и адаптации к сложным источникам освещения.
## Значимость
Наша модель имеет широкие перспективы применения в области визуальных эффектов, редактирования изображений, а также в задачах, требующих создания реалистичных композитов. Она демонстрирует значительные преимущества по сравнению с другими методами в том числе в ситуациях с нерегулярным освещением. Модель **R2R** также может применяться для генерирования новых синтетических данных, которые могут быть использованы в обучении других моделей.
## Выводы
Мы представили **Region-to-Region (R2R)**, новую модель для улучшения **image harmonization**. Модель **Clear-VAE** сохраняет детали, а **Harmony Controller** динамически адаптирует сочетание в зависимости от важности каналов. Мы также предложили **Random Poisson Blending** для создания более сложных синтетических данных. Эксперименты показали, что **R2R** превосходит другие методы в ряде критериев. Мы выпустили нашу модель, код и данные для откры
Abstract
The goal of image harmonization is to adjust the foreground in a composite
image to achieve visual consistency with the background. Recently, latent
diffusion model (LDM) are applied for harmonization, achieving remarkable
results. However, LDM-based harmonization faces challenges in detail
preservation and limited harmonization ability. Additionally, current synthetic
datasets rely on color transfer, which lacks local variations and fails to
capture complex real-world lighting conditions. To enhance harmonization
capabilities, we propose the Region-to-Region transformation. By injecting
information from appropriate regions into the foreground, this approach
preserves original details while achieving image harmonization or, conversely,
generating new composite data. From this perspective, We propose a novel model
R2R. Specifically, we design Clear-VAE to preserve high-frequency details in
the foreground using Adaptive Filter while eliminating disharmonious elements.
To further enhance harmonization, we introduce the Harmony Controller with
Mask-aware Adaptive Channel Attention (MACA), which dynamically adjusts the
foreground based on the channel importance of both foreground and background
regions. To address the limitation of existing datasets, we propose Random
Poisson Blending, which transfers color and lighting information from a
suitable region to the foreground, thereby generating more diverse and
challenging synthetic images. Using this method, we construct a new synthetic
dataset, RPHarmony. Experiments demonstrate the superiority of our method over
other methods in both quantitative metrics and visual harmony. Moreover, our
dataset helps the model generate more realistic images in real examples. Our
code, dataset, and model weights have all been released for open access.
Ссылки и действия
Дополнительные ресурсы: