Does FLUX Already Know How to Perform Physically Plausible Image Composition?

2509.21278v1 cs.CV, cs.AI, cs.LG 2025-09-27

Авторы:

Shilin Lu, Zhuming Lian, Zihan Zhou, Shaocong Zhang, Chen Zhao, Adams Wai-Kin Kong

Резюме на русском

## Контекст Область исследования, посвященная изображению, широко развивается в современной компьютерной графике и искусственном интеллекте. Одна из сложных задач в этой области — изображение составления, которая заключается в том, чтобы вставить пользовательский объект в новую сцену таким образом, чтобы результат выглядел природным и синтетическим. Несмотря на прогрессы в глубинном обучении, существующие модели сталкиваются с рядом проблем, в том числе сложными условиями освещения (например, точные тени, отражения на воде) и разнообразием высокого разрешения входных данных. Недавние текстовые модели для генерации изображений, такие как SD3.5 и FLUX, включают в себя базовые физические признаки и высокое разрешение, но не полностью могут эффективно использовать эти возможности без потерь качества. Таким образом, существует необходимость в развитии методов, позволяющих эффективно использовать эти модели для физически правдоподобного изображения составления. ## Метод Метод, предложенный в работе, имеет название SHINE (Seamless, High-fidelity Insertion with Neutralized Errors), который является простой, но эффективной архитектурой, не требующей дополнительного обучения. Основная идея заключается в использовании целевой адаптации latenta с помощью предобученных инструментов, таких как IP-Adapter. Данные адаптеры позволяют гибко контролировать представление объекта, сохранив точность позиции и физическую правдоподобность. Для повышения результатов вводятся два дополнительных механизма: адаптивная смешивания фона и подавление потерь формируемой картины. Эти методы позволяют избежать низкокачественных результатов, таких как разрывы и неестественные стыки. Для оценки и подтверждения эффективности SHINE был разработан новый тренировочный комплекс ComplexCompo, включающий разнообразные положения и сложности сцен, такие как низкое освещение, яркие иллюминаторы и рефлексивные поверхности. ## Результаты На новой тренировочной выборке ComplexCompo SHINE показал свою высокую эффективность, получив лучшие результаты по сравнению с другими подходами, такими как преобразования латентных пространств и методы склейки. Оценки были проведены с помощью стандартных метрик (например, DINOv2), а также метриками, основанными на человеческом понимании (например, DreamSim, ImageReward, VisionReward). Эксперименты показали, что SHINE не только превосходит другие модели по качеству изображений, но и обеспечивает лучшую гармонию между главным предметом и фоном. Эти результаты подтверждают, что SHINE может эффективно решать сложные задачи в области изображения составления. ## Значимость Предложенный подход име

Abstract

Image composition aims to seamlessly insert a user-specified object into a new scene, but existing models struggle with complex lighting (e.g., accurate shadows, water reflections) and diverse, high-resolution inputs. Modern text-to-image diffusion models (e.g., SD3.5, FLUX) already encode essential physical and resolution priors, yet lack a framework to unleash them without resorting to latent inversion, which often locks object poses into contextually inappropriate orientations, or brittle attention surgery. We propose SHINE, a training-free framework for Seamless, High-fidelity Insertion with Neutralized Errors. SHINE introduces manifold-steered anchor loss, leveraging pretrained customization adapters (e.g., IP-Adapter) to guide latents for faithful subject representation while preserving background integrity. Degradation-suppression guidance and adaptive background blending are proposed to further eliminate low-quality outputs and visible seams. To address the lack of rigorous benchmarks, we introduce ComplexCompo, featuring diverse resolutions and challenging conditions such as low lighting, strong illumination, intricate shadows, and reflective surfaces. Experiments on ComplexCompo and DreamEditBench show state-of-the-art performance on standard metrics (e.g., DINOv2) and human-aligned scores (e.g., DreamSim, ImageReward, VisionReward). Code and benchmark will be publicly available upon publication.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация