## Контекст
Область исследования, посвященная изображению, широко развивается в современной компьютерной графике и искусственном интеллекте. Одна из сложных задач в этой области — изображение составления, которая заключается в том, чтобы вставить пользовательский объект в новую сцену таким образом, чтобы результат выглядел природным и синтетическим. Несмотря на прогрессы в глубинном обучении, существующие модели сталкиваются с рядом проблем, в том числе сложными условиями освещения (например, точные тени, отражения на воде) и разнообразием высокого разрешения входных данных. Недавние текстовые модели для генерации изображений, такие как SD3.5 и FLUX, включают в себя базовые физические признаки и высокое разрешение, но не полностью могут эффективно использовать эти возможности без потерь качества. Таким образом, существует необходимость в развитии методов, позволяющих эффективно использовать эти модели для физически правдоподобного изображения составления.
## Метод
Метод, предложенный в работе, имеет название SHINE (Seamless, High-fidelity Insertion with Neutralized Errors), который является простой, но эффективной архитектурой, не требующей дополнительного обучения. Основная идея заключается в использовании целевой адаптации latenta с помощью предобученных инструментов, таких как IP-Adapter. Данные адаптеры позволяют гибко контролировать представление объекта, сохранив точность позиции и физическую правдоподобность. Для повышения результатов вводятся два дополнительных механизма: адаптивная смешивания фона и подавление потерь формируемой картины. Эти методы позволяют избежать низкокачественных результатов, таких как разрывы и неестественные стыки. Для оценки и подтверждения эффективности SHINE был разработан новый тренировочный комплекс ComplexCompo, включающий разнообразные положения и сложности сцен, такие как низкое освещение, яркие иллюминаторы и рефлексивные поверхности.
## Результаты
На новой тренировочной выборке ComplexCompo SHINE показал свою высокую эффективность, получив лучшие результаты по сравнению с другими подходами, такими как преобразования латентных пространств и методы склейки. Оценки были проведены с помощью стандартных метрик (например, DINOv2), а также метриками, основанными на человеческом понимании (например, DreamSim, ImageReward, VisionReward). Эксперименты показали, что SHINE не только превосходит другие модели по качеству изображений, но и обеспечивает лучшую гармонию между главным предметом и фоном. Эти результаты подтверждают, что SHINE может эффективно решать сложные задачи в области изображения составления.
## Значимость
Предложенный подход име