DreamPainter: Image Background Inpainting for E-commerce Scenarios

2508.02155v1 cs.CV, cs.AI 2025-08-09
Авторы:

Sijie Zhao, Jing Cheng, Yaoyao Wu, Hao Xu, Shaohui Jiao

Резюме на русском

**Резюме** В статье предлагается решение проблемы подготовки бэкграундов для изображений продуктов в e-commerce сценариях, связанной с необходимостью сохранить консистентность формирования продуктов в изображениях, а также гармонию между продуктом и бэкграундом через точное расположение, создание теней и отражений. Основная сложность заключается в отсутствии достаточного количества доменно-специфических данных для обучения методов inpainting. Рассматриваемое решение — фреймворк DreamPainter, который использует для контроля текстовые спроможенности, а также позволяет включать в процесс дополнительные сигналы управления, основываясь на специально созданной высококачественной датасете DreamEcom-400K. Эта датасет содержит точные маски продуктов, идеальные бэкграунды, текстовые спроможенности и атмосферно выглядящие продуктовые изображения. Исследования показали, что DreamPainter значительно превосходит современные методы в области inpainting, обеспечивая высокую консистентность продуктов и эффективно интегрируя текстовые спроможенности и специфические бэкграунд-изображения.

Abstract

Although diffusion-based image genenation has been widely explored and applied, background generation tasks in e-commerce scenarios still face significant challenges. The first challenge is to ensure that the generated products are consistent with the given product inputs while maintaining a reasonable spatial arrangement, harmonious shadows, and reflections between foreground products and backgrounds. Existing inpainting methods fail to address this due to the lack of domain-specific data. The second challenge involves the limitation of relying solely on text prompts for image control, as effective integrating visual information to achieve precise control in inpainting tasks remains underexplored. To address these challenges, we introduce DreamEcom-400K, a high-quality e-commerce dataset containing accurate product instance masks, background reference images, text prompts, and aesthetically pleasing product images. Based on this dataset, we propose DreamPainter, a novel framework that not only utilizes text prompts for control but also flexibly incorporates reference image information as an additional control signal. Extensive experiments demonstrate that our approach significantly outperforms state-of-the-art methods, maintaining high product consistency while effectively integrating both text prompt and reference image information.

Ссылки и действия