One-shot Embroidery Customization via Contrastive LoRA Modulation
2509.18948v1
cs.GR, cs.CV
2025-09-25
Авторы:
Jun Ma, Qian He, Gaofeng He, Huang Chen, Chen Liu, Xiaogang Jin, Huamin Wang
Резюме на русском
#### Контекст
Одной из наиболее вызовом в области компьютерного зрения является реализация точного и естественного манипулирования простыми стилями в изображениях. Этот вопрос приобретает усиленную значимость в контексте прикладных задач, таких как оптимизация процессов визуализации в сфере ритейла. Особенно актуальным становится создание универсальных методов для мелких изменений в стиле, например, в текстиле или эмалировке. Несмотря на то, что существуют методы, такие как diffusion models, они имеют ограничения в точности и гибкости при работе с конкретными функциями стиля. Мы предлагаем рассмотреть эту проблему с использованием современных подходов, ориентированных на контрастное обучение и модуляцию LoRA.
#### Метод
Мы предлагаем усовершенствованный подход к решению задачи мелкой настройки стиля, основанный на контрастном обучении и модификации LoRA. Наше решение включает два этапа модификации: в первом этапе мы разделяем стиль и содержимое с помощью декоупленных представлений предобученных моделей распространения, а во втором этапе применяется самостоятельное расщепление по знаниям. Для этого мы используем архитектуру, основанную на подходе аналогии с изображениями, которая позволяет эффективно выделять и изменять мелкие финерградентные функции стиля. Наш подход также включает в себя инференс-пайплайн, который может принимать как изображения, так и текстовые запросы, чтобы обеспечить более широкую функциональность.
#### Результаты
Мы проводили эксперименты на нашей собственной коллекции данных, сравнивая нашу модель с другими подходами, такими как diffusion-based и традиционные методы стиля. Наши результаты показывают, что наш подход превосходит существующие решения по точности и возможности применения к различным видам стиля. Мы также проверили нашу модель на других задачах, включая художественный стиль передачи, цветаж и трансформации внешности, получив признаки хорошей общей гибкости и точности.
#### Значимость
Предлагаемый метод может быть использован в различных промышленных приложениях, таких как тонкая настройка стиля в ритейле, создание текстиля и тканей, а также визуализация продуктов в предпо- продажных процессах. Важное преимущество нашего метода заключается в своей способности декоуплировать четко стиль и содержимое, что обеспечивает более точный и гибкий контроль над процессом манипулирования. Это, в свою очередь, может ускорить процессы разработки и улучшить качество результатов в прикладных задачах.
#### Выводы
Мы предлагаем новую модель, которая улучшает методы мелкой настройки стиля с помощью контрастного обучения и модификации LoRA. На
Abstract
Diffusion models have significantly advanced image manipulation techniques,
and their ability to generate photorealistic images is beginning to transform
retail workflows, particularly in presale visualization. Beyond artistic style
transfer, the capability to perform fine-grained visual feature transfer is
becoming increasingly important. Embroidery is a textile art form characterized
by intricate interplay of diverse stitch patterns and material properties,
which poses unique challenges for existing style transfer methods. To explore
the customization for such fine-grained features, we propose a novel
contrastive learning framework that disentangles fine-grained style and content
features with a single reference image, building on the classic concept of
image analogy. We first construct an image pair to define the target style, and
then adopt a similarity metric based on the decoupled representations of
pretrained diffusion models for style-content separation. Subsequently, we
propose a two-stage contrastive LoRA modulation technique to capture
fine-grained style features. In the first stage, we iteratively update the
whole LoRA and the selected style blocks to initially separate style from
content. In the second stage, we design a contrastive learning strategy to
further decouple style and content through self-knowledge distillation.
Finally, we build an inference pipeline to handle image or text inputs with
only the style blocks. To evaluate our method on fine-grained style transfer,
we build a benchmark for embroidery customization. Our approach surpasses prior
methods on this task and further demonstrates strong generalization to three
additional domains: artistic style transfer, sketch colorization, and
appearance transfer.
Ссылки и действия
Дополнительные ресурсы: