SPG: Style-Prompting Guidance for Style-Specific Content Creation

2508.11476v1 cs.GR, cs.CV 2025-08-19
Авторы:

Qian Liang, Zichong Chen, Yang Zhou, Hui Huang

Резюме на русском

## Контекст Современные текстово-изображения (T2I) диффузионные модели достигли выдающихся результатов в создании изображений, соответствующих текстовым подсказкам. Однако контроль визуальной стилистики генерируемых изображений остается вызовом. Несмотря на то, что существуют методы для управления стилем, они часто требуют дополнительных данных, таких как стильные демонстрации или выборки, что усложняет их применение. В данной работе мы предлагаем **Style-Prompting Guidance (SPG)** — новую стратегию семплирования для стилевой настройки генерируемых изображений. SPG позволяет обеспечить лучшую стилистическую консистентность и точность семантического содержания. ## Метод SPG использует **стиль-ноуз** — специально построенный вектор, который отличается от неусловного шума диффузии только директивным стилем. Этот вектор используется для управления диффузионным процессом, приводя его к желаемому стилю. Затем мы интегрируем SPG с **Classifier-Free Guidance (CFG)**, чтобы добиться высокой степени управляемости и сохранить высокое качество изображений. SPG может быть легко интегрирована с различными управляемыми моделями, такими как **ControlNet** и **IPAdapter**, что делает ее гибкой и применимой в разных сценариях. ## Результаты Мы провели многочисленные эксперименты, протестировав SPG на различных стильных задачах. Использовались стилизированные демонстрации и синтетические изображения для оценки качества генерируемых изображений. Результаты показали, что SPG превосходит состояние техник по сравнению с другими стильно-настроенными методами. Мы также провели эксперименты с интеграцией SPG в ControlNet и IPAdapter, получив выдающиеся результаты в стилизации изображений. ## Значимость SPG может быть применена в различных сценариях, таких как творческое искусство, виртуальная реальность, игровая индустрия и т.д. Главное преимущество SPG заключается в своей простоте и эффективности, позволяя пользователям получать высококачественные стилизованные изображения без дополнительных данных. Мы видим потенциал SPG в широком распространении в реальных приложениях, где контроль визуального стиля критичен. ## Выводы SPG представляет собой простой, но эффективный метод для стилизованного текстово-изображения. Мы продемонстрировали его эффективность и генеральную пригодность в различных задачах. Наше исследование открывает новые пути для решения проблем стилистики в диффузионных моделях. Мы планируем продолжить работу над улучшением SPG, включая исследования в области улучшения качества изображений и расширения приложений.

Abstract

Although recent text-to-image (T2I) diffusion models excel at aligning generated images with textual prompts, controlling the visual style of the output remains a challenging task. In this work, we propose Style-Prompting Guidance (SPG), a novel sampling strategy for style-specific image generation. SPG constructs a style noise vector and leverages its directional deviation from unconditional noise to guide the diffusion process toward the target style distribution. By integrating SPG with Classifier-Free Guidance (CFG), our method achieves both semantic fidelity and style consistency. SPG is simple, robust, and compatible with controllable frameworks like ControlNet and IPAdapter, making it practical and widely applicable. Extensive experiments demonstrate the effectiveness and generality of our approach compared to state-of-the-art methods. Code is available at https://github.com/Rumbling281441/SPG.

Ссылки и действия