PromptSculptor: Multi-Agent Based Text-to-Image Prompt Optimization
2509.12446v1
cs.MA, cs.AI
2025-09-18
Авторы:
Dawei Xiang, Wenyan Xu, Kexin Chu, Zixu Shen, Tianqi Ding, Wei Zhang
Резюме на русском
## Контекст
В последние годы сфера генерируемых с помощью искусственного интеллекта изображений развивается с быстрым темпом, в силу этого возникает необходимость в инструментах, упрощающих процесс создания качественных изображений. Одним из главных затруднений является то, что пользователи должны создавать подробные и точные текстовые запросы (промпты), чтобы добиться желаемого результата. Несмотря на прогресс в области генерируемых моделей текста-к-изображению, пользователи часто сталкиваются с трудностями в создании эффективных промптов, что требует многократных итераций и трудоемкого редактирования. Это проблема в особенности актуальна для тех, кто не имеет опыта в создании промптов. Мы предлагаем PromptSculptor, систему, которая автоматизирует процесс оптимизации промптов, сделав его более эффективным и доступным.
## Метод
PromptSculptor основывается на фреймворке многоагентной системы, в которой четыре специализированных агента работают совместно, чтобы генерировать и оптимизировать промпты. Образец пользовательского ввода распадается на четыре ключевых участка: сценарий, стиль, контекст и детали. Каждый агент специализируется на одном из этих аспектов и создает подробные промпты, используя технологию Chain-of-Thought для дополнительной инференции контекста. На данном этапе используется самостоятельное суждение, чтобы проверять, соответствует ли новый промпт пользовательскому запросу. Также есть фидбек-агент, который использует пользовательский отзыв для дальнейшего тонкого тюнинга. Архитектура была разработана таким образом, чтобы модель была модельно-агностичной и могла быть легко интегрирована с различными моделями генерируемых текста-к-изображению.
## Результаты
Мы провели эксперименты сравнивая PromptSculptor с другими существующими подходами к оптимизации промптов. Наши результаты показывают, что наша система сокращает число итераций, необходимых для достижения стабильного удовлетворения пользователя, что приводит к улучшению качества изображений. Мы протестировали нашу модель с разными моделями генерируемых текста-к-изображению и обнаружили, что PromptSculptor позволяет получить значительно более точные и стилизованные изображения, даже при неполных и неточных пользовательских промптах. Это демонстрирует высокую эффективность нашей системы в создании качественных промптов с минимальными пользовательскими усилиями.
## Значимость
ПромптСкульптор может быть применен в различных областях, где требуется качественное графическое оформление, например в дизайне, визуализации и рекламе. Одной из основных преимущ
Abstract
The rapid advancement of generative AI has democratized access to powerful
tools such as Text-to-Image models. However, to generate high-quality images,
users must still craft detailed prompts specifying scene, style, and
context-often through multiple rounds of refinement. We propose PromptSculptor,
a novel multi-agent framework that automates this iterative prompt optimization
process. Our system decomposes the task into four specialized agents that work
collaboratively to transform a short, vague user prompt into a comprehensive,
refined prompt. By leveraging Chain-of-Thought reasoning, our framework
effectively infers hidden context and enriches scene and background details. To
iteratively refine the prompt, a self-evaluation agent aligns the modified
prompt with the original input, while a feedback-tuning agent incorporates user
feedback for further refinement. Experimental results demonstrate that
PromptSculptor significantly enhances output quality and reduces the number of
iterations needed for user satisfaction. Moreover, its model-agnostic design
allows seamless integration with various T2I models, paving the way for
industrial applications.
Ссылки и действия
Дополнительные ресурсы: