PromptSculptor: Multi-Agent Based Text-to-Image Prompt Optimization

2509.12446v1 cs.MA, cs.AI 2025-09-18
Авторы:

Dawei Xiang, Wenyan Xu, Kexin Chu, Zixu Shen, Tianqi Ding, Wei Zhang

Резюме на русском

## Контекст В последние годы сфера генерируемых с помощью искусственного интеллекта изображений развивается с быстрым темпом, в силу этого возникает необходимость в инструментах, упрощающих процесс создания качественных изображений. Одним из главных затруднений является то, что пользователи должны создавать подробные и точные текстовые запросы (промпты), чтобы добиться желаемого результата. Несмотря на прогресс в области генерируемых моделей текста-к-изображению, пользователи часто сталкиваются с трудностями в создании эффективных промптов, что требует многократных итераций и трудоемкого редактирования. Это проблема в особенности актуальна для тех, кто не имеет опыта в создании промптов. Мы предлагаем PromptSculptor, систему, которая автоматизирует процесс оптимизации промптов, сделав его более эффективным и доступным. ## Метод PromptSculptor основывается на фреймворке многоагентной системы, в которой четыре специализированных агента работают совместно, чтобы генерировать и оптимизировать промпты. Образец пользовательского ввода распадается на четыре ключевых участка: сценарий, стиль, контекст и детали. Каждый агент специализируется на одном из этих аспектов и создает подробные промпты, используя технологию Chain-of-Thought для дополнительной инференции контекста. На данном этапе используется самостоятельное суждение, чтобы проверять, соответствует ли новый промпт пользовательскому запросу. Также есть фидбек-агент, который использует пользовательский отзыв для дальнейшего тонкого тюнинга. Архитектура была разработана таким образом, чтобы модель была модельно-агностичной и могла быть легко интегрирована с различными моделями генерируемых текста-к-изображению. ## Результаты Мы провели эксперименты сравнивая PromptSculptor с другими существующими подходами к оптимизации промптов. Наши результаты показывают, что наша система сокращает число итераций, необходимых для достижения стабильного удовлетворения пользователя, что приводит к улучшению качества изображений. Мы протестировали нашу модель с разными моделями генерируемых текста-к-изображению и обнаружили, что PromptSculptor позволяет получить значительно более точные и стилизованные изображения, даже при неполных и неточных пользовательских промптах. Это демонстрирует высокую эффективность нашей системы в создании качественных промптов с минимальными пользовательскими усилиями. ## Значимость ПромптСкульптор может быть применен в различных областях, где требуется качественное графическое оформление, например в дизайне, визуализации и рекламе. Одной из основных преимущ

Abstract

The rapid advancement of generative AI has democratized access to powerful tools such as Text-to-Image models. However, to generate high-quality images, users must still craft detailed prompts specifying scene, style, and context-often through multiple rounds of refinement. We propose PromptSculptor, a novel multi-agent framework that automates this iterative prompt optimization process. Our system decomposes the task into four specialized agents that work collaboratively to transform a short, vague user prompt into a comprehensive, refined prompt. By leveraging Chain-of-Thought reasoning, our framework effectively infers hidden context and enriches scene and background details. To iteratively refine the prompt, a self-evaluation agent aligns the modified prompt with the original input, while a feedback-tuning agent incorporates user feedback for further refinement. Experimental results demonstrate that PromptSculptor significantly enhances output quality and reduces the number of iterations needed for user satisfaction. Moreover, its model-agnostic design allows seamless integration with various T2I models, paving the way for industrial applications.

Ссылки и действия