GenTune: Toward Traceable Prompts to Improve Controllability of Image Refinement in Environment Design

2508.15227v1 cs.HC, cs.AI, H.5.2 2025-08-23

Авторы:

Wen-Fan Wang, Ting-Ying Lee, Chien-Ting Lu, Che-Wei Hsu, Nil Ponsa Campany, Yu Chen, Mike Y. Chen, Bing-Yu Chen

Резюме на русском

## Контекст Композиция экранизации, в том числе на основе генерируемых с помощью искусственного интеллекта изображений, является важной задачей в творчестве индустрии развлечений. Дизайнеры среды разрабатывают интересные 2D и 3D сцены для игр, фильмов и телевидения, что требует тонкого управления конкретными деталями и сохранения глобальной консистентности. Однако интеграция AI в эти процессы сталкивается с проблемами: длинные, непонятные для людей промпты и несовершенство методов местных редактирований. ## Метод GenTune предлагает новый подход к генерируемым промптам, который позволяет дизайнерам выделить элементы в генерируемой картине и напрямую относить их к соответствующим частям сгенерированного промпта. Такой механизм позволяет оптимизировать взаимодействие человека с искусственным интеллектом, упрощая изменение локальных деталей с сохранением общей консистентности. ## Результаты Разработка была протестирована на двух этапах. В первом этапе проводилась формативная сессия с 10 дизайнерами, которая позволила выявить проблемы с прозрачностью и работой в системе. Во втором этапе, суммативное исследование с 20 дизайнерами показало, что GenTune значительно повышает эффективность, качество и удовлетворенность пользователей в сравнении с базовыми методами. ## Значимость GenTune может быть применен в творческих процессах, таких как 3D-моделирование, композиция видеокадров и текст-к-изображение генерация. Он улучшает управляемость структурных элементов, позволяет дизайнерам быстрее и точнее работать, и значительно повышает качество творческих решений. ## Выводы GenTune является прорывом в области AI-поддержки в творческих процессах. Будущие исследования будут посвящены улучшению точности понимания промптов и их дополнительной адаптации к новым стилям и требованиям.

Abstract

Environment designers in the entertainment industry create imaginative 2D and 3D scenes for games, films, and television, requiring both fine-grained control of specific details and consistent global coherence. Designers have increasingly integrated generative AI into their workflows, often relying on large language models (LLMs) to expand user prompts for text-to-image generation, then iteratively refining those prompts and applying inpainting. However, our formative study with 10 designers surfaced two key challenges: (1) the lengthy LLM-generated prompts make it difficult to understand and isolate the keywords that must be revised for specific visual elements; and (2) while inpainting supports localized edits, it can struggle with global consistency and correctness. Based on these insights, we present GenTune, an approach that enhances human--AI collaboration by clarifying how AI-generated prompts map to image content. Our GenTune system lets designers select any element in a generated image, trace it back to the corresponding prompt labels, and revise those labels to guide precise yet globally consistent image refinement. In a summative study with 20 designers, GenTune significantly improved prompt--image comprehension, refinement quality, and efficiency, and overall satisfaction (all $p < .01$) compared to current practice. A follow-up field study with two studios further demonstrated its effectiveness in real-world settings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

GenTune: Toward Traceable Prompts to Improve Controllability of Image Refinement in Environment Design

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

When AI Gets Persuaded, Humans Follow: Inducing the Conformity Effect in Persuas...

fCrit: A Visual Explanation System for Furniture Design Creative Support

Навигация