ThematicPlane: Bridging Tacit User Intent and Latent Spaces for Image Generation
2508.06065v1
cs.HC, cs.AI, cs.CL, cs.CV, H.5.2; I.2.7
2025-08-12
Авторы:
Daniel Lee, Nikhil Sharma, Donghoon Shin, DaEun Choi, Harsh Sharma, Jeonghwan Kim, Heng Ji
Резюме на русском
## Контекст
Современные технологии развития изображений, основанные на генерирующих моделях АИ, стали доступными для широкой публики. Однако существующие инструменты часто не полностью учтут неявный (таинственный) творческий интент пользователей, особенно для неквалифицированных пользователей. Это ограничивает возможности быстро и эффективно реализовать свои творческие идеи. Для решения этой проблемы необходимо создать инструмент, который бы позволил пользователям легко манипулировать семантическими концепциями, такими как настроение, стиль или тематическая ориентация, не прибегая к явной формулировке сложных запросов.
## Метод
Мы предлагаем ThematicPlane — систему, которая использует взаимодействие с пользователем в гибкой интерактивной среде, где можно манипулировать семантическими концепциями. ThematicPlane характеризуется следующими ключевыми компонентами: (1) тематический ползунок, который позволяет перемещаться по высокоуровневым семантическим концепциям; (2) система многоугольников, которая отображает динамическую интерактивную палитру тематических концепций; (3) интерактивный процесс модификации, который позволяет редактировать разные аспекты генерируемых изображений, включая настроение, стиль и тематику. Это сочетание элементов обеспечивает пользователям более точный и интуитивный способ выражения творческого интента.
## Результаты
Мы провёряли ThematicPlane в экспериментальных условиях с участием 6 участников. Они проводили работу в 2 режимах: развития идеи (дивергентный) и синтеза решения (конвергентный). Участники могли свободно манипулировать семантическими концепциями, использовать их как отправную точку для творчества и реагировать на неожиданные результаты. Однако в результате исследования выяснилось, что некоторые пользователи столкнулись с проблемами в понимании того, как именно семантические концепции будут отображаться на выходных изображениях. Это подчеркивает необходимость более четкого отображения и лучшей поддержки пользователей в этом смысле.
## Значимость
ThematicPlane предлагает новый подход к интерактивному проектированию, объединяя легкость использования с высокой гибкостью. Он может быть применен в различных областях, включая творческое дизайнерское проектирование, визуальное оформление и графическое проектирование. Особые преимущества ThematicPlane заключаются в том, что он позволяет пользователям быстро и эффективно реализовать свои идеи, а также открывает новые возможности для интерактивного творчества с помощью генерирующих моделей АИ.
## Выводы
ThematicPlane доказал свою эффективность в помо
Abstract
Generative AI has made image creation more accessible, yet aligning outputs
with nuanced creative intent remains challenging, particularly for non-experts.
Existing tools often require users to externalize ideas through prompts or
references, limiting fluid exploration. We introduce ThematicPlane, a system
that enables users to navigate and manipulate high-level semantic concepts
(e.g., mood, style, or narrative tone) within an interactive thematic design
plane. This interface bridges the gap between tacit creative intent and system
control. In our exploratory study (N=6), participants engaged in divergent and
convergent creative modes, often embracing unexpected results as inspiration or
iteration cues. While they grounded their exploration in familiar themes,
differing expectations of how themes mapped to outputs revealed a need for more
explainable controls. Overall, ThematicPlane fosters expressive, iterative
workflows and highlights new directions for intuitive, semantics-driven
interaction in generative design tools.