TraitSpaces: Towards Interpretable Visual Creativity for Human-AI Co-Creation

2509.24326v1 cs.HC, cs.AI, cs.CV 2025-10-01

Авторы:

Prerna Luthra

Резюме на русском

## Контекст Область визуального творчества широко рассматривается в умственных и культурных исследованиях, однако автоматизированные методы еще не полностью интегрированы в этот процесс. Особенно актуальным стало исследование взаимодействия людей с искусственным интеллектом в процессах творчества. Одна из основных проблем заключается в необходимости развития интерпретируемых, психологически обоснованных методов моделирования творческих процессов. Исследования в этой области могут помочь в построении моделей, которые бы не только моделировали творческий процесс, но и позволили интерпретировать его в контексте жизней людей и как часть культурных практик. Таким образом, целью данной работы является разработка нового фреймворка для моделирования визуального творчества, который бы был интерпретируемым, обоснованным психологически и включающим в себя различные аспекты творчества. ## Метод Для моделирования визуального творчества был разработан фреймворк, основанный на теориях психологии и интервью с практикующими исскуством. Фреймворк охватывает четыре основных сферы визуального творчества: Inner World (внутренняя сфера), Outer World (наружная сфера), Imaginative World (импровизационная сфера) и Moral World (моральная сфера). Чтобы определить траектории творчества, были выделены двенадцать характеристик, которые перекрывались в культурной, эмоциональной, символической и этической сферах. Для получения данных был использован датасет SemArt, содержащий 20 000 изображений с описаниями, которые были отмечены с помощью GPT-4.1 с помощью теория-ориентированных запросов. Данные были использованы для обучения модели CLIP к распознаванию этих характеристик. Обучение проводилось с использованием различных методов, включая методы классификации и регрессии. ## Результаты Исследования показали, что модель TraitSpaces может точно предсказывать некоторые аспекты творческих процессов, такие как Environmental Dialogicity (общение с окружающим миром) и Redemptive Arc (краска в краску). Такие характеристики были прогнозируемы с высокой достоверностью ($R^2 \approx 0.64 - 0.68$). Однако другие аспекты, такие как Memory Imprint (впечатление памяти), оказались более сложными для прогнозирования, что демонстрирует ограничения исключительно визуальных данных. Также был разработан "траекторий творчества", позволяющий визуализировать и интерпретировать различные виды творческих процессов. Например, по стрелке Redemptive Arc можно рассмотреть работы, которые показывают присутствие временных проблем и их преодоления. ##

Abstract

We introduce a psychologically grounded and artist-informed framework for modeling visual creativity across four domains: Inner, Outer, Imaginative, and Moral Worlds. Drawing on interviews with practicing artists and theories from psychology, we define 12 traits that capture affective, symbolic, cultural, and ethical dimensions of creativity.Using 20k artworks from the SemArt dataset, we annotate images with GPT 4.1 using detailed, theory-aligned prompts, and evaluate the learnability of these traits from CLIP image embeddings. Traits such as Environmental Dialogicity and Redemptive Arc are predicted with high reliability ($R^2 \approx 0.64 - 0.68$), while others like Memory Imprint remain challenging, highlighting the limits of purely visual encoding. Beyond technical metrics, we visualize a "creativity trait-space" and illustrate how it can support interpretable, trait-aware co-creation - e.g., sliding along a Redemptive Arc axis to explore works of adversity and renewal. By linking cultural-aesthetic insights with computational modeling, our work aims not to reduce creativity to numbers, but to offer shared language and interpretable tools for artists, researchers, and AI systems to collaborate meaningfully.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

TraitSpaces: Towards Interpretable Visual Creativity for Human-AI Co-Creation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Generative Augmented Reality: Paradigms, Technologies, and Future Applications

Trust in Vision-Language Models: Insights from a Participatory User Workshop

Achieving Effective Virtual Reality Interactions via Acoustic Gesture Recognitio...

SigmaCollab: An Application-Driven Dataset for Physically Situated Collaboration

Learning To Defer To A Population With Limited Demonstrations

Навигация