The Mind's Eye: A Multi-Faceted Reward Framework for Guiding Visual Metaphor Generation

2508.18569v1 cs.CL, cs.CV 2025-08-28
Авторы:

Girish A. Koushik, Fatemeh Nazarieh, Katherine Birch, Shenbin Qian, Diptesh Kanojia

Резюме на русском

#### Контекст Визуальное понимание и генерация метафор представляют собой важные исследовательские области, которые связаны с задачей создания изображений на основе текстовых метафор. Эта задача требует сбалансированного понимания языка и визуальной когниции, чтобы сохранить смысловую компоненту метафоры и обеспечить визуальную естественность. Однако существуют значительные проблемы, такие как недостаточное понимание метафорических связей, нестабильность визуальных генераторов и нехватка методик для оценки качества генерируемых изображений. Наша мотивация заключается в развитии метода, который может эффективно анализировать и генерировать визуальные метафоры, с учетом различных стилей и контекстов. #### Метод Мы предлагаем **"Mind's Eye"**, фреймворк, основанный на самостоятельной оценке, для генерации визуальных метафор. Наша методология включает в себя несколько компонентов: 1. **Метафорная декомпозиция** — разделение метафоры на три компонента: источник, цель и смысл. 2. **Самостоятельная оценка** — использование метрик, таких как CLIP и Meaning Alignment (MA), для оценки качества генерируемых изображений. 3. **Обучение без учета данных** — использование структурированных промингов (Source-Target-Meaning, S-T-M) для эксплуатации возможностей моделей типа GPT без дополнительного обучения. 4. **Рекомбинация с легковесной рекорд-процедурой RL** — улучшение генерируемых изображений без требований к тяжелому обучению. #### Результаты Мы провели эксперименты с тестовой выборкой, сравнивая наш фреймворк с двумя основными базовыми моделями: GPT-4o и Imagen. Результаты показали, что: - Тренировка-без-данных показала лучшие результаты на метриках декомпозиции, CLIP и MA. - Тренировка с самостоятельной оценкой позволила улучшить алгоритм без полного обучения. - Участники пользовательского исследования выбирали GPT-4o в целом, но наше решение было лучшим среди альтернатив для открытого исходного кода, особенно для генерации абстрактных метафор. #### Значимость Наш фреймворк имеет широкие области применения, включая генерацию концептуальных изображений, визуально-метафорический анализ и синтез визуальных примеров для обучения с помощью компьютера. Он обеспечивает следующие преимущества: - Улучшение точности генерации, особенно для абстрактных метафор. - Легковесность и эффективность без требования к тяжелому моделированию. - Возможность комбинирования существующих моделей с новым подходом для повышения качества. #### Выводы Н

Abstract

Visual metaphor generation is a challenging task that aims to generate an image given an input text metaphor. Inherently, it needs language understanding to bind a source concept with a target concept, in a way that preserves meaning while ensuring visual coherence. We propose a self-evaluating visual metaphor generation framework that focuses on metaphor alignment. Our self-evaluation approach combines existing metrics with our newly proposed metaphor decomposition score and a meaning alignment (MA) metric. Within this setup, we explore two novel approaches: a training-free pipeline that explicitly decomposes prompts into source-target-meaning (S-T-M) mapping for image synthesis, and a complementary training-based pipeline that improves alignment using our proposed self-evaluation reward schema, without any large-scale retraining. On the held-out test set, the training-free approach surpasses strong closed baselines (GPT-4o, Imagen) on decomposition, CLIP, and MA scores, with the training-based approach close behind. We evaluate our framework output using a user-facing study, and observed that participants preferred GPT-4o overall, while our training-free pipeline led open-source methods and edged Imagen on abstract metaphors. Our analyses show S-T-M prompting helps longer or more abstract metaphors, with closed models excelling on short, concrete cases; we also observe sensitivity to sampler settings. Overall, structured prompting and lightweight RL perform metaphor alignment well under modest compute, and remaining gaps to human preference appear driven by aesthetics and sampling.

Ссылки и действия