UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation

2508.05399v1 cs.CV, cs.AI, cs.LG 2025-08-09

Авторы:

Wonjun Kang, Byeongkeun Ahn, Minjae Lee, Kevin Galim, Seunghyuk Oh, Hyung Il Koo, Nam Ik Cho

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Текст-в-изображение (T2I) генерация является одной из ключевых областей искусственного интеллекта, которая преобразует текстовое описание в соответствующее визуальное представление. Эта область активно развивалась за последние годы благодаря развитию моделей, таких как Diffusion Models и Autoregressive Models. Однако, несмотря на значительные успехи, создание высококачественных изображений с композиционной точностью остается сложной задачей. Традиционные модели, основанные на Autoregressive Models, страдают от ограничений, вызванных каузальной (последовательной) вниманием и последовательным декодированием, что затрудняет эффективное и качественное генерирование изображений. В последнее время Masked Generative Transformers (MGT) получили широкое распространение как альтернатевная к Autoregressive Models. Они используют бидирекционное внимание и параллельное декодирование, что позволяет достигать более высокой эффективности и качества генерации. Однако, несмотря на эти преимущества, MGT также сталкиваются с проблемой композиционной точности. Например, даже современные модели Diffusion Models часто не могут правильно связать атрибуты и обеспечить точное соответствие текста и изображения. Эта проблема особенно заметна в сложных сценариях, где необходимо точно отображать отдельные объекты и их атрибуты. Несмотря на то, что Diffusion Models были широко исследованы в этом контексте, Masked Generative Transformers не получили такого же уровня внимания. Таким образом, требуется новый подход, который может улучшить композиционную точность в MGT без необходимости дополнительного обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предлагают метод под названием **UNCAGE: Unmasking with Contrastive Attention Guidance**. Этот метод является методом без обучения, который улучшает композиционную точность MGT путем использования attention maps для определения токенов, которые лучше всего представляют отдельные объекты. UNCAGE работает на основе механизма "unmasking", где токены, которые были маскированы во время обучения, выделяются и улучшаются с помощью attention guidance. Ключевой компонент метода заключается в том, чтобы использовать contrastive attention guidance для того, чтобы повысить важность токенов, которые лучше всего соответствуют индивидуальным объектам в изображении. Это позволяет модели лучше фокусироваться на ключевых аспектах изображения, таких как объекты и их атрибуты, и поэтому повышает точность их представления. Техническая реализация UNCAGE включает в себя несколько этапов. Во-первых, модель генерирует изображение на основе заданного текста. Затем, с помощью attention maps, выбираются токены, которые больше всего соответствуют отдельным объектам. Эти токены получают больше веса в процессе декодирования, что приводит к лучшей композиционной точности. Метод не требует дополнительного обучения модели, что делает его высокоэффективным и пригодным для быстрого применения в различных сценариях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода UNCAGE, авторы провели ряд экспериментов на различных датасетах, включая COCO и CUB. Использовались различные метрики, такие как FID (Fréchet Inception Distance) и R-Precision, для оценки качества генерированных изображений. Результаты показали, что UNCAGE значительно улучшает композиционную точность генерированных изображений по сравнению со стандартными моделями MGT. Например, в моделях, использующих UNCAGE, было замечено значительное улучшение в плане точности представления отдельных объектов и их атрибутов. Это привело к лучшему FID и R-Precision по сравнению с базовыми моделями. Кроме того, эксперименты показали, что UNCAGE не только повышает качество генерации, но также делает это с незначительным дополнительным расходом ресурсов во время инференса. Это делает метод пригодным для использования в реальных приложениях, где важно сочетание качества и эффективности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ UNCAGE имеет широкий спектр практических приложений. Он может быть использован в областях, где важна высокая точность генерации изображений на основе текста, таких как компьютерная графика, дизайн, реклама, и даже в области медицины, где точность визуализации критична. Преимущества метода заключаются в том, что он не только повышает качество генерации, но также делает это без необходимости дополнительного обучения модели, что значительно упрощает его внедрение в существующие системы. Кроме того, UNCAGE может быть использован в сочетании с различными моделями MGT, что делает его универсальным инструментом для улучшения композиционной точности в различных контекстах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен метод UNCAGE, который улучшает композиционную точность Masked Generative Transformers в задачах текст-в-изображение генерации. Этот метод является безучебным и не требует дополнительного обучения модели, что делает его высокоэффективным и практичным для реального применения. Результаты экспериментов показали значительное улучшение качества генерации, особенно в сложных сценариях, где необходима точная представление отдельных объектов. В будущем, метод может быть дальнейше разработан для улучшения его применимости в более широких контекстах, включая мультимодальные модели и приложения в реальном времени. Кроме того, могут быть исследованы дополнительные способы улучшения attention guidance для еще более точного представления объектов и их атрибутов.

Abstract

Text-to-image (T2I) generation has been actively studied using Diffusion Models and Autoregressive Models. Recently, Masked Generative Transformers have gained attention as an alternative to Autoregressive Models to overcome the inherent limitations of causal attention and autoregressive decoding through bidirectional attention and parallel decoding, enabling efficient and high-quality image generation. However, compositional T2I generation remains challenging, as even state-of-the-art Diffusion Models often fail to accurately bind attributes and achieve proper text-image alignment. While Diffusion Models have been extensively studied for this issue, Masked Generative Transformers exhibit similar limitations but have not been explored in this context. To address this, we propose Unmasking with Contrastive Attention Guidance (UNCAGE), a novel training-free method that improves compositional fidelity by leveraging attention maps to prioritize the unmasking of tokens that clearly represent individual objects. UNCAGE consistently improves performance in both quantitative and qualitative evaluations across multiple benchmarks and metrics, with negligible inference overhead. Our code is available at https://github.com/furiosa-ai/uncage.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

PyroFocus: A Deep Learning Approach to Real-Time Wildfire Detection in Multispec...

ProtoEFNet: Dynamic Prototype Learning for Inherently Interpretable Ejection Fra...

GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy...

Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video...

PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation

Навигация