CEIDM: A Controlled Entity and Interaction Diffusion Model for Enhanced Text-to-Image Generation
2508.17760v1
cs.CV, cs.CL
2025-08-27
Авторы:
Mingyue Yang, Dianxi Shi, Jialu Zhou, Xinyu Wei, Leqian Li, Shaowu Yang, Chunping Qiu
Резюме на русском
## Контекст
Текст-в-изображение (Text-to-Image, T2I) — это одна из наиболее выгодных областей искусственного интеллекта, которая позволяет преобразовывать текстовые описания в живые, детальные изображения. Однако, существуют значительные проблемы с эффективным управлением сущностями и их взаимодействиями в текст-в-изображение на основе модели распространения (diffusion models). Эти проблемы влияют на качество изображения и его соответствие реальному зрелищу. Традиционные подходы часто не могут полностью учесть сложные взаимосвязи между сущностями в тексте, что приводит к изображениям с неточным выражением сущностей или неестественным взаимодействием. Этот факт подчеркивает необходимость разработки более усовершенствованных методов, которые могут эффективно управлять этими взаимодействиями для повышения качества изображений.
## Метод
CEIDM (Controlled Entity and Interaction Diffusion Model) представляет собой развитый подход к текст-в-изображение, основанный на модели распространения, с двумя основными компонентами управления: управлением сущностями и их взаимодействиями. Для выявления интерактивных отношений между сущностями, CEIDM использует Large Language Models (LLMs) с цепочкой мыслей (chain of thought), чтобы добывать надежные и разумные интерактивные отношения. Для улучшения понимания интерактивных действий, CEIDM применяет метод кластеризации и оффсета интерактивных действий, который разделяет и оффсетирует действия в текст-описании. Кроме того, CEIDM представляет сеть для управления сущностями, которая использует маски семантического руководства, многомерную сеть для улучшения особенностей сущностей, и динамическую сеть для слияния этих особенностей. Эти компоненты объединяются для точного управления сущностями и их взаимодействиями, что влечет за собой высококачественные изображения.
## Результаты
CEIDM был проверен на популярных датасетах для текст-в-изображение, включая COCO и Flickr30k. Эксперименты показали, что CEIDM превосходит существующие методы в области управления сущностями и их взаимодействиями. Изображения, сгенерированные CEIDM, обладали более высоким уровнем детализации, более логичным взаимодействием сущностей и большей соответствием текстовым описаниям. Например, в сравнении с предыдущими моделями, CEIDM показал значительное улучшение в точности интерпретации интерактивных действий и создании рациональных изображений.
## Значимость
CEIDM имеет широкие возможности применения в сферах, где требуется высококачественная текст-в-изображение генерация, таких как поисковые системы, виртуальная реальность, и искусственная графика. Этот подход предоставляет не
Abstract
In Text-to-Image (T2I) generation, the complexity of entities and their
intricate interactions pose a significant challenge for T2I method based on
diffusion model: how to effectively control entity and their interactions to
produce high-quality images. To address this, we propose CEIDM, a image
generation method based on diffusion model with dual controls for entity and
interaction. First, we propose an entity interactive relationships mining
approach based on Large Language Models (LLMs), extracting reasonable and rich
implicit interactive relationships through chain of thought to guide diffusion
models to generate high-quality images that are closer to realistic logic and
have more reasonable interactive relationships. Furthermore, We propose an
interactive action clustering and offset method to cluster and offset the
interactive action features contained in each text prompts. By constructing
global and local bidirectional offsets, we enhance semantic understanding and
detail supplementation of original actions, making the model's understanding of
the concept of interactive "actions" more accurate and generating images with
more accurate interactive actions. Finally, we design an entity control network
which generates masks with entity semantic guidance, then leveraging
multi-scale convolutional network to enhance entity feature and dynamic network
to fuse feature. It effectively controls entities and significantly improves
image quality. Experiments show that the proposed CEIDM method is better than
the most representative existing methods in both entity control and their
interaction control.
Ссылки и действия
Дополнительные ресурсы: