Авторы:
Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin
#### Контекст
Современные мультимодальные модели, объединяющие понимание и генерацию изображений, показали заметный прогресс в области текст-к-изображению (T2I). Однако, несмотря на это, остается заметное различие в способности следовать инструкциям и сохранять детали в сравнении с моделями, где понимание и генерация тесно связаны, такими как GPT-4. Это снижает их эффективность в реализации точных и абстрактных пожеланий пользователей. Данная работа ориентируется на исследование роли интерлейвинга (interleaving reasoning) — методики, где модель анализирует текстовые подсказки, генерирует изображение, а затем проводит внутренний анализ для доработки деталей и качества. Мы задаем вопрос: могут ли такие подходы улучшить тексто-к-изображению?
#### Метод
Мы предлагаем **Interleaving Reasoning Generation (IRG)** — рамформу, в которой модель построчно следует циклу "мысль — генерация изображения — отработка деталей". В первом этапе, модель производит рассуждения на основе текста, чтобы направить начальную генерацию изображения. Во втором этапе, после проверки результата, модель вносит корректировки, выражаясь в текстовой форме, чтобы улучшить детали, цветовую гамму, визуальную атмосферу и соблюдение семантики. Для обучения IRG мы разрабатываем **Interleaving Reasoning Generation Learning (IRGL)** — методологию, которая разделяет обучение на два этапа:
1. Укрепление "мысли-генерации" для гарантии устойчивости и качества генерируемых изображений;
2. Обеспечение точной рефлексии текстовых корректировок и их внедрения в изображение.
Мы создали **IRGL-300K** — большущую выборку, состоящую из шести разделенных подсистем, покрывающих обучение текстовым рассуждениям и полной траектории "мысль-генерация". Наша модель, основанная на универсальной модели с возможностью вывода на разных уровнях (текст и изображение), проходит два этапа обучения:
- Обучение научиться "мыслить" и "генерировать";
- Оптимизация всего процесса "мысль-генерация-рефлексия-генерация".
#### Результаты
Мы провели многочисленные эксперименты на различных б BENCHMARKS (таких как GenEval, WISE, TIIF, GenAI-Bench, OneIG-EN) и сравнили наш результат с современными моделями. Удался определённый прогресс:
- Общий показатель GenEval возрос на 5–10 баллов в разных условиях;
- Улучшение в метрике WISE, отражающей способность следовать инструкциям;
- Значительное улучшение в TIIF, которая оценивает подробности и визуальную точность;
- Значительные показатели в GenAI-Bench и OneIG-EN.
Также было замечено улучшение визуального качества и точности в деталях, что демонстрирует эффективность нашего подхода в сохранении сем
Annotation:
Unified multimodal understanding and generation models recently have achieve
significant improvement in image generation capability, yet a large gap remains
in instruction following and detail preservation compared to systems that
tightly couple comprehension with generation such as GPT-4o. Motivated by
recent advances in interleaving reasoning, we explore whether such reasoning
can further improve Text-to-Image (T2I) generation. We introduce Interleaving
Reasoning Generation (IRG), a framework ...
ID: 2509.06945v1
cs.CV, cs.AI, cs.CL, cs.LG