FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

2509.09680v1 cs.CV, cs.CL 2025-09-13

Авторы:

Rongyao Fang, Aldrich Yu, Chengqi Duan, Linjiang Huang, Shuai Bai, Yuxuan Cai, Kun Wang, Si Liu, Xihui Liu, Hongsheng Li

Резюме на русском

## Контекст Текстово-изображенческие (T2I) модели, которые генерируют изображения на основе текстовых описаний, получили широкое применение в различных областях, включая искусственное интеллектуальное творчество, развитие графического дизайна и визуализацию содержимого. Однако существуют значительные проблемы в их развитии, определенной частью которых является недостаток больших данных, фокусированных на логическом соотнешении текстов и изображений. Большинство доступных T2I-датасетов и оценочных бенчмарков ограничены либо в размере, либо в детализации, что приводит к заметному разрыву в качестве генерируемых изображений между открытыми и закрытыми системами. Для решения этой проблемы предлагается новая масштабная методология, способная поднять стандарты глубокого анализа и генерирования в области T2I. ## Метод FLUX-Reason-6M - это инновационный датасет, состоящий из 6 миллионов высококачественных изображений, сгенерированных FLUX-моделью, и 20 миллионов билингвальных описаний (английский и китайский), которые предназначены для развития умений на глубоком логическом уровне. Изображения разделены на шесть категорий: Диалог, Образ, Текст, Стиль, Эмоциональный Уровень, Композиция. Каждое изображение сопровождается гидравлическим цепью мышления (Generation Chain-of-Thought, GCoT), которая подробно описывает шаги по созданию изображения. Дополнительно представлен PRISM-Bench - методология оценки, включающая 7 отдельных тестов: Основные Тесты, Оценка Стиля, Оценка Детализации, Оценка Достоверности, Тест Убежденности, Тест Объектности и Тест Логического Развития. Эти тесты используют визуально-языковые модели для точного анализа генерируемых изображений на уровне визуально-текстового анализа и критериев красоты. ## Результаты Используя FLUX-Reason-6M и PRISM-Bench, проведены эксперименты с 19 различными T2I-моделями, включая как открытые, так и закрытые системы. Эксперименты продемонстрировали значительные разрывы в качестве генерируемых изображений, особенно в сложных задачах, таких как логический анализ текста и изображений. На PRISM-Bench, где оцениваются сложные тексты, наибольшие проблемы выявлены в области глубокого понимания текста, а также в аккуратности и стилевом выполнении. Эти результаты подтверждают необходимость дальнейшего улучшения в области T2I-генерирования. ## Значимость Данный датасет и бенчмарк имеют революционное значение для развития открытого T2I-генерирования. Они предоставляют широкую базу для обучения и оценки моделей, позволяя улуч

Abstract

The advancement of open-source text-to-image (T2I) models has been hindered by the absence of large-scale, reasoning-focused datasets and comprehensive evaluation benchmarks, resulting in a performance gap compared to leading closed-source systems. To address this challenge, We introduce FLUX-Reason-6M and PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M is a massive dataset consisting of 6 million high-quality FLUX-generated images and 20 million bilingual (English and Chinese) descriptions specifically designed to teach complex reasoning. The image are organized according to six key characteristics: Imagination, Entity, Text rendering, Style, Affection, and Composition, and design explicit Generation Chain-of-Thought (GCoT) to provide detailed breakdowns of image generation steps. The whole data curation takes 15,000 A100 GPU days, providing the community with a resource previously unattainable outside of large industrial labs. PRISM-Bench offers a novel evaluation standard with seven distinct tracks, including a formidable Long Text challenge using GCoT. Through carefully designed prompts, it utilizes advanced vision-language models for nuanced human-aligned assessment of prompt-image alignment and image aesthetics. Our extensive evaluation of 19 leading models on PRISM-Bench reveals critical performance gaps and highlights specific areas requiring improvement. Our dataset, benchmark, and evaluation code are released to catalyze the next wave of reasoning-oriented T2I generation. Project page: https://flux-reason-6m.github.io/ .

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Only Training for Image Captioning with Retrieval Augmentation and Modality...

Generalized Medical Phrase Grounding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on...

Thinking with Programming Vision: Towards a Unified View for Thinking with Image...

See, Think, Learn: A Self-Taught Multimodal Reasoner

Навигация