Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation
2508.09987v1
cs.CV, cs.AI, cs.CL
2025-08-15
Авторы:
Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li
Резюме на русском
## Контекст
Одним из актуальных направлений в области глубокого обучения является создание моделей, эффективно генерирующих изображения на основе текстовых описаний. Несмотря на успех моделей GPT-4o в этой области, существуют отклонения в синхронизации текстовых и изображенийных семантик, а также ограничения в доступности качественных данных для обучения. Эти проблемы приводят к недостаточной точности в обработке редких или сложных запросов пользователей, таких как создание изображений в сюрреалистических или многореферентных сценариях. Для устранения этих проблем необходимо развитие систем, которые могли бы совершенствоватьсюреалистическийсозданиемоделей, которые могли бы совершенствоваться с помощью высококачественных синтетических данных.
## Метод
Методология Echo-4o основывается на создании и использовании синтетического данных, генерируемых с помощью GPT-4o. Эта модель порождает 180K-масштабные изображения, оптимизированные для заполнения пробелов в реальных данных, таких как наличие редких сценариев и чистых фонов. Для тонкой настройки базовой модели Bagel введен синтетический датасет Echo-4o-Image, предназначенный для улучшения текстово-изображенией синхронизации. Для точного оценки результатов были разработаны две новые эвалиационные бенчмарки: GenEval++ для оценки сложностных инструкций, и Imagine-Bench для оценки ответов на интеллектуально-изобразительные задачи.
## Результаты
Основными результатами данного исследования является повышение точности генерирования изображений в сравнении с существующими моделями. В результатах экспериментов на популярных бенчмарках Echo-4o показал значительное улучшение в задачах текстово-изображательной синхронизации. Новые бенчмарки, например GenEval++, позволили избежать сковывающих результаты оценочные метрики, а Imagine-Bench продемонстрировал улучшение моделей в экспериментах с изображениями сложных сценариев. Более того, применение Echo-4o-Image к другим моделям (например, OmniGen2 и BLIP3-o) показало значительные повышения метрик по нескольким показателям.
## Значимость
Результаты Echo-4o-Image могут быть применены в различных областях, включая создание контента, ретуширование изображений, и создание многореферентных изображений. Эта модель предлагает значительные преимущества в том числе чистоту синтетических данных, которые улучшают текстово-изображательную синхронизацию и расширяют возможности моделей глубокого обучения. Это может привести к значительному повышению качества изображений в различных приложениях, в том числе в создании рекламных материалов, интерактивных игр, и контента для социальных сетей.
## Выводы
Echo-4o представ
Abstract
Recently, GPT-4o has garnered significant attention for its strong
performance in image generation, yet open-source models still lag behind.
Several studies have explored distilling image data from GPT-4o to enhance
open-source models, achieving notable progress. However, a key question
remains: given that real-world image datasets already constitute a natural
source of high-quality data, why should we use GPT-4o-generated synthetic data?
In this work, we identify two key advantages of synthetic images. First, they
can complement rare scenarios in real-world datasets, such as surreal fantasy
or multi-reference image generation, which frequently occur in user queries.
Second, they provide clean and controllable supervision. Real-world data often
contains complex background noise and inherent misalignment between text
descriptions and image content, whereas synthetic images offer pure backgrounds
and long-tailed supervision signals, facilitating more accurate text-to-image
alignment. Building on these insights, we introduce Echo-4o-Image, a 180K-scale
synthetic dataset generated by GPT-4o, harnessing the power of synthetic image
data to address blind spots in real-world coverage. Using this dataset, we
fine-tune the unified multimodal generation baseline Bagel to obtain Echo-4o.
In addition, we propose two new evaluation benchmarks for a more accurate and
challenging assessment of image generation capabilities: GenEval++, which
increases instruction complexity to mitigate score saturation, and
Imagine-Bench, which focuses on evaluating both the understanding and
generation of imaginative content. Echo-4o demonstrates strong performance
across standard benchmarks. Moreover, applying Echo-4o-Image to other
foundation models (e.g., OmniGen2, BLIP3-o) yields consistent performance gains
across multiple metrics, highlighting the datasets strong transferability.
Ссылки и действия
Дополнительные ресурсы: