Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation
2508.03320v1
cs.CV
2025-08-09
Авторы:
Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
Резюме на русском
**Резюме**
В статье представлена модель Skywork UniPic — многомодальная система, объединяющая синтез изображений, текст-в-изображение и редактирование изображений в единой архитектуре, без дополнительных модулей или адаптеров. Это решение решает проблему неэффективности использования ресурсов при реализации взаимодействия между модальностями. Модель имеет 1,5 миллиарда параметров и достигает высокого производительности на коммерческом оборудовании. Она показала результаты, побьющие многие существующие модели, такие как GenEval (0.86), DPG-Bench (85.5), GEditBench-EN (5.83) и ImgEdit-Bench (3.49). Модель также эффективно генерирует изображения разрешения 1024x1024 с использованием менее 15 Гб GPU-памяти (например, RTX 4090). Основные инновации включают в себя разделенный синтез и понимания, прогрессивную тренировку с динамическим размолотком параметров и специализированные наборы данных с расширенной обратной связью. Результаты показывают, что создание высокофидбельной модели для мультимодальной задачи не требует затрат сверхувых ресурсов, что делает Skywork UniPic практическим и эффективным подходом к интегрированному AI.
Abstract
We introduce Skywork UniPic, a 1.5 billion-parameter autoregressive model
that unifies image understanding, text-to-image generation, and image editing
within a single architecture-eliminating the need for task-specific adapters or
inter-module connectors-and demonstrate that compact multimodal systems can
achieve state-of-the-art performance on commodity hardware. Skywork UniPic
achieves a GenEval score of 0.86, surpassing most existing unified models; sets
a new DPG-Bench complex-generation record of 85.5; attains 5.83 on
GEditBench-EN and 3.49 on ImgEdit-Bench for image editing; and generates 1024 x
1024 images with under 15 GB of GPU memory (e.g., RTX 4090). (1) a decoupled
encoding strategy that leverages a masked autoregressive encoder for synthesis
and a SigLIP2 encoder for understanding, all feeding a shared autoregressive
decoder; (2) a progressive, resolution-aware training schedule scaling from 256
x 256 to 1024 x 1024 while dynamically unfreezing parameters to balance
capacity and stability; and (3) meticulously curated, 100 million-scale
datasets augmented with task-specific reward models to refine generation and
editing objectives. By demonstrating that high-fidelity multimodal integration
need not incur prohibitive resource demands, Skywork UniPic establishes a
practical paradigm for deployable, high-fidelity multimodal AI. Code and
weights are publicly available at
https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
Ссылки и действия
Дополнительные ресурсы: