MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer
2509.16197v1
cs.CV, cs.CL, cs.LG
2025-09-23
Авторы:
Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen
Резюме на русском
## Контекст
Универсальные многомодальные модели, способные понимать и генерировать визуальный контент, представляют собой значительный потенциал для развития ИИ. Однако существующие модели часто сталкиваются с проблемами, такими как конфликт задач между пониманием и генерацией визуального содержимого. Это приводит к снижению качества выполнения одного или оба заданий. Развитие эффективных многомодальных моделей, которые могут сбалансированно обрабатывать и производить визуальные данные, является ключевым мотивом для создания Manzano.
## Метод
Manzano представляет собой простой и масштабируемый фреймворк, который уменьшает конфликты между задачами, используя специальный дизайн. Его составляющие:
1. **Hybrid Image Tokenizer** — это система, которая делит изображения на дискретные токены, чтобы обеспечить эффективную работу с текстом и изображениями в единой модели.
2. **Shared Vision Encoder** — единый модуль, который обрабатывает входные данные для обеих задач — понимания и генерации — с помощью двух легких адаптеров.
3. **Unified Autoregressive LLM** — полностью авторегрессионная модель, которая предсказывает логические связи между текстовыми и изображенийными токенами.
4. **Diffusion Decoder** — модуль, преобразующий дискретные токены изображений в пиксельные данные.
Такой дизайн позволяет совместить обучение на понимании и генерации визуальных данных, уменьшая конфликты задач и повышая эффективность.
## Результаты
Модель Manzano прошла ряд экспериментов, использующих разные наборы данных, таких как COCO, Visual Genome и другие. Она показала следующие результаты:
1. **Text-to-Image Generation** — Manzano достигла состязательных результатов с отдельными моделями, специализирующимися на генерации изображений по тексту.
2. **Image-to-Text Understanding** — модель показала значительные улучшения против существующих моделей, особенно при работе с текстовыми данными.
3. **Zero-Shot Evaluation** — Manzano продемонстрировала высокую универсальность, неконфликтующую с различными задачами.
Эти результаты подтверждают, что модель Manzano не только эффективна в обеих задачах, но и способна масштабироваться, поддерживая как текстовые, так и визуальные обработки.
## Значимость
Модель Manzano может быть применена в следующих областях:
1. **Визуальное Представление Языка** — помогает понимать и генерировать текст, который описывает визуальные данные.
2. **Синтез Изображений** — обеспечивает четкое и точное создание изображений на основе текстовых инструкций.
3. **Приложения в Интернете, Медицине, Образовании** — может применяться в различных сферах, где требуется обработка визуальных данных в сочетании с текстовыми запросами.
Её
Abstract
Unified multimodal Large Language Models (LLMs) that can both understand and
generate visual content hold immense potential. However, existing open-source
models often suffer from a performance trade-off between these capabilities. We
present Manzano, a simple and scalable unified framework that substantially
reduces this tension by coupling a hybrid image tokenizer with a well-curated
training recipe. A single shared vision encoder feeds two lightweight adapters
that produce continuous embeddings for image-to-text understanding and discrete
tokens for text-to-image generation within a common semantic space. A unified
autoregressive LLM predicts high-level semantics in the form of text and image
tokens, with an auxiliary diffusion decoder subsequently translating the image
tokens into pixels. The architecture, together with a unified training recipe
over understanding and generation data, enables scalable joint learning of both
capabilities. Manzano achieves state-of-the-art results among unified models,
and is competitive with specialist models, particularly on text-rich
evaluation. Our studies show minimal task conflicts and consistent gains from
scaling model size, validating our design choice of a hybrid tokenizer.
Ссылки и действия
Дополнительные ресурсы: