MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

2509.16197v1 cs.CV, cs.CL, cs.LG 2025-09-23

Авторы:

Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen

Резюме на русском

## Контекст Универсальные многомодальные модели, способные понимать и генерировать визуальный контент, представляют собой значительный потенциал для развития ИИ. Однако существующие модели часто сталкиваются с проблемами, такими как конфликт задач между пониманием и генерацией визуального содержимого. Это приводит к снижению качества выполнения одного или оба заданий. Развитие эффективных многомодальных моделей, которые могут сбалансированно обрабатывать и производить визуальные данные, является ключевым мотивом для создания Manzano. ## Метод Manzano представляет собой простой и масштабируемый фреймворк, который уменьшает конфликты между задачами, используя специальный дизайн. Его составляющие: 1. **Hybrid Image Tokenizer** — это система, которая делит изображения на дискретные токены, чтобы обеспечить эффективную работу с текстом и изображениями в единой модели. 2. **Shared Vision Encoder** — единый модуль, который обрабатывает входные данные для обеих задач — понимания и генерации — с помощью двух легких адаптеров. 3. **Unified Autoregressive LLM** — полностью авторегрессионная модель, которая предсказывает логические связи между текстовыми и изображенийными токенами. 4. **Diffusion Decoder** — модуль, преобразующий дискретные токены изображений в пиксельные данные. Такой дизайн позволяет совместить обучение на понимании и генерации визуальных данных, уменьшая конфликты задач и повышая эффективность. ## Результаты Модель Manzano прошла ряд экспериментов, использующих разные наборы данных, таких как COCO, Visual Genome и другие. Она показала следующие результаты: 1. **Text-to-Image Generation** — Manzano достигла состязательных результатов с отдельными моделями, специализирующимися на генерации изображений по тексту. 2. **Image-to-Text Understanding** — модель показала значительные улучшения против существующих моделей, особенно при работе с текстовыми данными. 3. **Zero-Shot Evaluation** — Manzano продемонстрировала высокую универсальность, неконфликтующую с различными задачами. Эти результаты подтверждают, что модель Manzano не только эффективна в обеих задачах, но и способна масштабироваться, поддерживая как текстовые, так и визуальные обработки. ## Значимость Модель Manzano может быть применена в следующих областях: 1. **Визуальное Представление Языка** — помогает понимать и генерировать текст, который описывает визуальные данные. 2. **Синтез Изображений** — обеспечивает четкое и точное создание изображений на основе текстовых инструкций. 3. **Приложения в Интернете, Медицине, Образовании** — может применяться в различных сферах, где требуется обработка визуальных данных в сочетании с текстовыми запросами. Её

Abstract

Unified multimodal Large Language Models (LLMs) that can both understand and generate visual content hold immense potential. However, existing open-source models often suffer from a performance trade-off between these capabilities. We present Manzano, a simple and scalable unified framework that substantially reduces this tension by coupling a hybrid image tokenizer with a well-curated training recipe. A single shared vision encoder feeds two lightweight adapters that produce continuous embeddings for image-to-text understanding and discrete tokens for text-to-image generation within a common semantic space. A unified autoregressive LLM predicts high-level semantics in the form of text and image tokens, with an auxiliary diffusion decoder subsequently translating the image tokens into pixels. The architecture, together with a unified training recipe over understanding and generation data, enables scalable joint learning of both capabilities. Manzano achieves state-of-the-art results among unified models, and is competitive with specialist models, particularly on text-rich evaluation. Our studies show minimal task conflicts and consistent gains from scaling model size, validating our design choice of a hybrid tokenizer.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Optical Context Compression Is Just (Bad) Autoencoding

What Shape Is Optimal for Masks in Text Removal?

Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic...

EchoAgent: Guideline-Centric Reasoning Agent for Echocardiography Measurement an...

O3SLM: Open Weight, Open Data, and Open Vocabulary Sketch-Language Model

Навигация