Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

2508.05954v1 cs.CV, cs.AI, cs.CL 2025-08-12

Авторы:

Han Lin, Jaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal

Резюме на русском

#### Контекст В последние годы возросло интерес к созданию систем, объединяющих мощные возможности предсказания и разума текстовых моделей с высококачественным генерированием изображений. Однако существующие методы, призванные объединить эти области, часто сталкиваются с трудностями. Они либо неэффективны в процессе обучения, либо не полностью сохраняют многомодальные способности моделей. Это ограничивает их удобство и применение в реальных задачах. В этом контексте возникает мотивация для разработки эффективных и универсальных методов, объединяющих текстовые и изображения. #### Метод Мы предлагаем Bifrost-1 — универсальный фреймворк, связывающий мультимодальные текстовые модели (MLLMs) и модели размытия (diffusion models) с использованием патч-уровневых встроенных визуальных эмбеддингов CLIP. Эти эмбеддинги генерируются на основе входных изображений и адаптируются с помощью упрощенной версии ControlNet. Для сохранения многомодальных возможностей MLLM, мы добавляем в модель визуальную генерацию, инициализированную оригинальными параметрами модели. Это позволяет Bifrost-1 применять свои визуальные способности в процессе работы. Такое решение обеспечивает высокую эффективность обучения и высокое качество визуального генерирования. #### Результаты Мы проводили эксперименты, используя различные данные и задачи, включая задачи генерирования изображений на основе текста. Благодаря нашему подходу, модель показала сравнительно лучшие результаты по фидбеку пользователей и оценкам визуального качества. Мы также приводим абляционные исследования, подтверждающие эффективность используемых технических решений. #### Значимость Bifrost-1 может быть применен в сферах, где требуется сочетание текстового понимания с высококачественным генерированием изображений. Например, в области создания контента, интерактивных игр или работы с данными. Он обеспечивает высокую эффективность обучения, что снижает затраты ресурсов, и позволяет передавать текстовые концепции в визуальный формат с высоким качеством. #### Выводы Результаты наших исследований подтверждают эффективность Bifrost-1 в сочетании текстовых и визуальных моделей. Наша работа открывает новые пути для будущих исследований в области мультимодальных моделей, снижая затраты времени и ресурсов на их обучение. Мы планируем продолжать работу над улучшением Bifrost-1, в том числе в эффективности, универсальности и расширении его применения.

Abstract

There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Traini...

NAS-LoRA: Empowering Parameter-Efficient Fine-Tuning for Visual Foundation Model...

Generative Adversarial Gumbel MCTS for Abstract Visual Composition Generation

StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Stream...

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcem...

Навигация