Reconstruction Alignment Improves Unified Multimodal Models

2509.07295v1 cs.CV, cs.AI, cs.LG 2025-09-11
Авторы:

Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang

Резюме на русском

## Контекст Универсальные модели мультимодальных задач (Unified Multimodal Models, UMM) объединяют в себе возможности визуального понимания и генерации в единой архитектуре. Однако, существующие подходы к обучению используют изображения с капшенами, часто ограничивающимися суперфициальными описаниями, даже при использовании длинных текстовых описят. Такая методология не всегда позволяет глубоко понять визуальные детали. Это вызывает проблемы в точности генерации и редактирования изображений. Мы предлагаем метод Reconstruction Alignment (RecA), который использует визуальные модели уже обученных UMM для генерации "текстовых стимулов" и дополнительной самостоятельной сигнатуры для повышения точности модели. ## Метод RecA является пост-тренировочным методом, который использует бездренировочные модели для повышения качества визуальной генерации. Метод включает в себя три основных этапа: 1) Извлечение визуальных представлений из UMM с помощью подходящего кодировщика. 2) Создание "текстовых стимулов" на основе этих представлений. 3) Оптимизация UMM таким образом, чтобы она смогла реконструировать входное изображение с помощью реконструкционной потери. Этот подход дополняет обучение модели, перенося визуальные модели в тренировочный процесс. Метод RecA широко применяется к разным видам моделей UMM, включая autoregressive, masked-autoregressive, и diffusion-based. ## Результаты Мы провели эксперименты с различными моделями UMM, в том числе с DALL-E 2 и Imagen, чтобы проверить эффективность RecA. Мы использовали данные из GenEval и DPGBench для оценки качества генерации и редактирования изображений. Результаты показали, что применение RecA повысило GenEval-score с 0.73 до 0.90 и DPGBench-score с 80.93 до 88.15. Также были проведены эксперименты на бенчмарках по редактированию изображений, где RecA улучшил результаты на ImgEdit (3.38 до 3.75) и GEdit (6.94 до 7.25). RecA демонстрирует свою эффективность на разных архитектурах и моделях UMM. ## Значимость Предложенный метод RecA может применяться в различных областях, где необходима высокая точность в генерации и редактировании изображений. Это включает такие сферы, как дизайн, медицина, робототехника и т.д. Особенностью RecA является его простота и эффективность: он может быть использован с минимальными ресурсами (только 27 GPU-часов) и применим для улучшения различных UMM. Это делает RecA ценным инструментом для повышения качества моделей, не требуя дополнительных тренировочных данных. ## Выводы Метод Reconstruction Alignment показал свою эффективность в улучшении качества генерации и редактирования изображений в различных моделях UMM. Он является

Abstract

Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73$\rightarrow$0.90) and DPGBench (80.93$\rightarrow$88.15), while also boosting editing benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs

Ссылки и действия