Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

2508.12466v1 cs.CV, cs.AI, cs.LG 2025-08-19
Авторы:

Xuhui Zhan, Tyler Derr

Резюме на русском

#### Контекст Область мультимодального обучения, которая связывает визуальные и текстовые модели, стала важной задачей в ИИ. Однако традиционные подходы требуют дорогостоящей ориентированной на осмысление (alignment) в обучении предварительного типа (pre-training) для объединения этих моделей. Это ограничивает шаблоны использования, так как масштабирование таких подходов становится сложным. Существует потребность в развитии новых архитектур, которые могут удалить эту зависимость от costly alignment pre-training и будут эффективны для различных мультимодальных задач. #### Метод Мы предлагаем Inverse-LLaVA, новый подход, который убирает требование к ориентированному на осмысление (alignment) pre-training. Вместо того чтобы проецировать визуальные признаки в мир текста, наш метод проецирует эмбеддинги текста в визуальное пространство — производя взаимодействие в трансформерных слоях. Мы добавляем специальные компоненты в механизм внимания (attention), чтобы динамически объединять визуальные и текстовые признаки без необходимости громадных пар с изображениями и текстом. Эта новая архитектура позволяет эффективно объединять модальности без традиционных ограничений. #### Результаты Мы проверили Inverse-LLaVA на 9 мультимодальных бенчмарках. Он показал выигрыш в тех задачах, где требуется логическое рассуждение (например, MM-VET +0.2%, VizWiz +1.8%, ScienceQA +0.2%, медицинские задачи +27.2%), но снизился в задачах, которые требуют ассоциаций между текстом и визуальными объектами (например, распознавание знаковых лиц -49.5%, распознавание текста с картинки -21.3%). Это демонстрирует, что Inverse-LLaVA может подходить для задач, где требуется высокий уровень рассуждения, не нуждаясь в традиционных методах для объединения модальностей. #### Значимость Наш подход может применяться в задачах, где требуется высокий уровень рассуждения и логической синергии между визуальными и текстовыми моделями, таких как специальные медицинские или сервисные системы. Он показывает преимущества в снижении вычислительных затрат на 45% и открывает возможности для развития более эффективных мультимодальных архитектур. Этот подход также открывает новые направления в ИИ, в которых модальности могут быть объединены без требования к предварительному обучению. #### Выводы Мы продемонстрировали, что Inverse-LLaVA эффективен в задачах, где требуется высокий уровень рассуждения, не требуя традиционного alignment pre-training. Наши результаты открывают новые возможности для развития более эффективных мультимодальных архитектур, сохраняющих специфику каждой модально

Abstract

Traditional multimodal learning approaches require expensive alignment pre-training to bridge vision and language modalities, typically projecting visual features into discrete text token spaces. We challenge both fundamental assumptions underlying this paradigm by proposing Inverse-LLaVA, a novel approach that eliminates alignment pre-training entirely while inverting the conventional mapping direction. Rather than projecting visual features to text space, our method maps text embeddings into continuous visual representation space and performs fusion within transformer intermediate layers. Through selective additive components in attention mechanisms, we enable dynamic integration of visual and textual representations without requiring massive image-text alignment datasets. Comprehensive experiments across nine multimodal benchmarks demonstrate nuanced performance trade-offs: Inverse-LLaVA achieves notable improvements on reasoning-intensive and cognitive tasks (MM-VET: +0.2%, VizWiz: +1.8%, ScienceQA: +0.2%, cognitive reasoning: +27.2%), while showing expected decreases in perception tasks requiring memorized visual-text associations (celebrity recognition: -49.5%, OCR: -21.3%). These results provide the first empirical evidence that alignment pre-training is not necessary for effective multimodal learning, particularly for complex reasoning tasks. Our work establishes the feasibility of a new paradigm that reduces computational requirements by 45%, challenges conventional wisdom about modality fusion, and opens new research directions for efficient multimodal architectures that preserve modality-specific characteristics. Our project website with code and additional resources is available at https://inverse-llava.github.io.

Ссылки и действия