BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Models
2508.06895v1
cs.CV, cs.AI
2025-08-14
Авторы:
Jianting Tang, Yubo Wang, Haoyu Cao, Linli Xu
Резюме на русском
## Контекст
Многомедийные большие языковые модели (MLLMs) представляют собой мощные алгоритмы, которые объединяют в себе мощность текстовых и изображений, чтобы решить задачи, такие как визуальное понимание и текстово-визуальное синтезирование. Тем не менее, существующие модели часто сталкиваются с проблемами связи между этими модами, что приводит к неполному или неточному пониманию визуальных данных. Одним из ключевых аспектов этой проблемы является недостаточная взаимосвязь между проектором визуальных данных и текстовым контекстом. Эта связь является критической для того, чтобы обеспечить точность и глубину визуального понимания. Несоответствие в этих модах приводит к ограниченным результатам в таких задачах, как визуально-текстовый поиск, классификация изображений и визуальное понимание объектов. Наша мотивация заключается в создании метода, который сможет улучшить эту связь и усилить визуальное понимание в MLLMs.
## Метод
Мы предлагаем метод BASIC (Boosting Visual Alignment with Intrinsic Refined Embeddings), который лучше связывает визуальные данные с текстовыми моделями. Наша идея заключается в том, чтобы использовать внутреннюю рефинед эмбеддинг визуальных данных в качестве дополнительного руководства для проектора. Это делается на двух уровнях: (i) **оптимизация направлений эмбеддингов**, делая их более соответствующими в семантическом пространстве; (ii) **улучшение матчинга семантики**, уменьшая разрывы между распределениями логитов визуальных и текстовых моделей. Этот процесс не требует дополнительных супервизоров или искусственных аннотаций, что делает BASIC эффективным и простым в реализации. Мы используем анализ процесса рефининга визуальных эмбеддингов в глубоких слоях модели, чтобы улучшить их интеграцию с текстовым контекстом в модели.
## Результаты
Мы провели эксперименты на различных коллекциях данных, включая COCO и Visual Genome. Были использованы стандартные метрики, такие как Recall@1, mAP и BLEU, для оценки качества визуально-текстового понимания. Результаты показали, что BASIC существенно улучшает визуально-текстовую связь в MLLMs, сопоставимо с лучшими результатами на текущих бенчмарках. Например, на задаче визуально-текстового поиска, мы достигли высоких результатов в Recall@1 и BLEU-4, что демонстрирует эффективность нашего метода в улучшении визуального понимания. Эти результаты указывают на то, что введение дополнительной визуальной супервайзии действительно повышает точность и качество решения задач в области мультимодального понимания.
## Значимость
Метод BASIC может быть применен в разли
Abstract
Mainstream Multimodal Large Language Models (MLLMs) achieve visual
understanding by using a vision projector to bridge well-pretrained vision
encoders and large language models (LLMs). The inherent gap between visual and
textual modalities makes the embeddings from the vision projector critical for
visual comprehension. However, current alignment approaches treat visual
embeddings as contextual cues and merely apply auto-regressive supervision to
textual outputs, neglecting the necessity of introducing equivalent direct
visual supervision, which hinders the potential finer alignment of visual
embeddings. In this paper, based on our analysis of the refinement process of
visual embeddings in the LLM's shallow layers, we propose BASIC, a method that
utilizes refined visual embeddings within the LLM as supervision to directly
guide the projector in generating initial visual embeddings. Specifically, the
guidance is conducted from two perspectives: (i) optimizing embedding
directions by reducing angles between initial and supervisory embeddings in
semantic space; (ii) improving semantic matching by minimizing disparities
between the logit distributions of both visual embeddings. Without additional
supervisory models or artificial annotations, BASIC significantly improves the
performance of MLLMs across a wide range of benchmarks, demonstrating the
effectiveness of our introduced direct visual supervision.
Ссылки и действия
Дополнительные ресурсы: