BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Models

2508.06895v1 cs.CV, cs.AI 2025-08-14
Авторы:

Jianting Tang, Yubo Wang, Haoyu Cao, Linli Xu

Резюме на русском

## Контекст Многомедийные большие языковые модели (MLLMs) представляют собой мощные алгоритмы, которые объединяют в себе мощность текстовых и изображений, чтобы решить задачи, такие как визуальное понимание и текстово-визуальное синтезирование. Тем не менее, существующие модели часто сталкиваются с проблемами связи между этими модами, что приводит к неполному или неточному пониманию визуальных данных. Одним из ключевых аспектов этой проблемы является недостаточная взаимосвязь между проектором визуальных данных и текстовым контекстом. Эта связь является критической для того, чтобы обеспечить точность и глубину визуального понимания. Несоответствие в этих модах приводит к ограниченным результатам в таких задачах, как визуально-текстовый поиск, классификация изображений и визуальное понимание объектов. Наша мотивация заключается в создании метода, который сможет улучшить эту связь и усилить визуальное понимание в MLLMs. ## Метод Мы предлагаем метод BASIC (Boosting Visual Alignment with Intrinsic Refined Embeddings), который лучше связывает визуальные данные с текстовыми моделями. Наша идея заключается в том, чтобы использовать внутреннюю рефинед эмбеддинг визуальных данных в качестве дополнительного руководства для проектора. Это делается на двух уровнях: (i) **оптимизация направлений эмбеддингов**, делая их более соответствующими в семантическом пространстве; (ii) **улучшение матчинга семантики**, уменьшая разрывы между распределениями логитов визуальных и текстовых моделей. Этот процесс не требует дополнительных супервизоров или искусственных аннотаций, что делает BASIC эффективным и простым в реализации. Мы используем анализ процесса рефининга визуальных эмбеддингов в глубоких слоях модели, чтобы улучшить их интеграцию с текстовым контекстом в модели. ## Результаты Мы провели эксперименты на различных коллекциях данных, включая COCO и Visual Genome. Были использованы стандартные метрики, такие как Recall@1, mAP и BLEU, для оценки качества визуально-текстового понимания. Результаты показали, что BASIC существенно улучшает визуально-текстовую связь в MLLMs, сопоставимо с лучшими результатами на текущих бенчмарках. Например, на задаче визуально-текстового поиска, мы достигли высоких результатов в Recall@1 и BLEU-4, что демонстрирует эффективность нашего метода в улучшении визуального понимания. Эти результаты указывают на то, что введение дополнительной визуальной супервайзии действительно повышает точность и качество решения задач в области мультимодального понимания. ## Значимость Метод BASIC может быть применен в разли

Abstract

Mainstream Multimodal Large Language Models (MLLMs) achieve visual understanding by using a vision projector to bridge well-pretrained vision encoders and large language models (LLMs). The inherent gap between visual and textual modalities makes the embeddings from the vision projector critical for visual comprehension. However, current alignment approaches treat visual embeddings as contextual cues and merely apply auto-regressive supervision to textual outputs, neglecting the necessity of introducing equivalent direct visual supervision, which hinders the potential finer alignment of visual embeddings. In this paper, based on our analysis of the refinement process of visual embeddings in the LLM's shallow layers, we propose BASIC, a method that utilizes refined visual embeddings within the LLM as supervision to directly guide the projector in generating initial visual embeddings. Specifically, the guidance is conducted from two perspectives: (i) optimizing embedding directions by reducing angles between initial and supervisory embeddings in semantic space; (ii) improving semantic matching by minimizing disparities between the logit distributions of both visual embeddings. Without additional supervisory models or artificial annotations, BASIC significantly improves the performance of MLLMs across a wide range of benchmarks, demonstrating the effectiveness of our introduced direct visual supervision.

Ссылки и действия