CLIPin: A Non-contrastive Plug-in to CLIP for Multimodal Semantic Alignment

2508.06434v1 cs.CV, cs.AI 2025-08-12
Авторы:

Shengzhu Yang, Jiawei Du, Shuai Lu, Weihang Zhang, Ningli Wang, Huiqi Li

Резюме на русском

## Контекст Одной из основных проблем в области многомодального языково-изображения обучения (CLIP) является узкое многомодальное семантическое выравнивание, которое обусловлено слабой супервайзой в автоматически собранных больших многомодальных изображений-текстов. Добавляя к этому, в медицинских данных, где кросс-модальная корреляция высока, но разнообразие содержимого низко, такие проблемы становятся еще более заметными. Эти особенности затрудняют CLIP-стильные архитектуры в обучении надежных и генерализуемых многомодальных представлений. Мы предлагаем CLIPin — универсальный не-контрастивный плагин, который может быть эффективно встроен в CLIP-стильные архитектуры для улучшения многомодального семантического выравнивания, усиления прочности выравнивания и повышения универсальности. ## Метод Мы предлагаем CLIPin — не-контрастивный плагин, который использует две общие предобработчики для изображений и текстов, чтобы объединить контрастивное и не-контрастивное обучение в универсальной структуре. В дополнение к этому, CLIPin предоставляет более сильную супервайзой для повышения выравнивания многомодальных представлений. Этот плагин может быть легко интегрирован в различные CLIP-стильные архитектуры, чтобы улучшить многомодальное семантическое выравнивание и повысить универсальность. Таким образом, CLIPin является гибким и мощным инструментом для улучшения многомодальных представлений. ## Результаты Мы провели эксперименты на различных многомодальных задачах, используя различные CLIP-стильные архитектуры. Наши результаты показали, что CLIPin повышает прочность выравнивания многомодальных представлений и улучшает общеуниверсальную точность. На данных медицинских изображений-текстов, где кросс-модальная корреляция высока, но разнообразие содержимого низко, CLIPin продемонстрировал значительный прирост в производительности. Это показано в сравнении с базовыми моделями, что делает CLIPin эффективным и генерализуемым инструментом для многомодальных задач. ## Значимость CLIPin широко может быть применен в различных областях многомодального обучения, включая клинические приложения, где кросс-модальная корреляция высока, но разнообразие содержимого низко. Благодаря своей совместимости с различными CLIP-стильными архитектурами, CLIPin может быть легко интегрирован в существующие модели для повышения прочности выравнивания. Это делает его полезным для улучшения многомодальных представлений в различных доменах, в том числе медицинских. ## Выводы Мы предложили CLIPin — универсальный не-контрастивный плагин, который может улучшать многомодальное семантическое выравнивание в

Abstract

Large-scale natural image-text datasets, especially those automatically collected from the web, often suffer from loose semantic alignment due to weak supervision, while medical datasets tend to have high cross-modal correlation but low content diversity. These properties pose a common challenge for contrastive language-image pretraining (CLIP): they hinder the model's ability to learn robust and generalizable representations. In this work, we propose CLIPin, a unified non-contrastive plug-in that can be seamlessly integrated into CLIP-style architectures to improve multimodal semantic alignment, providing stronger supervision and enhancing alignment robustness. Furthermore, two shared pre-projectors are designed for image and text modalities respectively to facilitate the integration of contrastive and non-contrastive learning in a parameter-compromise manner. Extensive experiments on diverse downstream tasks demonstrate the effectiveness and generality of CLIPin as a plug-and-play component compatible with various contrastive frameworks. Code is available at https://github.com/T6Yang/CLIPin.

Ссылки и действия