MobileCLIP2: Improving Multi-Modal Reinforced Training
2508.20691v1
cs.CV, cs.AI, cs.CL, cs.LG
2025-08-29
Авторы:
Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Alexander Toshev, Oncel Tuzel, Hadi Pouransari
Резюме на русском
## Контекст
MobileCLIP — это семейство моделей для работы с изображениями и текстом с низкой задержкой и низким потреблением памяти, которые достигают высокой точности в сценариях zero-shot. Они основываются на фундаментальных моделях изображений и текста, таких как CLIP, и расширяют их возможности, используя мультимодальный усиленный тренировочный подход. Этот подход позволяет эффективно использовать множество генераторов текстовых описаний и моделей CLIP в качестве учителей для знаний. Тем не менее, существуют проблемы, связанные с оптимальным использованием этих моделей, выбором параметров тренировки и достижением того, чтобы модели были одновременно эффективными, скоростными и универсальными в разных сценариях. MobileCLIP2 построена для решения этих проблем, улучшая технологии усиления и знаний в рамках мультимодального развития моделей.
## Метод
MobileCLIP2 строится на предыдущей модели MobileCLIP, но добавляет дополнительные усовершенствования в области усиления знаний. Мы улучшили CLIP-учителей, обучая их на DFN-датасете, и также улучшили капшн-генераторы, которые были применены в мультимодальном усилении. Мы вводим новую аббревиатуру DFN, которая оптимизирует синтез данных и применяет высококачественные капшн-генераторы. Также, мы использовали новую технику для улучшения обучения с помощью создания синтетических данных, которые могут быть использованы вместе с оригинальными текстовыми описаниями, что приводит к более широкому спектру возможностей. Мы также добавили температурное тюнинг в процессе контрастного знаний, что помогает модели быть более точной в своих оценках.
## Результаты
Мы провели эксперименты, используя MobileCLIP2-B и MobileCLIP2-S4, которые улучшили ImageNet-1k zero-shot-точность на 2.2% и 3.5% соответственно. Мы также сравнили результаты с SigLIP-SO400M/14, установив, что MobileCLIP2-S4 превосходит его в ImageNet-1k zero-shot-точности на 2.5 раз при уменьшенной емкости на 2 раза. Мы также провели анализ абляции, в котором обнаружили значительную эффективность температурного тюнинга в контрастном знании, как один из ключевых факторов улучшения точности. Кроме того, мы обнаружили, что генераторы капшнов, которые были применены в тренировке, способствуют более высокой разнообразию текстовых описаний.
## Значимость
Модели MobileCLIP2 имеют широкие возможности для применения в различных областях, включая компьютерное зрение, NLP и мультимодальные приложения. Улучшенная точность zero-shot и низкая задержка делают их удобными для использования в мобильных устройствах и реальном времени. Более того, наш подход к созданию новых му
Abstract
Foundation image-text models such as CLIP with zero-shot capabilities enable
a wide array of applications. MobileCLIP is a recent family of image-text
models at 3-15ms latency and 50-150M parameters with state-of-the-art zero-shot
accuracy. The main ingredients in MobileCLIP were its low-latency and light
architectures and a novel multi-modal reinforced training that made knowledge
distillation from multiple caption-generators and CLIP teachers efficient,
scalable, and reproducible. In this paper, we improve the multi-modal
reinforced training of MobileCLIP through: 1) better CLIP teacher ensembles
trained on the DFN dataset, 2) improved captioner teachers trained on the DFN
dataset and fine-tuned on a diverse selection of high-quality image-caption
datasets. We discover new insights through ablations such as the importance of
temperature tuning in contrastive knowledge distillation, the effectiveness of
caption-generator fine-tuning for caption diversity, and the additive
improvement from combining synthetic captions generated by multiple models. We
train a new family of models called MobileCLIP2 and achieve state-of-the-art
ImageNet-1k zero-shot accuracies at low latencies. In particular, we observe
2.2% improvement in ImageNet-1k accuracy for MobileCLIP2-B compared with
MobileCLIP-B architecture. Notably, MobileCLIP2-S4 matches the zero-shot
accuracy of SigLIP-SO400M/14 on ImageNet-1k while being 2$\times$ smaller and
improves on DFN ViT-L/14 at 2.5$\times$ lower latency. We release our
pretrained models (https://github.com/apple/ml-mobileclip) and the data
generation code (https://github.com/apple/ml-mobileclip-dr). The data
generation code makes it easy to create new reinforced datasets with arbitrary
teachers using distributed scalable processing.