## Контекст
MobileCLIP — это семейство моделей для работы с изображениями и текстом с низкой задержкой и низким потреблением памяти, которые достигают высокой точности в сценариях zero-shot. Они основываются на фундаментальных моделях изображений и текста, таких как CLIP, и расширяют их возможности, используя мультимодальный усиленный тренировочный подход. Этот подход позволяет эффективно использовать множество генераторов текстовых описаний и моделей CLIP в качестве учителей для знаний. Тем не менее, существуют проблемы, связанные с оптимальным использованием этих моделей, выбором параметров тренировки и достижением того, чтобы модели были одновременно эффективными, скоростными и универсальными в разных сценариях. MobileCLIP2 построена для решения этих проблем, улучшая технологии усиления и знаний в рамках мультимодального развития моделей.
## Метод
MobileCLIP2 строится на предыдущей модели MobileCLIP, но добавляет дополнительные усовершенствования в области усиления знаний. Мы улучшили CLIP-учителей, обучая их на DFN-датасете, и также улучшили капшн-генераторы, которые были применены в мультимодальном усилении. Мы вводим новую аббревиатуру DFN, которая оптимизирует синтез данных и применяет высококачественные капшн-генераторы. Также, мы использовали новую технику для улучшения обучения с помощью создания синтетических данных, которые могут быть использованы вместе с оригинальными текстовыми описаниями, что приводит к более широкому спектру возможностей. Мы также добавили температурное тюнинг в процессе контрастного знаний, что помогает модели быть более точной в своих оценках.
## Результаты
Мы провели эксперименты, используя MobileCLIP2-B и MobileCLIP2-S4, которые улучшили ImageNet-1k zero-shot-точность на 2.2% и 3.5% соответственно. Мы также сравнили результаты с SigLIP-SO400M/14, установив, что MobileCLIP2-S4 превосходит его в ImageNet-1k zero-shot-точности на 2.5 раз при уменьшенной емкости на 2 раза. Мы также провели анализ абляции, в котором обнаружили значительную эффективность температурного тюнинга в контрастном знании, как один из ключевых факторов улучшения точности. Кроме того, мы обнаружили, что генераторы капшнов, которые были применены в тренировке, способствуют более высокой разнообразию текстовых описаний.
## Значимость
Модели MobileCLIP2 имеют широкие возможности для применения в различных областях, включая компьютерное зрение, NLP и мультимодальные приложения. Улучшенная точность zero-shot и низкая задержка делают их удобными для использования в мобильных устройствах и реальном времени. Более того, наш подход к созданию новых му