CoMAD: A Multiple-Teacher Self-Supervised Distillation Framework

2508.04816v1 cs.CV, cs.AI 2025-08-09
Авторы:

Sriram Mandalika, Lalitha V

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы самостоятельное обучение (self-supervised learning, SSL) стало ключевым подходом в области глубокого обучения, позволяющим извлекать мощные представления из неразмеченных данных. Техники такие, как контрастное обучение (contrastive learning) и маскированное моделирование изображений (masked image modeling), демонстрируют высокую эффективность в обучении моделей на больших неразмеченных датасетах. Однако эти подходы обычно применяются в изолированном режиме, что ограничивает их потенциал извлечения дополнительных семантических и контекстуальных приоритетов. Кроме того, модели, обученные в рамках таких парадигм, часто имеют большой размер и требуют значительных вычислительных ресурсов, что делает их непригодными для развертывания в условиях ограниченных ресурсов. Проблема заключается в том, что существующие методы не эффективно используют взаимодополняющие знания, которые могут быть извлечены из различных самостоятельно обученных моделей. Большинство из них фокусируются на отдельных методах, таких как MAE, MoCo v3 или iBOT, не учитывая возможности их комбинации. Также существует необходимость в разработке компактных и эффективных моделей, которые могут эффективно использовать знания из нескольких источников, не увеличивая сложность и размер модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД Рассмотренный метод, Consensus-oriented Masked Distillation (CoMAD), предлагает новую парадигму для компактного и эффективного переноса знаний из нескольких самостоятельно обученных моделей в одну компактную студенческую сеть. CoMAD основывается на использовании трех предобученных Vision Transformers (ViT-Base) – MAE, MoCo v3 и iBOT – которые представляют собой модели с различными семантическими и контекстуальными приоритетами. Основная идея CoMAD заключается в использовании асимметричного маскирования (asymmetric masking). В этом подходе студенческая модель видит только 25% патчей изображения, в то время как каждая из преподавательских моделей получает уникальную, прогрессивно легкую маску. Это заставляет студенческую модель выполнять интерполяцию пропущенных функций в более богатом контексте. Для выравнивания выходных представлений преподавателей с пространством студенческой модели используются линейные адаптеры и слои нормализации. Затем, для комбинации представлений из разных преподавателей применяется метод joint consensus gating, который основывается на косинусной схожести (cosine affinity) и согласованности между преподавателями (inter-teacher agreement). Это позволяет дать большее весовое значение токенам, которые имеют высокую схожесть и согласованность между преподавателями. Студенческая модель обучается с помощью двухуровневого KL-дивергенции (dual-level KL divergence), который учитывает видимые токены и восстановленные карты признаков. Это позволяет захватить как локальную, так и глобальную структуру данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на датасете ImageNet-1K, где компактная студенческая модель ViT-Tiny, обученная с помощью CoMAD, достигла точности 75.4% Top-1, что на 0.4% выше результатов предыдущего лучшего метода. Дополнительно, CoMAD показал высокую эффективность в задачах плотного прогнозирования (dense prediction), таких как сегментация и детекция объектов. На датасете ADE20K, CoMAD достиг 47.3% mIoU, что является новым рекордом для компактных моделей в задачах сегментации. Также, на датасете MS-COCO, CoMAD показал результаты в 44.5% box average precision и 40.5% mask average precision, опять же превосходя предыдущие результаты. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CoMAD предлагает практически значимые преимущества в области компактных и эффективных моделей для реального мира. Благодаря его способности объединять знания из нескольких предобученных моделей в единую компактную модель, CoMAD может быть использован в различных приложениях, где критичны ограничения по вычислительным ресурсам, таких как мобильные устройства, IoT-устройства или автономные системы. Кроме того, CoMAD может быть использован для улучшения производительности в задачах, требующих высокой точности, таких как сегментация изображений, детекция объектов и классификация. Его эффективность в работе с небольшими моделями делает его пригодным для использования в областях, где важно сочетание высокой точности и низких вычислительных затрат. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CoMAD является перспективным подходом к компактному и эффективному переносу знаний из нескольких самостоятельно обученных моделей. Он показывает высокую эффективность в различных задачах, от классификации изображений до плотного прогнозирования. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности и компактности моделей, а также на расширении его применимости к другим доменам, таким как видеоанализ и естественный язык.

Abstract

Numerous self-supervised learning paradigms, such as contrastive learning and masked image modeling, learn powerful representations from unlabeled data but are typically pretrained in isolation, overlooking complementary insights and yielding large models that are impractical for resource-constrained deployment. To overcome these challenges, we introduce Consensus-oriented Masked Distillation (CoMAD), a lightweight, parameter-free framework that unifies knowledge from multiple current state-of-the-art self-supervised Vision Transformers into a compact student network. CoMAD distills from three pretrained ViT-Base teachers, MAE, MoCo v3, and iBOT, each offering distinct semantic and contextual priors. Rather than naively averaging teacher outputs, we apply asymmetric masking: the student sees only 25 percent of patches while each teacher receives a progressively lighter, unique mask, forcing the student to interpolate missing features under richer contexts. Teacher embeddings are aligned to the student's space via a linear adapter and layer normalization, then fused through our joint consensus gating, which weights each token by combining cosine affinity with inter-teacher agreement. The student is trained with dual-level KL divergence on visible tokens and reconstructed feature maps, capturing both local and global structure. On ImageNet-1K, CoMAD's ViT-Tiny achieves 75.4 percent Top-1, an increment of 0.4 percent over the previous state-of-the-art. In dense-prediction transfers, it attains 47.3 percent mIoU on ADE20K, and 44.5 percent box average precision and 40.5 percent mask average precision on MS-COCO, establishing a new state-of-the-art in compact SSL distillation.

Ссылки и действия