Plug-in Feedback Self-adaptive Attention in CLIP for Training-free Open-Vocabulary Segmentation

2508.20265v1 cs.CV, cs.LG 2025-08-29
Авторы:

Zhixiang Chi, Yanan Wu, Li Gu, Huan Liu, Ziqiang Wang, Yang Zhang, Yang Wang, Konstantinos N. Plataniotis

Резюме на русском

Название: Plug-in Feedback Self-adaptive Attention in CLIP for Training-free Open-Vocabulary Segmentation ## Контекст Segmentation области, задействующая визуально-текстовые представления, является ключевым в области глубокого обучения. Однако существуют значительные проблемы, связанные с отсутствием локализации и неполной семантической согласованности между внутренними представлениями и выходными прогнозами. Особенно это актуально для open-vocabulary segmentation. Например, в CLIP, хотя он демонстрирует мощные возможности в visual-textual alignment, он сталкивается с трудностями в процессе предсказания идеальных сегментаций, в частности на тестовых данных с отклонениями от обучающих данных. Эти ограничения вызваны нехваткой представления позиционной информации и неэффективным представлением текстовых семантик. ## Метод Мы предлагаем метод заключающийся в улучшении intermediate attention с помощью output feedback. Фреймворк организован вокруг элементарных модулей, которые позволяют выравнивать промежуточные семантические представления с помощью обратной связи от прогнозов. Мы вводим архитектуру с attention isolation, которая позволяет локализировать и улучшать процесс взаимодействия семантических слоев. Далее, мы применяем к этой конфигурации confidence-based pruning для более точной регулировки процесса. Наконец, мы используем adaptation ensemble для объединения нескольких моделей в полноценное и гармоничное решение. ## Результаты Метод был протестирован на 8 задач семантической сегментации, используя сразу 4 современных модели CLIP с разными бэкбонами (ViT-B, ViT-L, ViT-H). Мы проверили его с разными видами attention, включая Q-K, self-self, Proxy с MAE, SAM и DINO. Наши результаты показывают, что наша система значительно улучшает качество прогнозов по сравнению с базовыми моделями. Особенно выражено это на тестовых данных, отличающихся от обучающих. ## Значимость Наш метод может использоваться в абсолютно разных задачах семантической сегментации, включая области, где требуется высокая точность и семантическая согласованность. Он не требует дополнительного обучения и может быть выполнен в реальном времени. Значительное преимущество заключается в том, что он может быть применен как plug-in модуль к уже существующим моделям без нужды в глубокой модификации их архитектуры. ## Выводы В итоге, мы предложили новую методику для обучения-free улучшения процесса семантической сегментации с помощью self-adaptive attention в CLIP. Метод доказал свою эффективность и может повысить качество работы не только CLIP но и других моделей, использующих визуально-текстовые представления. Мы планируем дальнейшие исследования в области создания еще более универсальных и эффективных фреймворков для глубокого обучения.

Abstract

CLIP exhibits strong visual-textual alignment but struggle with open-vocabulary segmentation due to poor localization. Prior methods enhance spatial coherence by modifying intermediate attention. But, this coherence isn't consistently propagated to the final output due to subsequent operations such as projections. Additionally, intermediate attention lacks direct interaction with text representations, such semantic discrepancy limits the full potential of CLIP. In this work, we propose a training-free, feedback-driven self-adaptive framework that adapts output-based patch-level correspondences back to the intermediate attention. The output predictions, being the culmination of the model's processing, encapsulate the most comprehensive visual and textual semantics about each patch. Our approach enhances semantic consistency between internal representations and final predictions by leveraging the model's outputs as a stronger spatial coherence prior. We design key modules, including attention isolation, confidence-based pruning for sparse adaptation, and adaptation ensemble, to effectively feedback the output coherence cues. Our method functions as a plug-in module, seamlessly integrating into four state-of-the-art approaches with three backbones (ViT-B, ViT-L, ViT-H). We further validate our framework across multiple attention types (Q-K, self-self, and Proxy augmented with MAE, SAM, and DINO). Our approach consistently improves their performance across eight benchmarks.

Ссылки и действия