Plug-in Feedback Self-adaptive Attention in CLIP for Training-free Open-Vocabulary Segmentation
2508.20265v1
cs.CV, cs.LG
2025-08-29
Авторы:
Zhixiang Chi, Yanan Wu, Li Gu, Huan Liu, Ziqiang Wang, Yang Zhang, Yang Wang, Konstantinos N. Plataniotis
Резюме на русском
Название: Plug-in Feedback Self-adaptive Attention in CLIP for Training-free Open-Vocabulary Segmentation
## Контекст
Segmentation области, задействующая визуально-текстовые представления, является ключевым в области глубокого обучения. Однако существуют значительные проблемы, связанные с отсутствием локализации и неполной семантической согласованности между внутренними представлениями и выходными прогнозами. Особенно это актуально для open-vocabulary segmentation. Например, в CLIP, хотя он демонстрирует мощные возможности в visual-textual alignment, он сталкивается с трудностями в процессе предсказания идеальных сегментаций, в частности на тестовых данных с отклонениями от обучающих данных. Эти ограничения вызваны нехваткой представления позиционной информации и неэффективным представлением текстовых семантик.
## Метод
Мы предлагаем метод заключающийся в улучшении intermediate attention с помощью output feedback. Фреймворк организован вокруг элементарных модулей, которые позволяют выравнивать промежуточные семантические представления с помощью обратной связи от прогнозов. Мы вводим архитектуру с attention isolation, которая позволяет локализировать и улучшать процесс взаимодействия семантических слоев. Далее, мы применяем к этой конфигурации confidence-based pruning для более точной регулировки процесса. Наконец, мы используем adaptation ensemble для объединения нескольких моделей в полноценное и гармоничное решение.
## Результаты
Метод был протестирован на 8 задач семантической сегментации, используя сразу 4 современных модели CLIP с разными бэкбонами (ViT-B, ViT-L, ViT-H). Мы проверили его с разными видами attention, включая Q-K, self-self, Proxy с MAE, SAM и DINO. Наши результаты показывают, что наша система значительно улучшает качество прогнозов по сравнению с базовыми моделями. Особенно выражено это на тестовых данных, отличающихся от обучающих.
## Значимость
Наш метод может использоваться в абсолютно разных задачах семантической сегментации, включая области, где требуется высокая точность и семантическая согласованность. Он не требует дополнительного обучения и может быть выполнен в реальном времени. Значительное преимущество заключается в том, что он может быть применен как plug-in модуль к уже существующим моделям без нужды в глубокой модификации их архитектуры.
## Выводы
В итоге, мы предложили новую методику для обучения-free улучшения процесса семантической сегментации с помощью self-adaptive attention в CLIP. Метод доказал свою эффективность и может повысить качество работы не только CLIP но и других моделей, использующих визуально-текстовые представления. Мы планируем дальнейшие исследования в области создания еще более универсальных и эффективных фреймворков для глубокого обучения.
Abstract
CLIP exhibits strong visual-textual alignment but struggle with
open-vocabulary segmentation due to poor localization. Prior methods enhance
spatial coherence by modifying intermediate attention. But, this coherence
isn't consistently propagated to the final output due to subsequent operations
such as projections. Additionally, intermediate attention lacks direct
interaction with text representations, such semantic discrepancy limits the
full potential of CLIP.
In this work, we propose a training-free, feedback-driven self-adaptive
framework that adapts output-based patch-level correspondences back to the
intermediate attention. The output predictions, being the culmination of the
model's processing, encapsulate the most comprehensive visual and textual
semantics about each patch. Our approach enhances semantic consistency between
internal representations and final predictions by leveraging the model's
outputs as a stronger spatial coherence prior. We design key modules, including
attention isolation, confidence-based pruning for sparse adaptation, and
adaptation ensemble, to effectively feedback the output coherence cues. Our
method functions as a plug-in module, seamlessly integrating into four
state-of-the-art approaches with three backbones (ViT-B, ViT-L, ViT-H). We
further validate our framework across multiple attention types (Q-K, self-self,
and Proxy augmented with MAE, SAM, and DINO). Our approach consistently
improves their performance across eight benchmarks.
Ссылки и действия
Дополнительные ресурсы: