DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition
2508.05585v1
cs.CV
2025-08-09
Авторы:
Haijing Liu, Tao Pu, Hefeng Wu, Keze Wang, Liang Lin
Резюме на русском
**Резюме**
Open-Vocabulary Multi-Label Recognition (OV-MLR) — задача определения объектов в изображении, включая как знакомые, так и незнакомые классы. Она требует точной локализации объектов в пределах класса (intra-class localization) и эффективной связности между классами (inter-class reasoning). Vision-Language Pre-training (VLP) модели, хотя и обладают сильной возможностью распознавания open-vocabulary, часто сталкиваются с проблемами точной локализации и недостаточным использованием структурированной значимости между классами.
Мы предлагаем Dual Adaptive Refinement Transfer (DART) — новую структуру, которая решает эти проблемы. DART использует два модуля: Adaptive Refinement Module (ARM) для улучшения интра-классной локализации с помощью Weakly Supervised Patch Selecting (WPS) и Adaptive Transfer Module (ATM) для передачи связности между классами, основываясь на Class Relationship Graph (CRG), построенном с помощью Large Language Model (LLM).
DART становится первым фреймворком, который совместно использует LLM-derived relational knowledge для решения задачи inter-class transfer и улучшает intra-class refinement в условиях weak supervision. Эксперименты показывают, что DART достигает нового состояния искусств в OV-MLR, подтверждая свою эффективность.
Abstract
Open-Vocabulary Multi-Label Recognition (OV-MLR) aims to identify multiple
seen and unseen object categories within an image, requiring both precise
intra-class localization to pinpoint objects and effective inter-class
reasoning to model complex category dependencies. While Vision-Language
Pre-training (VLP) models offer a strong open-vocabulary foundation, they often
struggle with fine-grained localization under weak supervision and typically
fail to explicitly leverage structured relational knowledge beyond basic
semantics, limiting performance especially for unseen classes. To overcome
these limitations, we propose the Dual Adaptive Refinement Transfer (DART)
framework. DART enhances a frozen VLP backbone via two synergistic adaptive
modules. For intra-class refinement, an Adaptive Refinement Module (ARM)
refines patch features adaptively, coupled with a novel Weakly Supervised Patch
Selecting (WPS) loss that enables discriminative localization using only
image-level labels. Concurrently, for inter-class transfer, an Adaptive
Transfer Module (ATM) leverages a Class Relationship Graph (CRG), constructed
using structured knowledge mined from a Large Language Model (LLM), and employs
graph attention network to adaptively transfer relational information between
class representations. DART is the first framework, to our knowledge, to
explicitly integrate external LLM-derived relational knowledge for adaptive
inter-class transfer while simultaneously performing adaptive intra-class
refinement under weak supervision for OV-MLR. Extensive experiments on
challenging benchmarks demonstrate that our DART achieves new state-of-the-art
performance, validating its effectiveness.
Ссылки и действия
Дополнительные ресурсы: