DART: Dual Adaptive Refinement Transfer for Open-Vocabulary Multi-Label Recognition

2508.05585v1 cs.CV 2025-08-09
Авторы:

Haijing Liu, Tao Pu, Hefeng Wu, Keze Wang, Liang Lin

Резюме на русском

**Резюме** Open-Vocabulary Multi-Label Recognition (OV-MLR) — задача определения объектов в изображении, включая как знакомые, так и незнакомые классы. Она требует точной локализации объектов в пределах класса (intra-class localization) и эффективной связности между классами (inter-class reasoning). Vision-Language Pre-training (VLP) модели, хотя и обладают сильной возможностью распознавания open-vocabulary, часто сталкиваются с проблемами точной локализации и недостаточным использованием структурированной значимости между классами. Мы предлагаем Dual Adaptive Refinement Transfer (DART) — новую структуру, которая решает эти проблемы. DART использует два модуля: Adaptive Refinement Module (ARM) для улучшения интра-классной локализации с помощью Weakly Supervised Patch Selecting (WPS) и Adaptive Transfer Module (ATM) для передачи связности между классами, основываясь на Class Relationship Graph (CRG), построенном с помощью Large Language Model (LLM). DART становится первым фреймворком, который совместно использует LLM-derived relational knowledge для решения задачи inter-class transfer и улучшает intra-class refinement в условиях weak supervision. Эксперименты показывают, что DART достигает нового состояния искусств в OV-MLR, подтверждая свою эффективность.

Abstract

Open-Vocabulary Multi-Label Recognition (OV-MLR) aims to identify multiple seen and unseen object categories within an image, requiring both precise intra-class localization to pinpoint objects and effective inter-class reasoning to model complex category dependencies. While Vision-Language Pre-training (VLP) models offer a strong open-vocabulary foundation, they often struggle with fine-grained localization under weak supervision and typically fail to explicitly leverage structured relational knowledge beyond basic semantics, limiting performance especially for unseen classes. To overcome these limitations, we propose the Dual Adaptive Refinement Transfer (DART) framework. DART enhances a frozen VLP backbone via two synergistic adaptive modules. For intra-class refinement, an Adaptive Refinement Module (ARM) refines patch features adaptively, coupled with a novel Weakly Supervised Patch Selecting (WPS) loss that enables discriminative localization using only image-level labels. Concurrently, for inter-class transfer, an Adaptive Transfer Module (ATM) leverages a Class Relationship Graph (CRG), constructed using structured knowledge mined from a Large Language Model (LLM), and employs graph attention network to adaptively transfer relational information between class representations. DART is the first framework, to our knowledge, to explicitly integrate external LLM-derived relational knowledge for adaptive inter-class transfer while simultaneously performing adaptive intra-class refinement under weak supervision for OV-MLR. Extensive experiments on challenging benchmarks demonstrate that our DART achieves new state-of-the-art performance, validating its effectiveness.

Ссылки и действия