Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation
2508.04418v1
cs.MM, cs.CV, cs.MA, cs.SD, eess.AS
2025-08-09
Авторы:
Jinxing Zhou, Yanghao Zhou, Mingfei Han, Tong Wang, Xiaojun Chang, Hisham Cholakkal, Rao Muhammad Anwer
Резюме на русском
**Резюме**
В статье предлагается новый подход к задаче Referring Audio-Visual Segmentation (Ref-AVS), направленный на решение проблем привычных методов, опирающихся на кроп-инвариантные выборки. Традиционные подходы, основанные на представлениях в памяти, часто недостаточно точны и не интерпретируемы. Более того, они затруднены в использовании в случае не всех типов данных. Рассмотренный авторами подход позволяет выделить объект в видео в ответ на запрос в текстовом виде, используя модель Ref-Thinker, которая обрабатывает текст, изображение и звук. Далее используется Grounding-DINO для координатной гранулярности, и SAM2 для точного сегментирования. Новый Ref-AVSBench позволяет тренировать модели с более высокой целесообразностью и повышенной универсальностью. На тесте, который включает в себя более сложную семантику и новые данные, алгоритм показал себя лучше, чем предыдущие модели. Этот подход может стать основой для улучшения семантического понимания в аудио-визуальных системах.
Abstract
Referring Audio-Visual Segmentation (Ref-AVS) aims to segment target objects
in audible videos based on given reference expressions. Prior works typically
rely on learning latent embeddings via multimodal fusion to prompt a tunable
SAM/SAM2 decoder for segmentation, which requires strong pixel-level
supervision and lacks interpretability. From a novel perspective of explicit
reference understanding, we propose TGS-Agent, which decomposes the task into a
Think-Ground-Segment process, mimicking the human reasoning procedure by first
identifying the referred object through multimodal analysis, followed by
coarse-grained grounding and precise segmentation. To this end, we first
propose Ref-Thinker, a multimodal language model capable of reasoning over
textual, visual, and auditory cues. We construct an instruction-tuning dataset
with explicit object-aware think-answer chains for Ref-Thinker fine-tuning. The
object description inferred by Ref-Thinker is used as an explicit prompt for
Grounding-DINO and SAM2, which perform grounding and segmentation without
relying on pixel-level supervision. Additionally, we introduce
R\textsuperscript{2}-AVSBench, a new benchmark with linguistically diverse and
reasoning-intensive references for better evaluating model generalization. Our
approach achieves state-of-the-art results on both standard Ref-AVSBench and
proposed R\textsuperscript{2}-AVSBench. Code will be available at
https://github.com/jasongief/TGS-Agent.