📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
📄 Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation
2025-08-09Авторы:
Jinxing Zhou, Yanghao Zhou, Mingfei Han, Tong Wang, Xiaojun Chang, Hisham Cholakkal, Rao Muhammad Anwer
**Резюме**
В статье предлагается новый подход к задаче Referring Audio-Visual Segmentation (Ref-AVS), направленный на решение проблем привычных методов, опирающихся на кроп-инвариантные выборки. Традиционные подходы, основанные на представлениях в памяти, часто недостаточно точны и не интерпретируемы. Более того, они затруднены в использовании в случае не всех типов данных. Рассмотренный авторами подход позволяет выделить объект в видео в ответ на запрос в текстовом виде, используя модель Ref-Thinker, которая обрабатывает текст, изображение и звук. Далее используется Grounding-DINO для координатной гранулярности, и SAM2 для точного сегментирования. Новый Ref-AVSBench позволяет тренировать модели с более высокой целесообразностью и повышенной универсальностью. На тесте, который включает в себя более сложную семантику и новые данные, алгоритм показал себя лучше, чем предыдущие модели. Этот подход может стать основой для улучшения семантического понимания в аудио-визуальных системах.
Annotation:
Referring Audio-Visual Segmentation (Ref-AVS) aims to segment target objects
in audible videos based on given reference expressions. Prior works typically
rely on learning latent embeddings via multimodal fusion to prompt a tunable
SAM/SAM2 decoder for segmentation, which requires strong pixel-level
supervision and lacks interpretability. From a novel perspective of explicit
reference understanding, we propose TGS-Agent, which decomposes the task into a
Think-Ground-Segment process, mimicking th...