📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Jinxing Zhou, Yanghao Zhou, Mingfei Han, Tong Wang, Xiaojun Chang, Hisham Cholakkal, Rao Muhammad Anwer

**Резюме** В статье предлагается новый подход к задаче Referring Audio-Visual Segmentation (Ref-AVS), направленный на решение проблем привычных методов, опирающихся на кроп-инвариантные выборки. Традиционные подходы, основанные на представлениях в памяти, часто недостаточно точны и не интерпретируемы. Более того, они затруднены в использовании в случае не всех типов данных. Рассмотренный авторами подход позволяет выделить объект в видео в ответ на запрос в текстовом виде, используя модель Ref-Thinker, которая обрабатывает текст, изображение и звук. Далее используется Grounding-DINO для координатной гранулярности, и SAM2 для точного сегментирования. Новый Ref-AVSBench позволяет тренировать модели с более высокой целесообразностью и повышенной универсальностью. На тесте, который включает в себя более сложную семантику и новые данные, алгоритм показал себя лучше, чем предыдущие модели. Этот подход может стать основой для улучшения семантического понимания в аудио-визуальных системах.
Annotation:
Referring Audio-Visual Segmentation (Ref-AVS) aims to segment target objects in audible videos based on given reference expressions. Prior works typically rely on learning latent embeddings via multimodal fusion to prompt a tunable SAM/SAM2 decoder for segmentation, which requires strong pixel-level supervision and lacks interpretability. From a novel perspective of explicit reference understanding, we propose TGS-Agent, which decomposes the task into a Think-Ground-Segment process, mimicking th...
ID: 2508.04418v1 cs.MM, cs.CV, cs.MA, cs.SD, eess.AS