Latent Expression Generation for Referring Image Segmentation and Grounding

2508.05123v1 cs.CV, cs.AI 2025-08-09
Авторы:

Seonghoon Yu, Joonbeom Hong, Joonseok Lee, Jeany Son

Резюме на русском

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Визуальное грундирование (visual grounding) является ключевой задачей в области компьютерного зрения, целью которой является точная локализация объектов в изображении на основе текстовых описаний. Одним из наиболее важных предметов в этой области является referring image segmentation (RIS), который заключается в выделении регионов на изображении, соответствующих заданному текстовому запросу. Также существует задача referring expression comprehension (REC), которая связана с определением и локализацией объекта на основе естественного языка. Однако, существующие методы грундирования сталкиваются с значительными проблемами, связанными со сложностью представления текстовых описаний в виде единственного вектора. Обычно, в текстовом описании могут быть представлены различные атрибуты объекта, такие как цвет, размер, положение, которые могут быть интерпретированы по-разному в зависимости от контекста. Недостаточность информации в текстовом входе может приводить к неточной идентификации объектов, особенно когда изображение содержит несколько похожих объектов. Кроме того, в реальных сценариях объекты могут быть описаны несколькими способами, включая различные атрибуты и отношения. Традиционные методы, основанные на единственной текстовой входной последовательности, не в состоянии полностью использовать эту разнообразную информацию. Это приводит к недостаточно точному определению объекта, особенно когда другие объекты на изображении имеют похожие характеристики. Предлагаемый метод предназначен для решения этой проблематики, используя множественные латентные (скрытые) выражения, созданные на основе одного текстового входа. Эти выражения должны содержать дополнительную информацию о визуальных признаках объекта, которые могут быть отсутствующими в оригинальном текстовом описании. # ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод представляет собой новый подход к задаче referring image segmentation (RIS) и referring expression comprehension (REC), основанный на генерации множественных латентных выражений из единственного текстового входа. Основная идея метода состоит в том, чтобы использовать дополнительную информацию из визуального пространства для улучшения точности грундирования. Для достижения этой цели, авторы предлагают два ключевых модуля: **Subject Distributor** и **Visual Concept Injector**. Модуль **Subject Distributor** отвечает за распределение информации об общих атрибутах объекта (например, общие признаки, которые могут быть присущи нескольким объектам), тогда как **Visual Concept Injector** добавляет уникальные визуальные признаки, которые помогают отличить конкретный объект от других. Метод также включает в себя **positive-margin contrastive learning**, который помогает выравнивать латентные выражения с оригинальным текстовым входом, сохраняя при этом тонкие различия между ними. Это позволяет модели учитывать не только общие атрибуты, но и уникальные характеристики объекта, что повышает точность грундирования. # ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на нескольких бенчмарках, включая стандартные датасеты для RIS и REC. Результаты показывают, что предлагаемый метод достигает высоких показателей точности по сравнению со стандартными методами. Особенно выделяется улучшение результатов на задаче generalized referring expression segmentation (GRES), где метод показывает значительные природы в точности. # ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет высокий потенциал для применения в реальных системах компьютерного зрения, где точная идентификация объектов играет важную роль. Например, это может быть полезно в областях автоматического текстового поиска объектов на изображениях, в системах автоматического теггирования изображений, а также в задачах компьютерного зрения, связанных с безопасностью и мониторингом. # ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый метод для задач referring image segmentation и referring expression comprehension, который использует генерацию множественных латентных выражений для улучшения точности локализации объектов. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности метода, в том числе через оптимизацию модулей и использование более крупных датасетов для обучения.

Abstract

Visual grounding tasks, such as referring image segmentation (RIS) and referring expression comprehension (REC), aim to localize a target object based on a given textual description. The target object in an image can be described in multiple ways, reflecting diverse attributes such as color, position, and more. However, most existing methods rely on a single textual input, which captures only a fraction of the rich information available in the visual domain. This mismatch between rich visual details and sparse textual cues can lead to the misidentification of similar objects. To address this, we propose a novel visual grounding framework that leverages multiple latent expressions generated from a single textual input by incorporating complementary visual details absent from the original description. Specifically, we introduce subject distributor and visual concept injector modules to embed both shared-subject and distinct-attributes concepts into the latent representations, thereby capturing unique and target-specific visual cues. We also propose a positive-margin contrastive learning strategy to align all latent expressions with the original text while preserving subtle variations. Experimental results show that our method not only outperforms state-of-the-art RIS and REC approaches on multiple benchmarks but also achieves outstanding performance on the generalized referring expression segmentation (GRES) benchmark.

Ссылки и действия