Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decoder

2508.04107v2 cs.CV, cs.AI 2025-08-09
Авторы:

Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Referring Expression Segmentation (RES) — это задача, направленная на выделение регионов изображения, описанных специфическими справочными выражениями. В последнее время эта область привлекла значительное внимание благодаря появлению Multimodal Large Models (MLLMs), способных эффективно обрабатывать семантическую информацию. Однако, несмотря на их продвинутые способности к пониманию смысла, MLLMs сталкиваются с трудностями в выполнении пиксельно-густых прогнозов, что является ключевой проблемой в RES. Данная проблема усугубляется тем, что существующие подходы либо используют тяжеловесные модели, такие как Segment Anything Model (SAM) с 632 миллионами параметров, либо прибегают к легковесным, но менее точным решениям. Эта дихотомия между производительностью и затратами на вычисления создает существенный барьер для практического применения RES. Основная мотивация данного исследования заключается в том, чтобы преодолевать эту проблему, максимально используя встроенные визуальные детали, инкодированные в визуальном энкодере MLLM, без необходимости дополнительных моделей. Также, требуется эффективное объединение визуальных и семантических функций для повышения точности предсказания масок. Исследование направлено на разработку нового фреймворка, который сочетает высокую точность с низкими затратами на вычисления, обеспечивая баланс между эффективностью и производительностью. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье представлен MLLMSeg — инновационный фреймворк, предназначенный для решения проблемы точности и стоимости в RES. Основные компоненты MLLMSeg включают в себя: 1. **Использование встроенных визуальных деталей**: Фреймворк полностью использует визуальные детали, закодированные в визуальном энкодере MLLM, не требуя дополнительного визуального энкодера. Это снимает необходимость в тяжеловесных дополнительных компонентах, таких как SAM. 2. **Detail-enhanced and Semantic-consistent Feature Fusion (DSFF)**: Этот модуль является ключевым для интеграции визуальных деталей и семантических функций, выводимых из Large Language Model (LLM) в MLLM. DSFF обеспечивает гармоничное слияние этих двух типов информации, улучшая точность предсказания масок. 3. **Легковесный масковый декодер**: Для достижения высокой точности с минимальными затратами, MLLMSeg использует легковесный масковый декодер с всего 34 миллионами параметров. Этот декодер эффективно обрабатывает детализированные пространственные функции из визуального энкодера и семантические функции из LLM, обеспечивая точные предсказания масок. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности MLLMSeg произведены обширные эксперименты, в которых использовались различные наборы данных, специализирующиеся на RES. Результаты показывают, что MLLMSeg превосходит как SAM-based, так и SAM-free решения, достигая высокой точности при значительно меньших вычислительных затратах. Благодаря инновационному подходу к функциональному слиянию и легковесному декодеру, MLLMSeg достигает баланса между производительностью и стоимостью, что делает его привлекательным для практического применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MLLMSeg имеет широкий спектр практических приложений в таких областях, как компьютерное зрение, медицинское изображение и автономные системы. Его способность обрабатывать сложные справочные выражения и точно выделять регионы изображения делает его полезным для задач, требующих высокой точности в работе с визуальными данными. Кроме того, легковесная архитектура MLLMSeg позволяет использовать его на устройствах с ограниченными вычислительными ресурсами, что расширяет его применимость в реальных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, MLLMSeg представляет собой балансирующее решение для RES, которое обеспечивает высокую точность при низких затратах на вычисления. Будущие исследования могут расширить этот подход, оптимизируя его для более широкого спектра задач и улучшая его адаптивность к различным доменным данным.

Abstract

Reference Expression Segmentation (RES) aims to segment image regions specified by referring expressions and has become popular with the rise of multimodal large models (MLLMs). While MLLMs excel in semantic understanding, their token-generation paradigm struggles with pixel-level dense prediction. Existing RES methods either couple MLLMs with the parameter-heavy Segment Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight pipelines that sacrifice accuracy. To address the trade-off between performance and cost, we specifically propose MLLMSeg, a novel framework that fully exploits the inherent visual detail features encoded in the MLLM vision encoder without introducing an extra visual encoder. Besides, we propose a detail-enhanced and semantic-consistent feature fusion module (DSFF) that fully integrates the detail-related visual feature with the semantic-related feature output by the large language model (LLM) of MLLM. Finally, we establish a light-weight mask decoder with only 34M network parameters that optimally leverages detailed spatial features from the visual encoder and semantic features from the LLM to achieve precise mask prediction. Extensive experiments demonstrate that our method generally surpasses both SAM-based and SAM-free competitors, striking a better balance between performance and cost. Code is available at https://github.com/jcwang0602/MLLMSeg.

Ссылки и действия