MMMS: Multi-Modal Multi-Surface Interactive Segmentation

2509.12963v1 cs.CV, cs.LG 2025-09-18

Авторы:

Robin Schön, Julian Lorenz, Katja Ludwig, Daniel Kienzle, Rainer Lienhart

Резюме на русском

## Контекст В последние годы визуальное воспроизведение и анализ изображений широко применяются в различных областях, таких как медицина, робототехника и анализ данных. Одна из важных задач в этой области — интерактивное выделение объектов на изображениях. Несмотря на развитие методов машинного обучения, интерактивное сегментационное решение по-прежнему сталкивается с рядом проблем. Одна из них — сегментация нескольких поверхностей, присутствующих в одной и той же сцене. Эти поверхности часто трудно отделить друг от друга из-за их почти гармоничного расположения или близости друг к другу. Это создает дополнительную сложность для методов, которые пытаются тщательно разделить эти поверхности. Кроме того, существующие метрики оценки не всегда учитывают характерные особенности данной задачи, что снижает качество оценки решений. В этой работе мы предлагаем метод, который адресует эти проблемы, основываясь на интерактивной сегментации с помощью нескольких модальностей. ## Метод Метод, представленный в данной работе, называется **MMMS (Multi-Modal Multi-Surface Interactive Segmentation)**. Основная идея заключается в использовании нескольких модальностей (например, RGB-изображение, не-RGB модели и кодированные щелчки пользователя) для улучшения качества сегментации. Метод построен на основе архитектуры сети, которая принимает в качестве входных данных RGB-изображение, не-RGB модели, неточный маска и кодированные щелчки. Модель предсказывает улучшенный маска сегментации на основе этого ввода. Одним из ключевых аспектов этого подхода является то, что RGB-сеть используется только в качестве черного ящика, чтобы обеспечить гибкость и удобство применения. Кроме того, мы применяем расширенную метрику оценки, которая учитывает специфику взаимодействия с несколькими поверхностями. Эта метрика, называемая NoC@90 (Number of Clicks at 90% accuracy), позволяет измерить точность сегментации с учетом трудностей взаимодействия с несколькими поверхностями. ## Результаты Мы провели эксперименты для оценки эффективности нашего подхода на двух наборах данных: DeLiVER и MFNet. На DeLiVER мы достигли снижения NoC@90 на 1.28 щелчков на каждую поверхность, а на MFNet — на 1.19 щелчков. Эти результаты показывают, что наш метод эффективно использует дополнительные модальности для улучшения сегментации. Базовая модель, основанная только на RGB-изображении, также продемонстрировала высокую эффективность в сценарии классической интерактивной сегментации, иногда давая лучшие результаты по сравнению с другими методами. Это показывает, что наш подход не только эффективен в многомодальной среде, но и может быть эффективен при использовани

Abstract

In this paper, we present a method to interactively create segmentation masks on the basis of user clicks. We pay particular attention to the segmentation of multiple surfaces that are simultaneously present in the same image. Since these surfaces may be heavily entangled and adjacent, we also present a novel extended evaluation metric that accounts for the challenges of this scenario. Additionally, the presented method is able to use multi-modal inputs to facilitate the segmentation task. At the center of this method is a network architecture which takes as input an RGB image, a number of non-RGB modalities, an erroneous mask, and encoded clicks. Based on this input, the network predicts an improved segmentation mask. We design our architecture such that it adheres to two conditions: (1) The RGB backbone is only available as a black-box. (2) To reduce the response time, we want our model to integrate the interaction-specific information after the image feature extraction and the multi-modal fusion. We refer to the overall task as Multi-Modal Multi-Surface interactive segmentation (MMMS). We are able to show the effectiveness of our multi-modal fusion strategy. Using additional modalities, our system reduces the NoC@90 by up to 1.28 clicks per surface on average on DeLiVER and up to 1.19 on MFNet. On top of this, we are able to show that our RGB-only baseline achieves competitive, and in some cases even superior performance when tested in a classical, single-mask interactive segmentation scenario.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MMMS: Multi-Modal Multi-Surface Interactive Segmentation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Curvature-Regularized Variational Autoencoder for 3D Scene Reconstruction from S...

NICE: Neural Implicit Craniofacial Model for Orthognathic Surgery Prediction

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Навигация