MMMS: Multi-Modal Multi-Surface Interactive Segmentation
2509.12963v1
cs.CV, cs.LG
2025-09-18
Авторы:
Robin Schön, Julian Lorenz, Katja Ludwig, Daniel Kienzle, Rainer Lienhart
Резюме на русском
## Контекст
В последние годы визуальное воспроизведение и анализ изображений широко применяются в различных областях, таких как медицина, робототехника и анализ данных. Одна из важных задач в этой области — интерактивное выделение объектов на изображениях. Несмотря на развитие методов машинного обучения, интерактивное сегментационное решение по-прежнему сталкивается с рядом проблем. Одна из них — сегментация нескольких поверхностей, присутствующих в одной и той же сцене. Эти поверхности часто трудно отделить друг от друга из-за их почти гармоничного расположения или близости друг к другу. Это создает дополнительную сложность для методов, которые пытаются тщательно разделить эти поверхности. Кроме того, существующие метрики оценки не всегда учитывают характерные особенности данной задачи, что снижает качество оценки решений. В этой работе мы предлагаем метод, который адресует эти проблемы, основываясь на интерактивной сегментации с помощью нескольких модальностей.
## Метод
Метод, представленный в данной работе, называется **MMMS (Multi-Modal Multi-Surface Interactive Segmentation)**. Основная идея заключается в использовании нескольких модальностей (например, RGB-изображение, не-RGB модели и кодированные щелчки пользователя) для улучшения качества сегментации. Метод построен на основе архитектуры сети, которая принимает в качестве входных данных RGB-изображение, не-RGB модели, неточный маска и кодированные щелчки. Модель предсказывает улучшенный маска сегментации на основе этого ввода. Одним из ключевых аспектов этого подхода является то, что RGB-сеть используется только в качестве черного ящика, чтобы обеспечить гибкость и удобство применения. Кроме того, мы применяем расширенную метрику оценки, которая учитывает специфику взаимодействия с несколькими поверхностями. Эта метрика, называемая NoC@90 (Number of Clicks at 90% accuracy), позволяет измерить точность сегментации с учетом трудностей взаимодействия с несколькими поверхностями.
## Результаты
Мы провели эксперименты для оценки эффективности нашего подхода на двух наборах данных: DeLiVER и MFNet. На DeLiVER мы достигли снижения NoC@90 на 1.28 щелчков на каждую поверхность, а на MFNet — на 1.19 щелчков. Эти результаты показывают, что наш метод эффективно использует дополнительные модальности для улучшения сегментации. Базовая модель, основанная только на RGB-изображении, также продемонстрировала высокую эффективность в сценарии классической интерактивной сегментации, иногда давая лучшие результаты по сравнению с другими методами. Это показывает, что наш подход не только эффективен в многомодальной среде, но и может быть эффективен при использовани
Abstract
In this paper, we present a method to interactively create segmentation masks
on the basis of user clicks. We pay particular attention to the segmentation of
multiple surfaces that are simultaneously present in the same image. Since
these surfaces may be heavily entangled and adjacent, we also present a novel
extended evaluation metric that accounts for the challenges of this scenario.
Additionally, the presented method is able to use multi-modal inputs to
facilitate the segmentation task. At the center of this method is a network
architecture which takes as input an RGB image, a number of non-RGB modalities,
an erroneous mask, and encoded clicks. Based on this input, the network
predicts an improved segmentation mask. We design our architecture such that it
adheres to two conditions: (1) The RGB backbone is only available as a
black-box. (2) To reduce the response time, we want our model to integrate the
interaction-specific information after the image feature extraction and the
multi-modal fusion. We refer to the overall task as Multi-Modal Multi-Surface
interactive segmentation (MMMS). We are able to show the effectiveness of our
multi-modal fusion strategy. Using additional modalities, our system reduces
the NoC@90 by up to 1.28 clicks per surface on average on DeLiVER and up to
1.19 on MFNet. On top of this, we are able to show that our RGB-only baseline
achieves competitive, and in some cases even superior performance when tested
in a classical, single-mask interactive segmentation scenario.
Ссылки и действия
Дополнительные ресурсы: