Conditional Latent Diffusion Models for Zero-Shot Instance Segmentation
2508.04122v1
cs.CV
2025-08-09
Авторы:
Maximilian Ulmer, Wout Boerdijk, Rudolph Triebel, Maximilian Durner
Резюме на русском
**Резюме**
В статье представлена OC-DiT — новая типа модели диффузии, разработанная для объектно-центричного предсказания, примененной к задаче zero-shot instance segmentation. Авторы предлагают уникальный фреймворк, генерирующий маски инстансов с помощью кондиционирования диффузионного процесса на объектные шаблоны и изображенческие признаки внутри латентного пространства диффузионной модели. Это позволяет модели эффективно разделять объекты по изображению, используя визуальные описания и локализованные изображенческие признаки. Две варианта модели предложены: первая для генерации начальных предложений инстансов, вторая — для их рефинирования. Обучение проводилось на новой большой синтетической выборке с высококачественными трёхмерными моделями объектов. Модели показали лучший результат на нескольких сложных реальных наборах данных, не требуя переобучения на целевых данных. Анализ абляций подтвердил возможность диффузионных моделей для решения задач инстансной сегментации.
Abstract
This paper presents OC-DiT, a novel class of diffusion models designed for
object-centric prediction, and applies it to zero-shot instance segmentation.
We propose a conditional latent diffusion framework that generates instance
masks by conditioning the generative process on object templates and image
features within the diffusion model's latent space. This allows our model to
effectively disentangle object instances through the diffusion process, which
is guided by visual object descriptors and localized image cues. Specifically,
we introduce two model variants: a coarse model for generating initial object
instance proposals, and a refinement model that refines all proposals in
parallel. We train these models on a newly created, large-scale synthetic
dataset comprising thousands of high-quality object meshes. Remarkably, our
model achieves state-of-the-art performance on multiple challenging real-world
benchmarks, without requiring any retraining on target data. Through
comprehensive ablation studies, we demonstrate the potential of diffusion
models for instance segmentation tasks.
Ссылки и действия
Дополнительные ресурсы: