Open-world Point Cloud Semantic Segmentation: A Human-in-the-loop Framework
2508.04962v1
cs.CV, cs.GR
2025-08-09
Авторы:
Peng Zhang, Songru Yang, Jinsheng Sun, Weiqing Li, Zhiyong Su
Резюме на русском
Open-world point cloud semantic segmentation (OW-Seg) — задача предсказания меток точек для как базовых, так и новых классов в реальных условиях. Однако существующие методы требуют ресурсоёмких операций ввода-вывода или сложных схем обучения с плотной аннотацией данных, что ограничивает их применимость. Мы предлагаем HOW-Seg, первый фреймворк с использованием человека в цикле обучения для OW-Seg. Метод строит классные прототипы непосредственно на входных данных, избегая проблемы изменения распределений внутри классов между поддерживающими и запросимыми данными. Мы используем минимальные человеко-замечания для гибкого рефининга прототипов и добавляем графу Условного Рандовского Фильта (CRF) для расширения контекстной осмысленности. Это позволяет HOW-Seg последовательно улучшаться с помощью итеративных отзывов и достигать высокого качества сегментации, даже при ограниченных обучающих данных. Наши эксперименты показывают, что HOW-Seg сравнял или превзошел значительно состояние технологий GFS-Seg в режиме 5-shot, и при дополнительных вычислительных ресурсах достиг 85.27% mIoU на S3DIS и 66.37% на ScanNetv2, превосходя все альтернативы.
Abstract
Open-world point cloud semantic segmentation (OW-Seg) aims to predict point
labels of both base and novel classes in real-world scenarios. However,
existing methods rely on resource-intensive offline incremental learning or
densely annotated support data, limiting their practicality. To address these
limitations, we propose HOW-Seg, the first human-in-the-loop framework for
OW-Seg. Specifically, we construct class prototypes, the fundamental
segmentation units, directly on the query data, avoiding the prototype bias
caused by intra-class distribution shifts between the support and query data.
By leveraging sparse human annotations as guidance, HOW-Seg enables
prototype-based segmentation for both base and novel classes. Considering the
lack of granularity of initial prototypes, we introduce a hierarchical
prototype disambiguation mechanism to refine ambiguous prototypes, which
correspond to annotations of different classes. To further enrich contextual
awareness, we employ a dense conditional random field (CRF) upon the refined
prototypes to optimize their label assignments. Through iterative human
feedback, HOW-Seg dynamically improves its predictions, achieving high-quality
segmentation for both base and novel classes. Experiments demonstrate that with
sparse annotations (e.g., one-novel-class-one-click), HOW-Seg matches or
surpasses the state-of-the-art generalized few-shot segmentation (GFS-Seg)
method under the 5-shot setting. When using advanced backbones (e.g.,
Stratified Transformer) and denser annotations (e.g., 10 clicks per sub-scene),
HOW-Seg achieves 85.27% mIoU on S3DIS and 66.37% mIoU on ScanNetv2,
significantly outperforming alternatives.
Ссылки и действия
Дополнительные ресурсы: