Zero Shot Domain Adaptive Semantic Segmentation by Synthetic Data Generation and Progressive Adaptation
2508.03300v1
cs.CV
2025-08-09
Авторы:
Jun Luo, Zijing Zhao, Yang Liu
Резюме на русском
Задача семантической разметки изображений в условиях нулевого доступа к данным целевого домена остается вызовом для существующих моделей. Данная работа предлагает метод **SDGPA (Synthetic Data Generation and Progressive Adaptation)**, который способен выполнять zero-shot domain adaptive semantic segmentation только на основе текстового описания целевого стиля. Для устранения шума в сгенерированных с помощью диффузионной модели синтетических изображений, авторы предлагают новую стратегию редактирования изображений: разбиение исходных изображений на патчи, их отдельное редактирование и дальнейшее объединение. Это позволяет сохранить логическую структуру изображений и повысить точность разметки. Для устойчивого обучения в условиях большого доменного разрыва, SDGPA создает промежуточный домен для постепенной адаптации модели. Эксперименты показали, что SDGPA достигает лидирующих результатов в задаче zero-shot semantic segmentation, демонстрируя продвинутую способность к обучению в условиях недоступности целевых данных.
Abstract
Deep learning-based semantic segmentation models achieve impressive results
yet remain limited in handling distribution shifts between training and test
data. In this paper, we present SDGPA (Synthetic Data Generation and
Progressive Adaptation), a novel method that tackles zero-shot domain adaptive
semantic segmentation, in which no target images are available, but only a text
description of the target domain's style is provided. To compensate for the
lack of target domain training data, we utilize a pretrained off-the-shelf
text-to-image diffusion model, which generates training images by transferring
source domain images to target style. Directly editing source domain images
introduces noise that harms segmentation because the layout of source images
cannot be precisely maintained. To address inaccurate layouts in synthetic
data, we propose a method that crops the source image, edits small patches
individually, and then merges them back together, which helps improve spatial
precision. Recognizing the large domain gap, SDGPA constructs an augmented
intermediate domain, leveraging easier adaptation subtasks to enable more
stable model adaptation to the target domain. Additionally, to mitigate the
impact of noise in synthetic data, we design a progressive adaptation strategy,
ensuring robust learning throughout the training process. Extensive experiments
demonstrate that our method achieves state-of-the-art performance in zero-shot
semantic segmentation. The code is available at
https://github.com/ROUJINN/SDGPA
Ссылки и действия
Дополнительные ресурсы: