SMOL-MapSeg: Show Me One Label

2508.05501v1 cs.CV 2025-08-09

Авторы:

Yunshuang Yuan, Frank Thiemann, Thorsten Dahms, Monika Sester

Резюме на русском

**Резюме** Исторические карты являются ценным источником для исследования изменений на земной поверхности. Однако семантическое сегментирование таких карт с помощью глубокого обучения сталкивается с проблемами, так как предварительно обученные модели, такие как UNet, не приспособлены для работы с историческими картами. Эти модели обычно обучаются на современных или доменно-специфичных изображениях, где сущности искажаются определенными стилями и стабильными концепциями. В отличие от этого, исторические карты часто содержат схожие элементы, но разнообразие их форм и стилей делает их трудно распознаваемыми для обученных моделей. Чтобы решить эту проблему, мы предлагаем On-Need Declarative (OND) knowledge-based prompting — метод, который использует явные знания для указания модели какие узоры соответствуют каким концепциям. Это реализуется за счет замены процесса обучения модели на основе SAM-модели с нашей OND-процедурой. Модель, полученная в результате, SMOL-MapSeg (Show Me One Label), позволяет пользователю указывать нужные классы на лету во время инференции. Этот подход демонстрирует улучшенную точность сегментации таких классов, в том числе неизвестных изначально. SMOL-MapSeg показала лучшую среднюю точность по сравнению с UNet-подобными моделями.

Abstract

Historical maps are valuable for studying changes to the Earth's surface. With the rise of deep learning, models like UNet have been used to extract information from these maps through semantic segmentation. Recently, pre-trained foundation models have shown strong performance across domains such as autonomous driving, medical imaging, and industrial inspection. However, they struggle with historical maps. These models are trained on modern or domain-specific images, where patterns can be tied to predefined concepts through common sense or expert knowledge. Historical maps lack such consistency -- similar concepts can appear in vastly different shapes and styles. To address this, we propose On-Need Declarative (OND) knowledge-based prompting, which introduces explicit prompts to guide the model on what patterns correspond to which concepts. This allows users to specify the target concept and pattern during inference (on-need inference). We implement this by replacing the prompt encoder of the foundation model SAM with our OND prompting mechanism and fine-tune it on historical maps. The resulting model is called SMOL-MapSeg (Show Me One Label). Experiments show that SMOL-MapSeg can accurately segment classes defined by OND knowledge. It can also adapt to unseen classes through few-shot fine-tuning. Additionally, it outperforms a UNet-based baseline in average segmentation performance.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

SMOL-MapSeg: Show Me One Label

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ViRectify: A Challenging Benchmark for Video Reasoning Correction with Multimoda...

PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with P...

ViDiC: Video Difference Captioning

Beyond the Ground Truth: Enhanced Supervision for Image Restoration

TempR1: Improving Temporal Understanding of MLLMs via Temporal-Aware Multi-Task ...

Навигация