Consistent View Alignment Improves Foundation Models for 3D Medical Image Segmentation

2509.13846v1 cs.CV, cs.LG 2025-09-19

Авторы:

Puru Vaish, Felix Meister, Tobias Heimann, Christoph Brune, Jelmer M. Wolterink

Резюме на русском

#### Контекст В последние годы исследования в области репрезентационного обучения стали стремительно развиваться, особенно в сфере медицинской изображейной обработки. Одним из основных аспектов этой области является сегментация трехмерных медицинских изображений, где необходимо выделить различные объекты или структуры в изображении. Одним из главных проблемных моментов является несогласованность представлений изображений из разных видов (views), что приводит к замедлению обучения и ухудшению точности. Необходимость создания консистентных представлений для обеспечения более эффективного обучения и снижения ошибки в задачах сегментации является мотивацией для данного исследования. #### Метод Метод, предложенный в статье, называется Consistent View Alignment (CVA). Он основывается на самостоятельном обучении с помощью метода, который призван выравнивать взаимодополняющую информацию из разных видов данных, не вызывая ложноположительных результатов. Архитектура CVA основывается на трансформерах и рекуррентных нейронных сетях, которые обрабатывают входные данные из разных видов и создают консистентные представления. Основной идеей является то, что входные данные из разных видов должны синхронизироваться, чтобы обеспечить более точную сегментацию. #### Результаты Результаты экспериментов показали, что CVA повышает точность сегментации в трехмерных медицинских изображениях, в том числе для задач сегментации костных структур и органов. Эксперименты проводились на различных наборах данных, включая набор данных для сегментации головного мозга и спины. Использовались две модели: Primus Vision Transformer и ResEnc Convolutional Neural Network. CVA демонстрировала лучшие результаты по сравнению с другими методами, которые не использовали самостоятельное выравнивание видов. #### Значимость Метод CVA имеет широкие применения в медицинской изображейной обработке, включая сегментацию тканей, диагностику заболеваний и планирование операций. Он позволяет повысить точность и консистентность сегментационных моделей, что может существенно повысить качество анализа и обработки медицинских изображений. Для будущих исследований планируется расширить применение метода на более сложные данные, такие как видеосъемки, и исследовать потенциал CVA в сочетании с другими методами обучения. #### Выводы В целом, CVA доказала свою эффективность в создании консистентных представлений для улучшения моделей сегментации в медицинских изображениях. Она установила новые рекорды в MICCAI 2025 SSL3D challenge, показав свою превосходность по сравнению с другими самостоятельно обучаемыми методами. В дальнейшем планируется расширить применение CVA на более сложные сценарии и комбиниро

Abstract

Many recent approaches in representation learning implicitly assume that uncorrelated views of a data point are sufficient to learn meaningful representations for various downstream tasks. In this work, we challenge this assumption and demonstrate that meaningful structure in the latent space does not emerge naturally. Instead, it must be explicitly induced. We propose a method that aligns representations from different views of the data to align complementary information without inducing false positives. Our experiments show that our proposed self-supervised learning method, Consistent View Alignment, improves performance for downstream tasks, highlighting the critical role of structured view alignment in learning effective representations. Our method achieved first and second place in the MICCAI 2025 SSL3D challenge when using a Primus vision transformer and ResEnc convolutional neural network, respectively. The code and pretrained model weights are released at https://github.com/Tenbatsu24/LatentCampus.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Consistent View Alignment Improves Foundation Models for 3D Medical Image Segmentation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Curvature-Regularized Variational Autoencoder for 3D Scene Reconstruction from S...

NICE: Neural Implicit Craniofacial Model for Orthognathic Surgery Prediction

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Навигация