GLAM: Geometry-Guided Local Alignment for Multi-View VLP in Mammography

2509.10344v1 cs.CV, cs.AI, cs.LG 2025-09-16
Авторы:

Yuexi Du, Lihui Chen, Nicha C. Dvornek

Резюме на русском

## Контекст Маммографическое обследование является ключевым методом для раннего выявления рака молочной железы. Несмотря на то, что глубокие нейронные сети могут существенно повысить скорость и точность интерпретации маммограмм, развитие основных моделей визуальной языковой модели (VLM) сталкивается с ограничениями данных и различиями между естественными и медицинскими изображениями. Большинство существующих VLM, адаптированных для маммографии, не учитывают доменные особенности, такие как многоплоскостная структура изображений. Радиологи в процессе диагностики используют как визуальный, так и геометрический контекст многоплоскостных видов, чтобы сделать более точные выводы. Однако многие нынешние модели не достаточно эффективно учитывают такую геометрическую информацию, что приводит к неточности предсказаний. ## Метод Мы предлагаем GLAM (Geometry-Guided Local Alignment), модель, ориентированную на локальные кросс-видовые выравнивания с использованием геометрического руководства. Модель учитывает многоплоскостную природу маммограмм и использует связывающий подход, объединяющий глобальные и локальные моделирования. Основным инструментом является визуально-визуальное и визуально-языковое контрастное обучение, которое позволяет извлекать тонкие локальные фичи и согласовывать кросс-видовые отношения. Модель базируется на EMBED, одной из крупнейших открытых баз данных маммограмм, что обеспечивает превосходную репрезентативность и качество обучения. ## Результаты Мы провести эксперименты с различными наборами данных, сравнив GLAM с другими моделями. Наши результаты показали, что GLAM превышает базовые модели по метрикам точности, скорости и общей точности диагностики. Особое внимание уделено повышению точности в сложных случаях, где кросс-видовые выравнивания играют ключевую роль. Эти результаты подтверждены сравнением с соревновательными моделями, демонстрируя преимущества GLAM в области многоплоскостной многовидной визуально-языковой модели. ## Значимость Модель GLAM может быть применена в различных областях медицинского искусственного интеллекта, включая не только маммографию, но и другие медицинские изображения, требующие точного визуального и геометрического анализа. Одним из основных преимуществ является улучшение точности диагностики за счет учета геометрического контекста. Будущие исследования будут направлены на расширение применения GLAM к другим видам медицинских изображений и интеграцию модели со сложными сетями, чтобы добиться еще большей точности. ## Выводы Модель GLAM проявляет свою эффектив

Abstract

Mammography screening is an essential tool for early detection of breast cancer. The speed and accuracy of mammography interpretation have the potential to be improved with deep learning methods. However, the development of a foundation visual language model (VLM) is hindered by limited data and domain differences between natural and medical images. Existing mammography VLMs, adapted from natural images, often ignore domain-specific characteristics, such as multi-view relationships in mammography. Unlike radiologists who analyze both views together to process ipsilateral correspondence, current methods treat them as independent images or do not properly model the multi-view correspondence learning, losing critical geometric context and resulting in suboptimal prediction. We propose GLAM: Global and Local Alignment for Multi-view mammography for VLM pretraining using geometry guidance. By leveraging the prior knowledge about the multi-view imaging process of mammograms, our model learns local cross-view alignments and fine-grained local features through joint global and local, visual-visual, and visual-language contrastive learning. Pretrained on EMBED [14], one of the largest open mammography datasets, our model outperforms baselines across multiple datasets under different settings.

Ссылки и действия