GLAM: Geometry-Guided Local Alignment for Multi-View VLP in Mammography
2509.10344v1
cs.CV, cs.AI, cs.LG
2025-09-16
Авторы:
Yuexi Du, Lihui Chen, Nicha C. Dvornek
Резюме на русском
## Контекст
Маммографическое обследование является ключевым методом для раннего выявления рака молочной железы. Несмотря на то, что глубокие нейронные сети могут существенно повысить скорость и точность интерпретации маммограмм, развитие основных моделей визуальной языковой модели (VLM) сталкивается с ограничениями данных и различиями между естественными и медицинскими изображениями. Большинство существующих VLM, адаптированных для маммографии, не учитывают доменные особенности, такие как многоплоскостная структура изображений. Радиологи в процессе диагностики используют как визуальный, так и геометрический контекст многоплоскостных видов, чтобы сделать более точные выводы. Однако многие нынешние модели не достаточно эффективно учитывают такую геометрическую информацию, что приводит к неточности предсказаний.
## Метод
Мы предлагаем GLAM (Geometry-Guided Local Alignment), модель, ориентированную на локальные кросс-видовые выравнивания с использованием геометрического руководства. Модель учитывает многоплоскостную природу маммограмм и использует связывающий подход, объединяющий глобальные и локальные моделирования. Основным инструментом является визуально-визуальное и визуально-языковое контрастное обучение, которое позволяет извлекать тонкие локальные фичи и согласовывать кросс-видовые отношения. Модель базируется на EMBED, одной из крупнейших открытых баз данных маммограмм, что обеспечивает превосходную репрезентативность и качество обучения.
## Результаты
Мы провести эксперименты с различными наборами данных, сравнив GLAM с другими моделями. Наши результаты показали, что GLAM превышает базовые модели по метрикам точности, скорости и общей точности диагностики. Особое внимание уделено повышению точности в сложных случаях, где кросс-видовые выравнивания играют ключевую роль. Эти результаты подтверждены сравнением с соревновательными моделями, демонстрируя преимущества GLAM в области многоплоскостной многовидной визуально-языковой модели.
## Значимость
Модель GLAM может быть применена в различных областях медицинского искусственного интеллекта, включая не только маммографию, но и другие медицинские изображения, требующие точного визуального и геометрического анализа. Одним из основных преимуществ является улучшение точности диагностики за счет учета геометрического контекста. Будущие исследования будут направлены на расширение применения GLAM к другим видам медицинских изображений и интеграцию модели со сложными сетями, чтобы добиться еще большей точности.
## Выводы
Модель GLAM проявляет свою эффектив
Abstract
Mammography screening is an essential tool for early detection of breast
cancer. The speed and accuracy of mammography interpretation have the potential
to be improved with deep learning methods. However, the development of a
foundation visual language model (VLM) is hindered by limited data and domain
differences between natural and medical images. Existing mammography VLMs,
adapted from natural images, often ignore domain-specific characteristics, such
as multi-view relationships in mammography. Unlike radiologists who analyze
both views together to process ipsilateral correspondence, current methods
treat them as independent images or do not properly model the multi-view
correspondence learning, losing critical geometric context and resulting in
suboptimal prediction. We propose GLAM: Global and Local Alignment for
Multi-view mammography for VLM pretraining using geometry guidance. By
leveraging the prior knowledge about the multi-view imaging process of
mammograms, our model learns local cross-view alignments and fine-grained local
features through joint global and local, visual-visual, and visual-language
contrastive learning. Pretrained on EMBED [14], one of the largest open
mammography datasets, our model outperforms baselines across multiple datasets
under different settings.
Ссылки и действия
Дополнительные ресурсы: