Med-GLIP: Advancing Medical Language-Image Pre-training with Large-scale Grounded Dataset
2508.10528v1
cs.CV, cs.AI
2025-08-16
Авторы:
Ziye Deng, Ruihan He, Jiaxiang Liu, Yuan Wang, Zijie Meng, Songtao Jiang, Yong Xie, Zuozhu Liu
Резюме на русском
## Контекст
Исследование связи между языковыми фразами и регионами медицинских изображений, известное как medical image grounding, является ключевым элементом для развития интеллектуальных систем в области медицины. Оно фундаментально важно для задач таких как визуальный анализ, визуальный вопросно-ответный режим (Visual Question Answering, VQA) и автоматическое создание отчетов (Automated Report Generation, ARG). Несмотря на это, существующие исследования сталкиваются с ограничениями в объеме и разнообразии данных, а также с недостатком универсального фреймворка для обработки этих задач. Мотивация для данного исследования заключается в том, чтобы устранить эти ограничения и создать эффективную систему, которая могла бы обрабатывать изображения по сразу нескольким областям и предоставлять точные региональные аннотации.
## Метод
Методология исследования основывается на создании большого медицинского датасета, Med-GLIP-5M, включающего 5,3 миллиона записей, касающихся регионов в медицинских изображениях. Данный датасет покрывает семь различных медицинских модалитетов и поддерживает как сегментационные, так и граундингские задачи. Он включает в себя многоуровневые лейблы, которые позволяют отличать заболевания на разных уровнях, от органов до тонкого разбора частных мест. Для решения проблемы недостатка универсальных фреймворков для обработки этих задач, мы предлагаем Med-GLIP, модель, которая воспринимает семантику на разных уровнях гранулярности и может различать между органами и патологическими очагами.
## Результаты
В ходе экспериментов, проведенных на Med-GLIP-5M, модель Med-GLIP показала существенное превосходство над текущими стандартными моделями в нескольких задачах граундинга. Она показала высокую точность в нахождении и отделении регионов, даже когда они имели мелкие размеры и были плохо различимы. Были проведены сравнительные тесты со сторо-ны-стандартными моделями, что демонстрирует преимущества Med-GLIP в выделении точных границ регионов на медицинских изображениях.
## Значимость
Результаты Med-GLIP могут быть применены в различных областях, таких как визуальный анализ, визуальный вопросно-ответный режим (VQA) и автоматическое создание отчетов (ARG). Модель может существенно повысить точность и уменьшить время, необходимое для выполнения этих задач. Также, Med-GLIP может стать основополагающей системой для разработки более сложных систем в области интеллектуального диагностирования в медицине.
## Выводы
Наши исследования показали, что Med-GLIP не только превосходит текущие модели в задачах граундинга, но и может быть использовано для улучшения различных видов работ в медицинско
Abstract
Medical image grounding aims to align natural language phrases with specific
regions in medical images, serving as a foundational task for intelligent
diagnosis, visual question answering (VQA), and automated report generation
(MRG). However, existing research is constrained by limited modality coverage,
coarse-grained annotations, and the absence of a unified, generalizable
grounding framework. To address these challenges, we construct a large-scale
medical grounding dataset Med-GLIP-5M comprising over 5.3 million region-level
annotations across seven imaging modalities, covering diverse anatomical
structures and pathological findings. The dataset supports both segmentation
and grounding tasks with hierarchical region labels, ranging from organ-level
boundaries to fine-grained lesions. Based on this foundation, we propose
Med-GLIP, a modality-aware grounding framework trained on Med-GLIP-5M. Rather
than relying on explicitly designed expert modules, Med-GLIP implicitly
acquires hierarchical semantic understanding from diverse training data --
enabling it to recognize multi-granularity structures, such as distinguishing
lungs from pneumonia lesions. Extensive experiments demonstrate that Med-GLIP
consistently outperforms state-of-the-art baselines across multiple grounding
benchmarks. Furthermore, integrating its spatial outputs into downstream tasks,
including medical VQA and report generation, leads to substantial performance
gains. Our dataset will be released soon.
Ссылки и действия
Дополнительные ресурсы: