Med-GLIP: Advancing Medical Language-Image Pre-training with Large-scale Grounded Dataset

2508.10528v1 cs.CV, cs.AI 2025-08-16

Авторы:

Ziye Deng, Ruihan He, Jiaxiang Liu, Yuan Wang, Zijie Meng, Songtao Jiang, Yong Xie, Zuozhu Liu

Резюме на русском

## Контекст Исследование связи между языковыми фразами и регионами медицинских изображений, известное как medical image grounding, является ключевым элементом для развития интеллектуальных систем в области медицины. Оно фундаментально важно для задач таких как визуальный анализ, визуальный вопросно-ответный режим (Visual Question Answering, VQA) и автоматическое создание отчетов (Automated Report Generation, ARG). Несмотря на это, существующие исследования сталкиваются с ограничениями в объеме и разнообразии данных, а также с недостатком универсального фреймворка для обработки этих задач. Мотивация для данного исследования заключается в том, чтобы устранить эти ограничения и создать эффективную систему, которая могла бы обрабатывать изображения по сразу нескольким областям и предоставлять точные региональные аннотации. ## Метод Методология исследования основывается на создании большого медицинского датасета, Med-GLIP-5M, включающего 5,3 миллиона записей, касающихся регионов в медицинских изображениях. Данный датасет покрывает семь различных медицинских модалитетов и поддерживает как сегментационные, так и граундингские задачи. Он включает в себя многоуровневые лейблы, которые позволяют отличать заболевания на разных уровнях, от органов до тонкого разбора частных мест. Для решения проблемы недостатка универсальных фреймворков для обработки этих задач, мы предлагаем Med-GLIP, модель, которая воспринимает семантику на разных уровнях гранулярности и может различать между органами и патологическими очагами. ## Результаты В ходе экспериментов, проведенных на Med-GLIP-5M, модель Med-GLIP показала существенное превосходство над текущими стандартными моделями в нескольких задачах граундинга. Она показала высокую точность в нахождении и отделении регионов, даже когда они имели мелкие размеры и были плохо различимы. Были проведены сравнительные тесты со сторо-ны-стандартными моделями, что демонстрирует преимущества Med-GLIP в выделении точных границ регионов на медицинских изображениях. ## Значимость Результаты Med-GLIP могут быть применены в различных областях, таких как визуальный анализ, визуальный вопросно-ответный режим (VQA) и автоматическое создание отчетов (ARG). Модель может существенно повысить точность и уменьшить время, необходимое для выполнения этих задач. Также, Med-GLIP может стать основополагающей системой для разработки более сложных систем в области интеллектуального диагностирования в медицине. ## Выводы Наши исследования показали, что Med-GLIP не только превосходит текущие модели в задачах граундинга, но и может быть использовано для улучшения различных видов работ в медицинско

Abstract

Medical image grounding aims to align natural language phrases with specific regions in medical images, serving as a foundational task for intelligent diagnosis, visual question answering (VQA), and automated report generation (MRG). However, existing research is constrained by limited modality coverage, coarse-grained annotations, and the absence of a unified, generalizable grounding framework. To address these challenges, we construct a large-scale medical grounding dataset Med-GLIP-5M comprising over 5.3 million region-level annotations across seven imaging modalities, covering diverse anatomical structures and pathological findings. The dataset supports both segmentation and grounding tasks with hierarchical region labels, ranging from organ-level boundaries to fine-grained lesions. Based on this foundation, we propose Med-GLIP, a modality-aware grounding framework trained on Med-GLIP-5M. Rather than relying on explicitly designed expert modules, Med-GLIP implicitly acquires hierarchical semantic understanding from diverse training data -- enabling it to recognize multi-granularity structures, such as distinguishing lungs from pneumonia lesions. Extensive experiments demonstrate that Med-GLIP consistently outperforms state-of-the-art baselines across multiple grounding benchmarks. Furthermore, integrating its spatial outputs into downstream tasks, including medical VQA and report generation, leads to substantial performance gains. Our dataset will be released soon.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Med-GLIP: Advancing Medical Language-Image Pre-training with Large-scale Grounded Dataset

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация