AMRG: Extend Vision Language Models for Automatic Mammography Report Generation

2508.09225v1 eess.IV, cs.AI, cs.CV 2025-08-15
Авторы:

Nak-Jun Sung, Donghyun Lee, Bo Hwa Choi, Chae Jung Park

Резюме на русском

## Контекст Маммографическая отчетность — это критическая задача в области медицинского искусственного интеллекта, характеризующаяся сложностями, такими как многоплоскостная разметка изображений, высокорезольвентные визуальные признаки и неструктурированная радиологическая лексикография. Несмотря на важность этой задачи, она остается недостаточно исследована. Существующие подходы часто ограничены в своих возможностях и не могут обеспечить стабильную и точную генерацию отчетов. Это привело к появлению значительного лага в развитии медицинских приложений, использующих мультимодальные подходы. Мотивация для этого исследования — заполнить этот пробел, обеспечив эффективную и точную систему для генерации маммографических отчетов, которая может быть использована в практических ситуациях. ## Метод Мы предлагаем AMRG (Automatic Mammography Report Generation) — первую комплексную систему для автоматической генерации маммографических отчетов на основе больших моделей визуально-языковых моделей (VLMs). Мы используем MedGemma-4B-it, доменно-специализированную инструкционно-уточненную модель, и применяем Low-Rank Adaptation (LoRA) в качестве метода параметрического оптимизационного адаптирования с минимальным потреблением ресурсов. Эта архитектура включает в себя несколько этапов: (1) подготовка входных данных, включая разметку изображений и текстовых отчетов; (2) основной этап обучения с использованием LoRA; (3) тестирование на отдельных наборах данных. Мы использовали DMID, открытый набор данных, который содержит многочисленные пары высокорезольвентных изображений и диагностических отчетов. ## Результаты Мы провести подробное экспериментальное исследование, используя различные модели VLM, включая общего назначения и домен-специализированные. Мы выполнили многочисленные эксперименты с различными конфигурациями LoRA, чтобы определить наилучшую комбинацию параметров. Наши результаты показали существенное улучшение в ключевых метриках, включая ROUGE-L (0.5691), METEOR (0.6152), CIDEr (0.5818) и BI-RADS accuracy (0.5582). Квалитативный анализ показал, что AMRG обеспечивает более точное воспроизведение диагностических признаков и снижает частоту халлуцинаций. ## Значимость Предлагаемая модель может быть применена в различных сценариях, включая помощь в обработке данных в радиологических центрах и создание консультационных отчетов для врачей. Она представляет собой важное дополнение к инструментам радиологического диагностирования и может улучшить точность диагностики и эффективность работы врачей. Благодаря тому, что AM

Abstract

Mammography report generation is a critical yet underexplored task in medical AI, characterized by challenges such as multiview image reasoning, high-resolution visual cues, and unstructured radiologic language. In this work, we introduce AMRG (Automatic Mammography Report Generation), the first end-to-end framework for generating narrative mammography reports using large vision-language models (VLMs). Building upon MedGemma-4B-it-a domain-specialized, instruction-tuned VLM-we employ a parameter-efficient fine-tuning (PEFT) strategy via Low-Rank Adaptation (LoRA), enabling lightweight adaptation with minimal computational overhead. We train and evaluate AMRG on DMID, a publicly available dataset of paired high-resolution mammograms and diagnostic reports. This work establishes the first reproducible benchmark for mammography report generation, addressing a longstanding gap in multimodal clinical AI. We systematically explore LoRA hyperparameter configurations and conduct comparative experiments across multiple VLM backbones, including both domain-specific and general-purpose models under a unified tuning protocol. Our framework demonstrates strong performance across both language generation and clinical metrics, achieving a ROUGE-L score of 0.5691, METEOR of 0.6152, CIDEr of 0.5818, and BI-RADS accuracy of 0.5582. Qualitative analysis further highlights improved diagnostic consistency and reduced hallucinations. AMRG offers a scalable and adaptable foundation for radiology report generation and paves the way for future research in multimodal medical AI.

Ссылки и действия