AMRG: Extend Vision Language Models for Automatic Mammography Report Generation
2508.09225v1
eess.IV, cs.AI, cs.CV
2025-08-15
Авторы:
Nak-Jun Sung, Donghyun Lee, Bo Hwa Choi, Chae Jung Park
Резюме на русском
## Контекст
Маммографическая отчетность — это критическая задача в области медицинского искусственного интеллекта, характеризующаяся сложностями, такими как многоплоскостная разметка изображений, высокорезольвентные визуальные признаки и неструктурированная радиологическая лексикография. Несмотря на важность этой задачи, она остается недостаточно исследована. Существующие подходы часто ограничены в своих возможностях и не могут обеспечить стабильную и точную генерацию отчетов. Это привело к появлению значительного лага в развитии медицинских приложений, использующих мультимодальные подходы. Мотивация для этого исследования — заполнить этот пробел, обеспечив эффективную и точную систему для генерации маммографических отчетов, которая может быть использована в практических ситуациях.
## Метод
Мы предлагаем AMRG (Automatic Mammography Report Generation) — первую комплексную систему для автоматической генерации маммографических отчетов на основе больших моделей визуально-языковых моделей (VLMs). Мы используем MedGemma-4B-it, доменно-специализированную инструкционно-уточненную модель, и применяем Low-Rank Adaptation (LoRA) в качестве метода параметрического оптимизационного адаптирования с минимальным потреблением ресурсов. Эта архитектура включает в себя несколько этапов: (1) подготовка входных данных, включая разметку изображений и текстовых отчетов; (2) основной этап обучения с использованием LoRA; (3) тестирование на отдельных наборах данных. Мы использовали DMID, открытый набор данных, который содержит многочисленные пары высокорезольвентных изображений и диагностических отчетов.
## Результаты
Мы провести подробное экспериментальное исследование, используя различные модели VLM, включая общего назначения и домен-специализированные. Мы выполнили многочисленные эксперименты с различными конфигурациями LoRA, чтобы определить наилучшую комбинацию параметров. Наши результаты показали существенное улучшение в ключевых метриках, включая ROUGE-L (0.5691), METEOR (0.6152), CIDEr (0.5818) и BI-RADS accuracy (0.5582). Квалитативный анализ показал, что AMRG обеспечивает более точное воспроизведение диагностических признаков и снижает частоту халлуцинаций.
## Значимость
Предлагаемая модель может быть применена в различных сценариях, включая помощь в обработке данных в радиологических центрах и создание консультационных отчетов для врачей. Она представляет собой важное дополнение к инструментам радиологического диагностирования и может улучшить точность диагностики и эффективность работы врачей. Благодаря тому, что AM
Abstract
Mammography report generation is a critical yet underexplored task in medical
AI, characterized by challenges such as multiview image reasoning,
high-resolution visual cues, and unstructured radiologic language. In this
work, we introduce AMRG (Automatic Mammography Report Generation), the first
end-to-end framework for generating narrative mammography reports using large
vision-language models (VLMs). Building upon MedGemma-4B-it-a
domain-specialized, instruction-tuned VLM-we employ a parameter-efficient
fine-tuning (PEFT) strategy via Low-Rank Adaptation (LoRA), enabling
lightweight adaptation with minimal computational overhead. We train and
evaluate AMRG on DMID, a publicly available dataset of paired high-resolution
mammograms and diagnostic reports. This work establishes the first reproducible
benchmark for mammography report generation, addressing a longstanding gap in
multimodal clinical AI. We systematically explore LoRA hyperparameter
configurations and conduct comparative experiments across multiple VLM
backbones, including both domain-specific and general-purpose models under a
unified tuning protocol. Our framework demonstrates strong performance across
both language generation and clinical metrics, achieving a ROUGE-L score of
0.5691, METEOR of 0.6152, CIDEr of 0.5818, and BI-RADS accuracy of 0.5582.
Qualitative analysis further highlights improved diagnostic consistency and
reduced hallucinations. AMRG offers a scalable and adaptable foundation for
radiology report generation and paves the way for future research in multimodal
medical AI.
Ссылки и действия
Дополнительные ресурсы: