RoentMod: A Synthetic Chest X-Ray Modification Model to Identify and Correct Image Interpretation Model Shortcuts
2509.08640v1
eess.IV, cs.AI, cs.CV, I.4, I.2, J.3
2025-09-11
Авторы:
Lauren H. Cooke, Matthias Jung, Jan M. Brendel, Nora M. Kerkovits, Borek Foldyna, Michael T. Lu, Vineet K. Raghu
Резюме на русском
## Контекст
Автоматизация интерпретации радиологических изображений, включая рентгеновские снимки груди (CXRs), может снизить нагрузку на радиологов и расширить доступ к диагностическим услугам. Несмотря на успех динамичных нейронных сетей для CXR-интерпретации, эти модели часто сталкиваются с проблемой "коротких путей" (shortcut learning), когда они опираются на спуративные и неклинически значимые корреляции вместо клинически важных признаков. Эта проблема ограничивает точность и специфичность моделей, что является ключевым вызовом для развития надежных инструментов в медицинской интеллектуальной системе.
## Метод
RoentMod — это модель модификации изображений, основанная на открытом источнике RoentGen, которая генерирует реалистичные CXR-изображения с пользовательскими синтетическими патологиями. Она использует технологию модификации изображений (image-to-image), не требуя переучета целевой модели. Важной особенностью является возможность сохранения независимых анатомических черт оригинального снимка, что обеспечивает реалистичность и достоверность полученных изображений.
## Результаты
Радиологические эксперты проверили RoentMod-производимые изображения на реалистичность и правильность внедрения синтетических патологий. Результаты показали, что 93% изображений были оценены как реалистичные, а внедренные патологии были корректно отображены в 89-99% случаев. Более того, RoentMod сохраняет анатомические отличия с оригинальным снимком с точностью, приближенной к реальным следованиям. Эксперименты показали, что использование RoentMod для обучения моделей снижает их зависимость от спуративных корреляций, повышая точность и специфичность моделей на различных патологиях в пределах 3-19% AUC в внутренних испытаниях и 1-11% для 5 из 6 патологий во внешних тестах.
## Значимость
RoentMod представляет собой широко применяемую стратегию для идентификации и устранения проблем shortcut learning в моделях медицинского интеллектуального анализа. Она обеспечивает контролируемые интервенции в CXR-изображениях, улучшая их интерпретируемость и устойчивость. Эта модель может быть применена для проведения исследований в области создания надежных медицинских моделей искусственного интеллекта, а также для развития инновационных решений в области диагностики на основе изображений.
## Выводы
Результаты исследований подтверждают эффективность RoentMod в создании реалистичных CXR-изображений для проверки и изменения моделей CXR-интерпретации. Она способствует повышению их точности, специфичности и общей надежности. Будущие исследования будут сфокусированы на ра
Abstract
Chest radiographs (CXRs) are among the most common tests in medicine.
Automated image interpretation may reduce radiologists\' workload and expand
access to diagnostic expertise. Deep learning multi-task and foundation models
have shown strong performance for CXR interpretation but are vulnerable to
shortcut learning, where models rely on spurious and off-target correlations
rather than clinically relevant features to make decisions. We introduce
RoentMod, a counterfactual image editing framework that generates anatomically
realistic CXRs with user-specified, synthetic pathology while preserving
unrelated anatomical features of the original scan. RoentMod combines an
open-source medical image generator (RoentGen) with an image-to-image
modification model without requiring retraining. In reader studies with
board-certified radiologists and radiology residents, RoentMod-produced images
appeared realistic in 93\% of cases, correctly incorporated the specified
finding in 89-99\% of cases, and preserved native anatomy comparable to real
follow-up CXRs. Using RoentMod, we demonstrate that state-of-the-art multi-task
and foundation models frequently exploit off-target pathology as shortcuts,
limiting their specificity. Incorporating RoentMod-generated counterfactual
images during training mitigated this vulnerability, improving model
discrimination across multiple pathologies by 3-19\% AUC in internal validation
and by 1-11\% for 5 out of 6 tested pathologies in external testing. These
findings establish RoentMod as a broadly applicable tool for probing and
correcting shortcut learning in medical AI. By enabling controlled
counterfactual interventions, RoentMod enhances the robustness and
interpretability of CXR interpretation models and provides a generalizable
strategy for improving foundation models in medical imaging.