RoentMod: A Synthetic Chest X-Ray Modification Model to Identify and Correct Image Interpretation Model Shortcuts

2509.08640v1 eess.IV, cs.AI, cs.CV, I.4, I.2, J.3 2025-09-11
Авторы:

Lauren H. Cooke, Matthias Jung, Jan M. Brendel, Nora M. Kerkovits, Borek Foldyna, Michael T. Lu, Vineet K. Raghu

Резюме на русском

## Контекст Автоматизация интерпретации радиологических изображений, включая рентгеновские снимки груди (CXRs), может снизить нагрузку на радиологов и расширить доступ к диагностическим услугам. Несмотря на успех динамичных нейронных сетей для CXR-интерпретации, эти модели часто сталкиваются с проблемой "коротких путей" (shortcut learning), когда они опираются на спуративные и неклинически значимые корреляции вместо клинически важных признаков. Эта проблема ограничивает точность и специфичность моделей, что является ключевым вызовом для развития надежных инструментов в медицинской интеллектуальной системе. ## Метод RoentMod — это модель модификации изображений, основанная на открытом источнике RoentGen, которая генерирует реалистичные CXR-изображения с пользовательскими синтетическими патологиями. Она использует технологию модификации изображений (image-to-image), не требуя переучета целевой модели. Важной особенностью является возможность сохранения независимых анатомических черт оригинального снимка, что обеспечивает реалистичность и достоверность полученных изображений. ## Результаты Радиологические эксперты проверили RoentMod-производимые изображения на реалистичность и правильность внедрения синтетических патологий. Результаты показали, что 93% изображений были оценены как реалистичные, а внедренные патологии были корректно отображены в 89-99% случаев. Более того, RoentMod сохраняет анатомические отличия с оригинальным снимком с точностью, приближенной к реальным следованиям. Эксперименты показали, что использование RoentMod для обучения моделей снижает их зависимость от спуративных корреляций, повышая точность и специфичность моделей на различных патологиях в пределах 3-19% AUC в внутренних испытаниях и 1-11% для 5 из 6 патологий во внешних тестах. ## Значимость RoentMod представляет собой широко применяемую стратегию для идентификации и устранения проблем shortcut learning в моделях медицинского интеллектуального анализа. Она обеспечивает контролируемые интервенции в CXR-изображениях, улучшая их интерпретируемость и устойчивость. Эта модель может быть применена для проведения исследований в области создания надежных медицинских моделей искусственного интеллекта, а также для развития инновационных решений в области диагностики на основе изображений. ## Выводы Результаты исследований подтверждают эффективность RoentMod в создании реалистичных CXR-изображений для проверки и изменения моделей CXR-интерпретации. Она способствует повышению их точности, специфичности и общей надежности. Будущие исследования будут сфокусированы на ра

Abstract

Chest radiographs (CXRs) are among the most common tests in medicine. Automated image interpretation may reduce radiologists\' workload and expand access to diagnostic expertise. Deep learning multi-task and foundation models have shown strong performance for CXR interpretation but are vulnerable to shortcut learning, where models rely on spurious and off-target correlations rather than clinically relevant features to make decisions. We introduce RoentMod, a counterfactual image editing framework that generates anatomically realistic CXRs with user-specified, synthetic pathology while preserving unrelated anatomical features of the original scan. RoentMod combines an open-source medical image generator (RoentGen) with an image-to-image modification model without requiring retraining. In reader studies with board-certified radiologists and radiology residents, RoentMod-produced images appeared realistic in 93\% of cases, correctly incorporated the specified finding in 89-99\% of cases, and preserved native anatomy comparable to real follow-up CXRs. Using RoentMod, we demonstrate that state-of-the-art multi-task and foundation models frequently exploit off-target pathology as shortcuts, limiting their specificity. Incorporating RoentMod-generated counterfactual images during training mitigated this vulnerability, improving model discrimination across multiple pathologies by 3-19\% AUC in internal validation and by 1-11\% for 5 out of 6 tested pathologies in external testing. These findings establish RoentMod as a broadly applicable tool for probing and correcting shortcut learning in medical AI. By enabling controlled counterfactual interventions, RoentMod enhances the robustness and interpretability of CXR interpretation models and provides a generalizable strategy for improving foundation models in medical imaging.

Ссылки и действия