State of Abdominal CT Datasets: A Critical Review of Bias, Clinical Relevance, and Real-world Applicability

2508.13626v1 eess.IV, cs.CV 2025-08-21
Авторы:

Saeide Danaei, Zahra Dehghanian, Elahe Meftah, Nariman Naderi, Seyed Amir Ahmad Safavi-Naini, Faeze Khorasanizade, Hamid R. Rabiee

Резюме на русском

## Контекст Диагностика и лечение заболеваний желудка и кишечника часто привлекают искусственный интеллект (AI) для повышения точности и эффективности. Однако доступные для исследований абдоминальные компьютерно-томографические (CT) данные часто сталкиваются с проблемами, такими как дублирование данных, недостаточное представление различных пациентских групп и наличие биаса, которые ограничивают их применимость в реальной клинической практике. Эти проблемы влияют на разработку AI-моделей, которые должны быть как клинически значимыми, так и честными в разных регионах мира. ## Метод Для подробного анализа были изучены 46 публично доступных абдоминальных CT-данных, содержащих 50 256 исследований. На каждом этапе исследования применялись методы классического статистического анализа и техник машинного обучения для определения уровня биаса, сравнения данных и определения клинической значимости. Были проанализованы типы биаса, включая дублирование данных, селективный биас и доменный сдвиг, чтобы оценить влияние этих факторов на обучение AI-моделей. ## Результаты Установлено, что 59,1% данных является повторением, и 75,3% данных поступило из Северной Европы и Северной Америки. У 19 наиболее крупных наборов данных (с 100 и более случаями) было выявлено высокий уровень биаса. Наиболее частыми проблемами были доменный сдвиг (63%) и селективный биас (57%), что может привести к ограниченной общеукладности моделей в различных клинических условиях. Помимо этого, проанализованы характеристики пациентов и имеющиеся данные, чтобы обеспечить многоуровневый анализ значимости. ## Значимость Эти данные могут применяться в различных областях, включая разработку AI-систем для диагностики заболеваний желудка и кишечника, анализа качества изображений и повышения диагностической точности. Благодаря созданию более разнообразных и представительных данных можно повысить уровень общеукладности AI-моделей и улучшить клинический результат в ресурсораспределенных условиях. ## Выводы Основным достижением является выявление основных проблем, связанных с данными для обучения AI-систем в области абдоминальной томографии. На будущее предлагается создание многоуровневых, кросс-институтских данных, реализация стандартизированных протоколов и увеличение представительности различных пациентских групп. Эти меры помогут в развитии более справедливых и клинически значимых AI-моделей для решения проблем в области абдоминальной томографии.

Abstract

This systematic review critically evaluates publicly available abdominal CT datasets and their suitability for artificial intelligence (AI) applications in clinical settings. We examined 46 publicly available abdominal CT datasets (50,256 studies). Across all 46 datasets, we found substantial redundancy (59.1\% case reuse) and a Western/geographic skew (75.3\% from North America and Europe). A bias assessment was performed on the 19 datasets with >=100 cases; within this subset, the most prevalent high-risk categories were domain shift (63\%) and selection bias (57\%), both of which may undermine model generalizability across diverse healthcare environments -- particularly in resource-limited settings. To address these challenges, we propose targeted strategies for dataset improvement, including multi-institutional collaboration, adoption of standardized protocols, and deliberate inclusion of diverse patient populations and imaging technologies. These efforts are crucial in supporting the development of more equitable and clinically robust AI models for abdominal imaging.

Ссылки и действия