Validation of a CT-brain analysis tool for measuring global cortical atrophy in older patient cohorts

2509.08012v1 eess.IV, cs.AI, cs.CV, I.2; I.4 2025-09-11
Авторы:

Sukhdeep Bal, Emma Colbourne, Jasmine Gan, Ludovica Griffanti, Taylor Hanayik, Nele Demeyere, Jim Davies, Sarah T Pendlebury, Mark Jenkinson

Резюме на русском

#### Контекст Квалификация симптомов сосудистой дегенерации мозга (СДМ), таких как глобальная коральная атрофия (GCA), крайне важна для диагностики и мониторинга заболеваний, связанных с возрастом, таких как деменция. Существующие методы оценки GCA, такие как визуальные линейки, требуют долгого времени и требуют опытного квалифицированного специалиста. Однако автоматизированные методы оценки, использующие глубокое обучение (DL), могут увеличить точность и эффективность диагностических процессов. Наша исследовательская группа разработала и протестировала DL-инструмент для измерения GCA, нацеленный на решение этих проблем. #### Метод Мы разработали и проверили DL-инструмент на основе глубокого обучения для измерения GCA. Исходные данные состояли из 864 сканов головного мозга, полученных с помощью компьютерной томографии (CT) от пациентов старше 65 лет, включая пациентов с очаговой тромбозной тромбоэмболической инсультной атакой (OCS) и больных в больнице активной медицины (ORCHARD-EPR). Данные разделены на три подвыборки в соотношении 60/20/20 для обучения, оптимизации и тестирования. Двум врачебным экспертам были предоставлены 864 скана, и их оценки были сравнены с оценками DL-инструмента, используя метрики, такие как масса абсолютной ошибки (MAE) и коэффициент Коэна. #### Результаты Из 864 сканов, MAE между оценками DL-инструмента и оценками первого оценщика было 3,2 для всех сканов, 3,1 для OCS, 3,3 для ORCHARD-EPR и 2,6 для легаси-сканов. Для половины сканов, разница между оценками DL-инструмента и первого оценщика составила от -2 до 2. Доверительный интервал для ошибки между оценками DL-инструмента и первого оценщика был установлен в пределах [-2; 2]. Выявленные различия в GCA-оценках DL-инструмента и оценках оценщиков не были значимы (односторонний ANOVA, p=0,35), а также не было значимых различий в средних GCA-оценках DL-инструмента и оценках первого оценщика (t-тест, p=0,66), второго оценщика (t=1,35, p=0,18) и между первым и вторым оценщиками (t=0,99, p=0,32). Оценки DL-инструмента GCA были сильно скоррелированы с возрастом и скоростью злокачественного старения (Kendall's tau, p<0,001). #### Значимость Наш DL-инструмент демонстрирует высокую точность в измерении GCA без необходимости вручную вводить данные. Он может быть использован для извлечения стандартизированных мер атрофии на большом масштабе, что позволит улучшить диагностические процессы и поддержать исследования в области старения и деменции. Это

Abstract

Quantification of brain atrophy currently requires visual rating scales which are time consuming and automated brain image analysis is warranted. We validated our automated deep learning (DL) tool measuring the Global Cerebral Atrophy (GCA) score against trained human raters, and associations with age and cognitive impairment, in representative older (>65 years) patients. CT-brain scans were obtained from patients in acute medicine (ORCHARD-EPR), acute stroke (OCS studies) and a legacy sample. Scans were divided in a 60/20/20 ratio for training, optimisation and testing. CT-images were assessed by two trained raters (rater-1=864 scans, rater-2=20 scans). Agreement between DL tool-predicted GCA scores (range 0-39) and the visual ratings was evaluated using mean absolute error (MAE) and Cohen's weighted kappa. Among 864 scans (ORCHARD-EPR=578, OCS=200, legacy scans=86), MAE between the DL tool and rater-1 GCA scores was 3.2 overall, 3.1 for ORCHARD-EPR, 3.3 for OCS and 2.6 for the legacy scans and half had DL-predicted GCA error between -2 and 2. Inter-rater agreement was Kappa=0.45 between the DL-tool and rater-1, and 0.41 between the tool and rater- 2 whereas it was lower at 0.28 for rater-1 and rater-2. There was no difference in GCA scores from the DL-tool and the two raters (one-way ANOVA, p=0.35) or in mean GCA scores between the DL-tool and rater-1 (paired t-test, t=-0.43, p=0.66), the tool and rater-2 (t=1.35, p=0.18) or between rater-1 and rater-2 (t=0.99, p=0.32). DL-tool GCA scores correlated with age and cognitive scores (both p<0.001). Our DL CT-brain analysis tool measured GCA score accurately and without user input in real-world scans acquired from older patients. Our tool will enable extraction of standardised quantitative measures of atrophy at scale for use in health data research and will act as proof-of-concept towards a point-of-care clinically approved tool.

Ссылки и действия