Validation of a CT-brain analysis tool for measuring global cortical atrophy in older patient cohorts
2509.08012v1
eess.IV, cs.AI, cs.CV, I.2; I.4
2025-09-11
Авторы:
Sukhdeep Bal, Emma Colbourne, Jasmine Gan, Ludovica Griffanti, Taylor Hanayik, Nele Demeyere, Jim Davies, Sarah T Pendlebury, Mark Jenkinson
Резюме на русском
#### Контекст
Квалификация симптомов сосудистой дегенерации мозга (СДМ), таких как глобальная коральная атрофия (GCA), крайне важна для диагностики и мониторинга заболеваний, связанных с возрастом, таких как деменция. Существующие методы оценки GCA, такие как визуальные линейки, требуют долгого времени и требуют опытного квалифицированного специалиста. Однако автоматизированные методы оценки, использующие глубокое обучение (DL), могут увеличить точность и эффективность диагностических процессов. Наша исследовательская группа разработала и протестировала DL-инструмент для измерения GCA, нацеленный на решение этих проблем.
#### Метод
Мы разработали и проверили DL-инструмент на основе глубокого обучения для измерения GCA. Исходные данные состояли из 864 сканов головного мозга, полученных с помощью компьютерной томографии (CT) от пациентов старше 65 лет, включая пациентов с очаговой тромбозной тромбоэмболической инсультной атакой (OCS) и больных в больнице активной медицины (ORCHARD-EPR). Данные разделены на три подвыборки в соотношении 60/20/20 для обучения, оптимизации и тестирования. Двум врачебным экспертам были предоставлены 864 скана, и их оценки были сравнены с оценками DL-инструмента, используя метрики, такие как масса абсолютной ошибки (MAE) и коэффициент Коэна.
#### Результаты
Из 864 сканов, MAE между оценками DL-инструмента и оценками первого оценщика было 3,2 для всех сканов, 3,1 для OCS, 3,3 для ORCHARD-EPR и 2,6 для легаси-сканов. Для половины сканов, разница между оценками DL-инструмента и первого оценщика составила от -2 до 2. Доверительный интервал для ошибки между оценками DL-инструмента и первого оценщика был установлен в пределах [-2; 2]. Выявленные различия в GCA-оценках DL-инструмента и оценках оценщиков не были значимы (односторонний ANOVA, p=0,35), а также не было значимых различий в средних GCA-оценках DL-инструмента и оценках первого оценщика (t-тест, p=0,66), второго оценщика (t=1,35, p=0,18) и между первым и вторым оценщиками (t=0,99, p=0,32). Оценки DL-инструмента GCA были сильно скоррелированы с возрастом и скоростью злокачественного старения (Kendall's tau, p<0,001).
#### Значимость
Наш DL-инструмент демонстрирует высокую точность в измерении GCA без необходимости вручную вводить данные. Он может быть использован для извлечения стандартизированных мер атрофии на большом масштабе, что позволит улучшить диагностические процессы и поддержать исследования в области старения и деменции. Это
Abstract
Quantification of brain atrophy currently requires visual rating scales which
are time consuming and automated brain image analysis is warranted. We
validated our automated deep learning (DL) tool measuring the Global Cerebral
Atrophy (GCA) score against trained human raters, and associations with age and
cognitive impairment, in representative older (>65 years) patients. CT-brain
scans were obtained from patients in acute medicine (ORCHARD-EPR), acute stroke
(OCS studies) and a legacy sample. Scans were divided in a 60/20/20 ratio for
training, optimisation and testing. CT-images were assessed by two trained
raters (rater-1=864 scans, rater-2=20 scans). Agreement between DL
tool-predicted GCA scores (range 0-39) and the visual ratings was evaluated
using mean absolute error (MAE) and Cohen's weighted kappa. Among 864 scans
(ORCHARD-EPR=578, OCS=200, legacy scans=86), MAE between the DL tool and
rater-1 GCA scores was 3.2 overall, 3.1 for ORCHARD-EPR, 3.3 for OCS and 2.6
for the legacy scans and half had DL-predicted GCA error between -2 and 2.
Inter-rater agreement was Kappa=0.45 between the DL-tool and rater-1, and 0.41
between the tool and rater- 2 whereas it was lower at 0.28 for rater-1 and
rater-2. There was no difference in GCA scores from the DL-tool and the two
raters (one-way ANOVA, p=0.35) or in mean GCA scores between the DL-tool and
rater-1 (paired t-test, t=-0.43, p=0.66), the tool and rater-2 (t=1.35, p=0.18)
or between rater-1 and rater-2 (t=0.99, p=0.32). DL-tool GCA scores correlated
with age and cognitive scores (both p<0.001). Our DL CT-brain analysis tool
measured GCA score accurately and without user input in real-world scans
acquired from older patients. Our tool will enable extraction of standardised
quantitative measures of atrophy at scale for use in health data research and
will act as proof-of-concept towards a point-of-care clinically approved tool.