Towards Comprehensive Cellular Characterisation of H&E slides
2508.09926v1
cs.CV, q-bio.QM, I.2.10; I.4.8
2025-08-15
Авторы:
Benjamin Adjadj, Pierre-Antoine Bannier, Guillaume Horent, Sebastien Mandela, Aurore Lyon, Kathryn Schutte, Ulysse Marteau, Valentin Gaury, Laura Dumont, Thomas Mathieu, Reda Belbahri, Benoît Schmauch, Eric Durand, Katharina Von Loga, Lucie Gillet
Резюме на русском
## Контекст
В рамках анализа течения рака и разработки новых терапевтических стратегий важно характеризовать как можно получше тканевые микроокружения (TME), включая различные типы клеток. Однако, существующие методы, основанные на исследовании слайдов с лейкоцитами (H&E), часто страдают от недостатков в обнаружении редких типов клеток и недостаточной переносимости к различным канцерогенных индикациям. Эти ограничения имеют влияние на объём и качество получаемых научных данных. Мы предлагаем **HistoPLUS**, современную модель для анализа клеток, которая решает эти проблемы, повышая качество обнаружения и классификации клеток в различных типах канцеров.
## Метод
**HistoPLUS** - это модель, основанная на архитектуре Vision Transformer (ViT), которая использует новую базу данных **Pan-Cancer Histology**, содержащую 108,722 ядер клеток, относящихся к 13 различных типов. База данных была тщательно проконтролирована и курдирована для различных типов рака, позволяя модели учиться распознавать редкие клетки. Метод включает в себя обучение на трёх задачах: обнаружение, сегментацию и классификацию клеток. Мы также внедрили техники, улучшающие производительность и общую переносимость модели.
## Результаты
Мы проверили **HistoPLUS** на четырёх независимых когортах, сравнив её с текущими лучшими моделями. Модель показала ощутимый выигрыш в качестве детектирования клеток (+5.2%) и в общем F1-score классификации (+23.7%). Благодаря специальному фокусу на редкие типы клеток, **HistoPLUS** улучшилась в 8 из 13 типов клеток, в том числе, включила в своё распознавание 7 новых редких типов клеток. Мы также проверили то, насколько модель переносится к двум неизвестным индикациям, и получили заметные улучшения в классификации.
## Значимость
Модель **HistoPLUS** может использоваться в различных областях онкологии, таких как заболевания крови, легких и кожи. Она обеспечивает значительные улучшения в характеризации TME, позволяя вести исследования на более высоком уровне. Благодаря расширенной переносимости и высокому качеству, HistoPLUS может быть применена для разработки новых биомаркеров и поддержки клинических решений. Наши результаты показывают, что модель является отличным инструментом для повышения качества исследований в области онкологии.
## Выводы
Мы представили модель **HistoPLUS**, которая существенно улучшает обнаружение, сегментацию и классификацию клеток в H&E слайдах. Наша работа открывает путь к более точному и широкому анализу TME и может быть использована для развития новых терапевтических подходов. Мы также опубликовали модель и код в от
Abstract
Cell detection, segmentation and classification are essential for analyzing
tumor microenvironments (TME) on hematoxylin and eosin (H&E) slides. Existing
methods suffer from poor performance on understudied cell types (rare or not
present in public datasets) and limited cross-domain generalization. To address
these shortcomings, we introduce HistoPLUS, a state-of-the-art model for cell
analysis, trained on a novel curated pan-cancer dataset of 108,722 nuclei
covering 13 cell types. In external validation across 4 independent cohorts,
HistoPLUS outperforms current state-of-the-art models in detection quality by
5.2% and overall F1 classification score by 23.7%, while using 5x fewer
parameters. Notably, HistoPLUS unlocks the study of 7 understudied cell types
and brings significant improvements on 8 of 13 cell types. Moreover, we show
that HistoPLUS robustly transfers to two oncology indications unseen during
training. To support broader TME biomarker research, we release the model
weights and inference code at https://github.com/owkin/histoplus/.