Automated Cervical Os Segmentation for Camera-Guided, Speculum-Free Screening
2509.10593v1
eess.IV, cs.CV
2025-09-17
Авторы:
Aoife McDonald-Bowyer, Anjana Wijekoon, Ryan Laurance Love, Katie Allan, Scott Colvin, Aleksandra Gentry-Maharaj, Adeola Olaitan, Danail Stoyanov, Agostino Stilli, Sophia Bano
Резюме на русском
## Контекст
Острый нуждающийся в эффективных и доступных критериях, а также в новых технологиях для повышения доступности и качества врачебных услуг для профилактики рака шейки матки. Доступ к технологическим процедурам, таким как видеоэндоскопическое обследование спекула-фри систем, ограничен в многих низкодоходных регионах, например в Украине. Однако технические вызовы, такие как необходимость в реальном времени автоматической детекции и сегментации являются ключевыми проблемами, которые необходимо решить для улучшения доступа к таким услугам.
## Метод
Для анализа изображений использованы модели сверточных нейронных сетей (CNN), а также модели визуальных трансформеров (Vision Transformers, ViT). Эти модели были обучены на наборе данных IARC Cervical Image Dataset, который включает 913 изображений специального типа, подготовленных экспертами. Методы сравнения включили такие метрики, как IoU (Интерсекция Угол), DICE (ДИСЕ), детекционный курс, и метрики расстояний. Обучение проводилось с использованием 10-кратного кросс-валидации. Также проведена внешняя валидация с использованием фантомных данных для оценки устойчивости модели к разным условиям.
## Результаты
В результате экспериментов, а также полученных результатов, была определена модель EndoViT/DPT, основанная на визуальном трансформере, которая показала наилучший результат по метрике DICE (0.50 ± 0.31) и детекционному курсу (0.87 ± 0.33). Это модель превысила другие CNN-модели по этим критериям. Внешней валидацией демонстрируется устойчивость модели к разным условиям видео, в том числе с меняющимися освещением и цветовыми характеристиками. Используя этот подход, модель работает в реальном времени с скоростью 21.5 изображений в секунду.
## Значимость
Полученные результаты могут быть применены для создания системы видеоэндоскопического мониторинга спекула-фри, которая поможет гинекологам в реальном времени диагностировать рак шейки матки. Это может существенно повысить доступность и качество лечения, особенно в низкодоходных странах и местах с ограниченным доступом к медицинским технологиям.
## Выводы
Результаты демонстрируют возможность использования моделей визуальных трансформеров для реального времени сегментации яичника шейки матки в видеоизображениях. Это может стать основой для развития новых технологий в области профилактики и диагностики рака шейки матки, повышая доступность и качество медицинских услуг в разных регионах. Будущие исследования будут направлены на улучшение модели и расширение ее применения в различ
Abstract
Cervical cancer is highly preventable, yet persistent barriers to screening
limit progress toward elimination goals. Speculum-free devices that integrate
imaging and sampling could improve access, particularly in low-resource
settings, but require reliable visual guidance. This study evaluates deep
learning methods for real-time segmentation of the cervical os in transvaginal
endoscopic images. Five encoder-decoder architectures were compared using 913
frames from 200 cases in the IARC Cervical Image Dataset, annotated by
gynaecologists. Performance was assessed using IoU, DICE, detection rate, and
distance metrics with ten-fold cross-validation. EndoViT/DPT, a vision
transformer pre-trained on surgical video, achieved the highest DICE (0.50 \pm
0.31) and detection rate (0.87 \pm 0.33), outperforming CNN-based approaches.
External validation with phantom data demonstrated robust segmentation under
variable conditions at 21.5 FPS, supporting real-time feasibility. These
results establish a foundation for integrating automated os recognition into
speculum-free cervical screening devices to support non-expert use in both
high- and low-resource contexts.
Ссылки и действия
Дополнительные ресурсы: