Clinically-guided Data Synthesis for Laryngeal Lesion Detection

2508.06182v1 eess.IV, cs.CV 2025-08-12

Авторы:

Chiara Baldini, Kaisar Kushibar, Richard Osuala, Simone Balocco, Oliver Diaz, Karim Lekadir, Leonardo S. Mattos

Резюме на русском

## Контекст Отрасль оториноларингологии сталкивается с ограниченными возможностями в использовании компьютерного зрения для диагностики и оценки заболеваний. Одним из ключевых ограничений является нехватка высококачественных тренировочных данных, представляющих разнообразие клинических ситуаций. Это нарушает эффективность существующих систем компьютерной помощи в диагностике (CADx) и детекции (CADe), которые требуют больших наборов данных для обучения и тестирования. Основные проблемы включают нехватку разнообразия в данных, высокую разнообразию и сложность признаков заболеваний, а также высокую зависимость от опыта оператора. Несмотря на достижения в CADx/e, эти системы все еще не достаточно широко применяются в практике, что приводит к необходимости развития методов, которые могут улучшить качество и надежность диагностики в оториноларингологии. ## Метод В этой работе предлагается использовать Latent Diffusion Model (LDM) с ControlNet adapter для генерации синтетических изображений изображений гортани, аннотированных клиническими данными. Метод строится на основе модели LDM, которая использует процесс диффузии для генерации реалистичных изображений, кондиционированных на клинические признаки. ControlNet adapter позволяет управлять этим процессом, чтобы генерировать изображения с клинически важными признаками. Этот подход решает проблему нехватки данных, расширяя наборы тренировочных данных для CADx/e. Использованные данные включают реальные изображения гортани, откуда были сгенерированы синтетические аналоги с клиническими признаками, чтобы улучшить качество моделей диагностики. ## Результаты В экспериментах были проведены тесты на различных данных, включая реальные и синтетические изображения. Добавление 10% синтетических данных улучшило точность детекции заболеваний на 9% во внутреннем тестировании и на 22.1% во внешнем тестировании. Кроме того, специалисты по оториноларингологии оценили реализм сгенерированных изображений, выбирая, рассматривают ли они их как реальные или синтетические. Результаты показали, что синтетические данные были сбалансированы и реалистичными, что подтвердило их качество и полезность в тренировочных наборах данных. ## Значимость Предложенный подход может быть применен в различных областях, где нехватка данных является критическим ограничением для развития систем CADx/e. Он демонстрирует возможность использования синтетических данных для расширения наборов тренировочных данных и улучшения точности диагностики. Это может привести к более доступным и надежным системам диагностики для оториноларингологии, снижая зависимость от опыта оператора и ра

Abstract

Although computer-aided diagnosis (CADx) and detection (CADe) systems have made significant progress in various medical domains, their application is still limited in specialized fields such as otorhinolaryngology. In the latter, current assessment methods heavily depend on operator expertise, and the high heterogeneity of lesions complicates diagnosis, with biopsy persisting as the gold standard despite its substantial costs and risks. A critical bottleneck for specialized endoscopic CADx/e systems is the lack of well-annotated datasets with sufficient variability for real-world generalization. This study introduces a novel approach that exploits a Latent Diffusion Model (LDM) coupled with a ControlNet adapter to generate laryngeal endoscopic image-annotation pairs, guided by clinical observations. The method addresses data scarcity by conditioning the diffusion process to produce realistic, high-quality, and clinically relevant image features that capture diverse anatomical conditions. The proposed approach can be leveraged to expand training datasets for CADx/e models, empowering the assessment process in laryngology. Indeed, during a downstream task of detection, the addition of only 10% synthetic data improved the detection rate of laryngeal lesions by 9% when the model was internally tested and 22.1% on out-of-domain external data. Additionally, the realism of the generated images was evaluated by asking 5 expert otorhinolaryngologists with varying expertise to rate their confidence in distinguishing synthetic from real images. This work has the potential to accelerate the development of automated tools for laryngeal disease diagnosis, offering a solution to data scarcity and demonstrating the applicability of synthetic data in real-world scenarios.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Clinically-guided Data Synthesis for Laryngeal Lesion Detection

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Disentangling Progress in Medical Image Registration: Beyond Trend-Driven Archit...

ColonAdapter: Geometry Estimation Through Foundation Model Adaptation for Colono...

Content Adaptive Encoding For Interactive Game Streaming

Hard Spatial Gating for Precision-Driven Brain Metastasis Segmentation: Addressi...

Comparing SAM 2 and SAM 3 for Zero-Shot Segmentation of 3D Medical Data

Навигация