Clinically-guided Data Synthesis for Laryngeal Lesion Detection
2508.06182v1
eess.IV, cs.CV
2025-08-12
Авторы:
Chiara Baldini, Kaisar Kushibar, Richard Osuala, Simone Balocco, Oliver Diaz, Karim Lekadir, Leonardo S. Mattos
Резюме на русском
## Контекст
Отрасль оториноларингологии сталкивается с ограниченными возможностями в использовании компьютерного зрения для диагностики и оценки заболеваний. Одним из ключевых ограничений является нехватка высококачественных тренировочных данных, представляющих разнообразие клинических ситуаций. Это нарушает эффективность существующих систем компьютерной помощи в диагностике (CADx) и детекции (CADe), которые требуют больших наборов данных для обучения и тестирования. Основные проблемы включают нехватку разнообразия в данных, высокую разнообразию и сложность признаков заболеваний, а также высокую зависимость от опыта оператора. Несмотря на достижения в CADx/e, эти системы все еще не достаточно широко применяются в практике, что приводит к необходимости развития методов, которые могут улучшить качество и надежность диагностики в оториноларингологии.
## Метод
В этой работе предлагается использовать Latent Diffusion Model (LDM) с ControlNet adapter для генерации синтетических изображений изображений гортани, аннотированных клиническими данными. Метод строится на основе модели LDM, которая использует процесс диффузии для генерации реалистичных изображений, кондиционированных на клинические признаки. ControlNet adapter позволяет управлять этим процессом, чтобы генерировать изображения с клинически важными признаками. Этот подход решает проблему нехватки данных, расширяя наборы тренировочных данных для CADx/e. Использованные данные включают реальные изображения гортани, откуда были сгенерированы синтетические аналоги с клиническими признаками, чтобы улучшить качество моделей диагностики.
## Результаты
В экспериментах были проведены тесты на различных данных, включая реальные и синтетические изображения. Добавление 10% синтетических данных улучшило точность детекции заболеваний на 9% во внутреннем тестировании и на 22.1% во внешнем тестировании. Кроме того, специалисты по оториноларингологии оценили реализм сгенерированных изображений, выбирая, рассматривают ли они их как реальные или синтетические. Результаты показали, что синтетические данные были сбалансированы и реалистичными, что подтвердило их качество и полезность в тренировочных наборах данных.
## Значимость
Предложенный подход может быть применен в различных областях, где нехватка данных является критическим ограничением для развития систем CADx/e. Он демонстрирует возможность использования синтетических данных для расширения наборов тренировочных данных и улучшения точности диагностики. Это может привести к более доступным и надежным системам диагностики для оториноларингологии, снижая зависимость от опыта оператора и ра
Abstract
Although computer-aided diagnosis (CADx) and detection (CADe) systems have
made significant progress in various medical domains, their application is
still limited in specialized fields such as otorhinolaryngology. In the latter,
current assessment methods heavily depend on operator expertise, and the high
heterogeneity of lesions complicates diagnosis, with biopsy persisting as the
gold standard despite its substantial costs and risks. A critical bottleneck
for specialized endoscopic CADx/e systems is the lack of well-annotated
datasets with sufficient variability for real-world generalization. This study
introduces a novel approach that exploits a Latent Diffusion Model (LDM)
coupled with a ControlNet adapter to generate laryngeal endoscopic
image-annotation pairs, guided by clinical observations. The method addresses
data scarcity by conditioning the diffusion process to produce realistic,
high-quality, and clinically relevant image features that capture diverse
anatomical conditions. The proposed approach can be leveraged to expand
training datasets for CADx/e models, empowering the assessment process in
laryngology. Indeed, during a downstream task of detection, the addition of
only 10% synthetic data improved the detection rate of laryngeal lesions by 9%
when the model was internally tested and 22.1% on out-of-domain external data.
Additionally, the realism of the generated images was evaluated by asking 5
expert otorhinolaryngologists with varying expertise to rate their confidence
in distinguishing synthetic from real images. This work has the potential to
accelerate the development of automated tools for laryngeal disease diagnosis,
offering a solution to data scarcity and demonstrating the applicability of
synthetic data in real-world scenarios.
Ссылки и действия
Дополнительные ресурсы: