Label Uncertainty for Ultrasound Segmentation
2508.15635v1
eess.IV, cs.AI, cs.CV, cs.LG, stat.ML
2025-08-23
Авторы:
Malini Shivaram, Gautam Rajendrakumar Gare, Laura Hutchins, Jacob Duplantis, Thomas Deiss, Thales Nogueira Gomes, Thong Tran, Keyur H. Patel, Thomas H Fox, Amita Krishnan, Deva Ramanan, Bennett DeBoisblanc, Ricardo Rodriguez, John Galeotti
Резюме на русском
## Контекст
Медицинская имагинг стал важной частью диагностики и лечения многих заболеваний. Одна из самых распространенных задач в этой области — сегментация областей интереса на имажах, таких как легочные ультразвуковые сканы (LUS). Однако существуют серьезные вызовы, связанные с тем, что эти задачи часто требуют интерпретации интервьювером, что приводит к несогласованности в аннотации данных. Например, в LUS часто встречаются области с значительной неоднозначностью, что делает задачу аннотации сложной даже для опытных клиников. Эта неоднозначность приводит к проблеме **label uncertainty**, которая влияет на качество обучения и моделирования AI. Мы предлагаем новый подход, который использует **per-pixel confidence values**, представленные экспертами во время аннотации, для точной моделирования этой неопределенности и улучшения сегментационных моделей.
## Метод
Мы предлагаем **novel annotation protocol**, в котором клиники указывают не только лейблы, но и **confidence values** для каждого пикселя. Эти значения представляют собой уверенность клиников в том, что пиксель принадлежит той или иной категории. Мы используем эти показатели в тренировочном процессе AI-моделей вместо обычных лейблов. Наше решение включает в себя **training pipeline**, где алгоритмы обучаются на сгенерированных лейблах с учетом уверенности клиников. Мы также изучаем различные **thresholding approaches** для работы с этими лейблами, что позволяет контролировать точность во время обучения. Этот подход позволяет не только улучшить сегментацию, но и демонстрировать значительные положительные результаты на задачах клинического применения.
## Результаты
Мы провели эксперименты на данных LUS, используя различные подходы к обработке уверенности в аннотациях. Наши результаты показывают, что **high confidence thresholds** (например, 60%) дают значительно лучшие результаты по сравнению с низкими порогами (например, 50%). Мы также демонстрируем, что модели, обученные на этих уверенных пикселях, не только показывают лучшую сегментацию, но и позволяют предсказать клинически важные параметры: **S/F oxygenation ratio**, классификацию изменений в S/F ratio и предсказание 30-дневного перепоступления пациентов в больницу. Эти результаты подтверждают, что **confidence-aware training** не только улучшает качество сегментации, но и позволяет моделям выполнять критичные задачи в медицинской практике.
## Значимость
Наш подход может быть применен в различных областях медицинской имагинга, где неоднозначность в аннотации является общей проблемой. Это включает LUS, которая часто используется для оценки респираторных заболеваний. Особый потенциал виден в улучшении **downstream clinical tasks**, таких как оценка индекса S/F и прогнозирова
Abstract
In medical imaging, inter-observer variability among radiologists often
introduces label uncertainty, particularly in modalities where visual
interpretation is subjective. Lung ultrasound (LUS) is a prime example-it
frequently presents a mixture of highly ambiguous regions and clearly
discernible structures, making consistent annotation challenging even for
experienced clinicians. In this work, we introduce a novel approach to both
labeling and training AI models using expert-supplied, per-pixel confidence
values. Rather than treating annotations as absolute ground truth, we design a
data annotation protocol that captures the confidence that radiologists have in
each labeled region, modeling the inherent aleatoric uncertainty present in
real-world clinical data. We demonstrate that incorporating these confidence
values during training leads to improved segmentation performance. More
importantly, we show that this enhanced segmentation quality translates into
better performance on downstream clinically-critical tasks-specifically,
estimating S/F oxygenation ratio values, classifying S/F ratio change, and
predicting 30-day patient readmission. While we empirically evaluate many
methods for exposing the uncertainty to the learning model, we find that a
simple approach that trains a model on binarized labels obtained with a (60%)
confidence threshold works well. Importantly, high thresholds work far better
than a naive approach of a 50% threshold, indicating that training on very
confident pixels is far more effective. Our study systematically investigates
the impact of training with varying confidence thresholds, comparing not only
segmentation metrics but also downstream clinical outcomes. These results
suggest that label confidence is a valuable signal that, when properly
leveraged, can significantly enhance the reliability and clinical utility of AI
in medical imaging.