What Can We Learn from Inter-Annotator Variability in Skin Lesion Segmentation?
2508.09381v1
cs.CV, cs.AI, cs.LG
2025-08-15
Авторы:
Kumar Abhishek, Jeremy Kawahara, Ghassan Hamarneh
Резюме на русском
## Контекст
Исследование контрольной интерпретации данных в медицинской импликации сегментации кожных локализаций находится в центре внимания, так как вариативность понимания этих образов может повлиять на важность диагноза. В частности, локализации с неоднозначными границами, такими как спикулярные или инфильтративные нодулы, или резкие изменения внешнего вида, приводят к расхождениям в понимании, которые могут быть связаны с злокачественностью. Это создает проблемы в качестве диагноза и возможность значимых ошибок. Целью данного исследования является получение новых знаний о взаимосвязях между контрольной характеристикой данных и клиническими признаками, а также разработка новых методов для повышения точности и надежности предсказаний.
## Метод
Для изучения вариативности разметки и интерпретации данных в рамках сегментации кожных локализаций был создан IMA++, крупнейший набор данных, включающий разметки из нескольких источников. Методология включает в себя использование метода множественных разметок, который позволяет изучить влияние аспектов, таких как злокачественность, способность оценщика, инструментальные ограничения и уровень технических навыков. Методы включали создание многозадачной модели, использующей в качестве признаков вариативность разметки, чтобы оптимизировать классификационные модели. Также был проведен эксперимент с оценкой точности предсказания возможности разметки и взаимосвязи с клиническими проявлениями.
## Результаты
Изучение IMA++ показало, что степень согласия между разными разметками имеет статистически значимую (p < 0.001) корреляцию с злокачественностью кожных локализаций. Был доказан, что вариативность разметки может быть достаточно точно предсказана непосредственно из дерматоскопичных изображений, с малой ошибкой в предсказании. Было показано, что применение этой методики в сочетании с многозадачным обучением может улучшить балансированную точность классификации на 4.2%, что демонстрирует значительное потенциальное улучшение надежности диагноза.
## Значимость
Результаты имеют практическое значение для медицинской практики, поскольку позволяют улучшить качество диагноза, учитывая клинические отклонения в интерпретации данных. Исследование также открывает пути для использования вариативности разметки в качестве дополнительного признака в нейросетевых моделях, что может повысить точность прогнозирования злокачественности. Данная работа может быть применима в разработке систем, оптимизирующих диагностические процессы при работе с клиническими изображениями.
## Выводы
В результате данно
Abstract
Medical image segmentation exhibits intra- and inter-annotator variability
due to ambiguous object boundaries, annotator preferences, expertise, and
tools, among other factors. Lesions with ambiguous boundaries, e.g., spiculated
or infiltrative nodules, or irregular borders per the ABCD rule, are
particularly prone to disagreement and are often associated with malignancy. In
this work, we curate IMA++, the largest multi-annotator skin lesion
segmentation dataset, on which we conduct an in-depth study of variability due
to annotator, malignancy, tool, and skill factors. We find a statistically
significant (p<0.001) association between inter-annotator agreement (IAA),
measured using Dice, and the malignancy of skin lesions. We further show that
IAA can be accurately predicted directly from dermoscopic images, achieving a
mean absolute error of 0.108. Finally, we leverage this association by
utilizing IAA as a "soft" clinical feature within a multi-task learning
objective, yielding a 4.2% improvement in balanced accuracy averaged across
multiple model architectures and across IMA++ and four public dermoscopic
datasets. The code is available at https://github.com/sfu-mial/skin-IAV.
Ссылки и действия
Дополнительные ресурсы: