MEGAN: Mixture of Experts for Robust Uncertainty Estimation in Endoscopy Videos

2509.12772v1 eess.IV, cs.AI, cs.CV, cs.LG 2025-09-18
Авторы:

Damola Agbelese, Krishna Chaitanya, Pushpak Pati, Chaitanya Parmar, Pooya Mobadersany, Shreyas Fadnavis, Lindsey Surace, Shadi Yarandi, Louis R. Ghanem, Molly Lucas, Tommaso Mansi, Oana Gabriela Cula, Pablo F. Damasceno, Kristopher Standish

Резюме на русском

#### Контекст В области медицинского искусственного интеллекта (МИИ), надежный кванторный анализ (Uncertainty Quantification, UQ) является ключевым для обеспечения надежности и качества результатов. Особенно это актуально при оценке заболеваний, таких как ульцерозная колитис (Ulcerative Colitis, UC), где интервальная вариативность между экспертами является распространенной проблемой. Традиционные методы, такие как Monte Carlo (MC) Dropout и Deep Ensembles (DE), хотя и эффективны для UQ, часто основываются на аннотациях от одного эксперта, что недостаточно учитывает эту вариативность. #### Метод Мы предлагаем MEGAN (Mixture of Experts for Robust Uncertainty Estimation) — сеть, основанную на многоэкспертной модели Evidential Deep Learning (EDL). Эта модель объединяет несколько версий МОД, каждая из которых обучалась на разных аннотационных источниках, отражающих вариативность между экспертами. Гаттинг-сеть MEGAN оптимально объединяет эти модели, уменьшая суммарные ошибки и улучшая калибровку результатов. Наша архитектура позволяет объединять множество "экспертов" с разными источниками данных, что обеспечивает разрешение проблемы вариативности. #### Результаты Мы провели эксперименты на корпусе видео endoscopy для оценки серьезности UC по Mayo Endoscopic Subscore (MES). Результаты показали, что MEGAN превышает традиционные методы: F1-score улучшился на 3.5%, а Expected Calibration Error (ECE) сократился на 30.5%. Модель также позволила установить приоритеты при выборе образцов для аннотации, что может существенно снизить нагрузку на экспертов и улучшить эффективность интерпретации данных. #### Значимость MEGAN оказалась эффективной в области UC-диагностики, но её принципы могут быть распространены на другие медицинские задачи, где важна точная оценка неуверенности. Важность MEGAN также заключается в снижении количества необходимых аннотаций, что сокращает время и ресурсы, необходимые для работы экспертов. #### Выводы Мы доказали, что MEGAN превосходит традиционные методы в некоторых аспектах UQ в медицинских видео. Будущие исследования будут направлены на расширение модели MEGAN для обработки более сложных задач и учета дополнительных факторов, таких как географическая и историческая вариативность между экспертами.

Abstract

Reliable uncertainty quantification (UQ) is essential in medical AI. Evidential Deep Learning (EDL) offers a computationally efficient way to quantify model uncertainty alongside predictions, unlike traditional methods such as Monte Carlo (MC) Dropout and Deep Ensembles (DE). However, all these methods often rely on a single expert's annotations as ground truth for model training, overlooking the inter-rater variability in healthcare. To address this issue, we propose MEGAN, a Multi-Expert Gating Network that aggregates uncertainty estimates and predictions from multiple AI experts via EDL models trained with diverse ground truths and modeling strategies. MEGAN's gating network optimally combines predictions and uncertainties from each EDL model, enhancing overall prediction confidence and calibration. We extensively benchmark MEGAN on endoscopy videos for Ulcerative colitis (UC) disease severity estimation, assessed by visual labeling of Mayo Endoscopic Subscore (MES), where inter-rater variability is prevalent. In large-scale prospective UC clinical trial, MEGAN achieved a 3.5% improvement in F1-score and a 30.5% reduction in Expected Calibration Error (ECE) compared to existing methods. Furthermore, MEGAN facilitated uncertainty-guided sample stratification, reducing the annotation burden and potentially increasing efficiency and consistency in UC trials.

Ссылки и действия