ACM Multimedia Grand Challenge on ENT Endoscopy Analysis
2508.04801v1
cs.CV
2025-08-09
Авторы:
Trong-Thuan Nguyen, Viet-Tham Huynh, Thao Thi Phuong Dao, Ha Nguyen Thi, Tien To Vu Thuy, Uyen Hanh Tran, Tam V. Nguyen, Thanh Dinh Le, Minh-Triet Tran
Резюме на русском
**Резюме**
В статье представлено ENTRep, вызов ACM Multimedia Grand Challenge 2025, посвященный анализу изображений эндоскопических исследований в области ОРЛ (ухо, нос, горло). Объектом интереса являются задачи классификации анатомических регионов и их нормального или аномального состояния, а также обеспечение возможности интерактивного поиска похожих изображений с помощью двунаправленных задач — изображение-к-изображению и текст-к-изображению — в двух языках (английском и вьетнамском). В качестве основы для вызова использован уникальный ENTRep-датасет, который включает в себя экспертно аннотированные изображения с детальными клиническими описаниями на двух языках.
Решение, предложенное авторами, заключается в создании платформы для решения ключевых проблем в области ОРЛ, включая недостаточную поддержку автоматизированных систем анализа изображений и нехватку данных для отбора похожих случаев. Основные выводы: ENTRep эффективно решает проблему анатомической классификации и поиска похожих случаев, предоставляя широкие возможности для улучшения клинических занятий в области ОРЛ.
Abstract
Automated analysis of endoscopic imagery is a critical yet underdeveloped
component of ENT (ear, nose, and throat) care, hindered by variability in
devices and operators, subtle and localized findings, and fine-grained
distinctions such as laterality and vocal-fold state. In addition to
classification, clinicians require reliable retrieval of similar cases, both
visually and through concise textual descriptions. These capabilities are
rarely supported by existing public benchmarks. To this end, we introduce
ENTRep, the ACM Multimedia 2025 Grand Challenge on ENT endoscopy analysis,
which integrates fine-grained anatomical classification with image-to-image and
text-to-image retrieval under bilingual (Vietnamese and English) clinical
supervision. Specifically, the dataset comprises expert-annotated images,
labeled for anatomical region and normal or abnormal status, and accompanied by
dual-language narrative descriptions. In addition, we define three benchmark
tasks, standardize the submission protocol, and evaluate performance on public
and private test splits using server-side scoring. Moreover, we report results
from the top-performing teams and provide an insight discussion.
Ссылки и действия
Дополнительные ресурсы: