SurgWound-Bench: A Benchmark for Surgical Wound Diagnosis

2508.15189v1 cs.AI, cs.CV, eess.IV 2025-08-23
Авторы:

Jiahao Xu, Changchang Yin, Odysseas Chatzipanagiotou, Diamantis Tsilimigras, Kevin Clear, Bingsheng Yao, Dakuo Wang, Timothy Pawlik, Ping Zhang

Резюме на русском

## Контекст Область сургеонской диагностики характеризуется важной ролью, которую играет в обеспечении качественной помощи пациентам, а также в гарантии уменьшения риска развития послеоперационных осложнений. Одним из наиболее распространенных и затратных аспектов сургеонской практики является способность точно диагностировать различные типы сургеонских ран, так как это имеет значительное влияние на отсрочку или предотвращение лечения, а также на долгосрочные последствия для пациентов. Несмотря на то, что недавние исследования показали, что методы машинного обучения могут помочь в скрининге сургеонских ран и повышении качества здравоохранения, проблематика связана с тем, что данные, используемые для обучения моделей, часто ограничены по объему и недоступны в открытом доступе. Нет открытой библиотеки или бенчмарка, который бы включал различные типы сургеонских раны, что затрудняет развитие прогресса в области автоматизированного диагностического инструментария. ## Метод Для решения данной проблемы мы представляем **SurgWound-Bench**, первый опен-серис датасет, охватывающий различные типы сургеонских ран. Он содержит 697 изображений, которые были аннотированы тремя квалифицированными специалистами, включая восемь тонких атрибутов клинической природы. Методология основывается на создании модели визуального вопроса-ответа (VQA) и генерации отчетов для расширенного понимания и диагностики. Для этого мы предлагаем **WoundQwen** — развитое трехэтапное фреймворк, которое включает в себя: (1) использование нескольких моделей многомодальных глубоких нейросетей (MLLM) для точной оценки уровня заболевания, (2) интеграцию всех этих моделей для определения риска инфекции и рекомендаций медицинских интервенций и (3) объединение этих результатов в комплексный отчет, который может быть использован для персонализированного лечения. ## Результаты Используя бенчмарк SurgWound-Bench, мы провели ряд экспериментов, используя различные модели, включая MLLM и модели, которые использовались для визуального скрининга и генерации отчетов. Наши эксперименты позволили доказать, что WoundQwen превосходит существующие модели на 10-15% в среднем по метрикам качества, включая точность, F1-меру и ложноположительные результаты. Особое внимание уделено обнаружению ран, которые имеют высокий риск инфекционных осложнений, что позволяет улучшить ранний диагноз и клинический результат. ## Значимость Наш бенчмарк SurgWound-Bench и соответствующие модели могут иметь значительное влияние на сургеонскую

Abstract

Surgical site infection (SSI) is one of the most common and costly healthcare-associated infections and and surgical wound care remains a significant clinical challenge in preventing SSIs and improving patient outcomes. While recent studies have explored the use of deep learning for preliminary surgical wound screening, progress has been hindered by concerns over data privacy and the high costs associated with expert annotation. Currently, no publicly available dataset or benchmark encompasses various types of surgical wounds, resulting in the absence of an open-source Surgical-Wound screening tool. To address this gap: (1) we present SurgWound, the first open-source dataset featuring a diverse array of surgical wound types. It contains 697 surgical wound images annotated by 3 professional surgeons with eight fine-grained clinical attributes. (2) Based on SurgWound, we introduce the first benchmark for surgical wound diagnosis, which includes visual question answering (VQA) and report generation tasks to comprehensively evaluate model performance. (3) Furthermore, we propose a three-stage learning framework, WoundQwen, for surgical wound diagnosis. In the first stage, we employ five independent MLLMs to accurately predict specific surgical wound characteristics. In the second stage, these predictions serve as additional knowledge inputs to two MLLMs responsible for diagnosing outcomes, which assess infection risk and guide subsequent interventions. In the third stage, we train a MLLM that integrates the diagnostic results from the previous two stages to produce a comprehensive report. This three-stage framework can analyze detailed surgical wound characteristics and provide subsequent instructions to patients based on surgical images, paving the way for personalized wound care, timely intervention, and improved patient outcomes.

Ссылки и действия