Medico 2025: Visual Question Answering for Gastrointestinal Imaging

2508.10869v1 cs.CV, cs.AI, 68T45, 92C55, I.2.10; I.4.9 2025-08-16
Авторы:

Sushant Gautam, Vajira Thambawita, Michael Riegler, Pål Halvorsen, Steven Hicks

Резюме на русском

#### Контекст В последние годы значительное внимание уделяется использованию искусственного интеллекта (ИИ) в области медицинского изображения. Одним из ключевых направлений является Visual Question Answering (VQA), которое применяется для анализа медицинских изображений. В частности, в области гастроэнтерологии, где развитие технологий позволяет улучшить диагностику и терапию, VQA может стать важной инструментом повышения точности диагностики. Однако существуют существующие проблемы, связанные с недостатком точности и обоснованности решений. Многие медицинские модели, в том числе VQA, часто остаются "черными ящиками", не обеспечивая достаточной наглядности в своих выводах. Это ограничивает доверие к ним, необходимым для принятия важных клинических решений. **Medico 2025: Visual Question Answering for Gastrointestinal Imaging** — это специально созданная задача, которая направлена на вызов существующих моделей VQA в области гастроэнтерологии. Она сочетает требования к точности и прозрачности, чтобы способствовать развитию доверительного ИИ в этой области. #### Метод Методология Medico 2025 основывается на разработке Explainable Artificial Intelligence (XAI), способных отвечать на клинические вопросы, основанные на изображениях гастроэнтерологического переносного исследования (GI). Задача включает два подзадачных направления: 1. **Ответы на визуальные вопросы:** Используется Kvasir-VQA-x1, большая коллекция с разнообразными видами визуальных вопросов. Задача состоит в том, чтобы модели могли обрабатывать сложные запросы и давать точные ответы, при этом обеспечивая понимание источника своих выводов. 2. **Генерация мультимодальных объяснений:** Это подзадача состоит в том, чтобы модели не только отвечали на вопросы, но и давали подробные, наглядные объяснения, которые могут помочь в клинической практике. **Kvasir-VQA-x1** — это инновационный датасет, содержащий 6 500 изображений и 159 549 вопросов-ответов (QA-пар), который позволяет тренировать и тестировать модели на различных уровнях сложности. Методология сочетает метрики точности с экспертным оцениванием, чтобы гарантировать качество выдачи ответов и их грамотность. #### Результаты В результатах задач были применены различные метрики для оценки точности ответа и качества объяснений. Эксперименты включали обучение и тестирование моделей на датасете Kvasir-VQA-x1. Использовались техники, такие как визуально-текстовый префикс-финер, для обеспечения точности в ответах. В результате модели показали сильные результаты в ответах на визуальные запросы, но некоторые проблемы с ответами, требующими глубокого клинического понимания, о

Abstract

The Medico 2025 challenge addresses Visual Question Answering (VQA) for Gastrointestinal (GI) imaging, organized as part of the MediaEval task series. The challenge focuses on developing Explainable Artificial Intelligence (XAI) models that answer clinically relevant questions based on GI endoscopy images while providing interpretable justifications aligned with medical reasoning. It introduces two subtasks: (1) answering diverse types of visual questions using the Kvasir-VQA-x1 dataset, and (2) generating multimodal explanations to support clinical decision-making. The Kvasir-VQA-x1 dataset, created from 6,500 images and 159,549 complex question-answer (QA) pairs, serves as the benchmark for the challenge. By combining quantitative performance metrics and expert-reviewed explainability assessments, this task aims to advance trustworthy Artificial Intelligence (AI) in medical image analysis. Instructions, data access, and an updated guide for participation are available in the official competition repository: https://github.com/simula/MediaEval-Medico-2025

Ссылки и действия