📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Medico 2025: Visual Question Answering for Gastrointestinal Imaging

2025-08-16

Авторы:

Sushant Gautam, Vajira Thambawita, Michael Riegler, Pål Halvorsen, Steven Hicks

#### Контекст В последние годы значительное внимание уделяется использованию искусственного интеллекта (ИИ) в области медицинского изображения. Одним из ключевых направлений является Visual Question Answering (VQA), которое применяется для анализа медицинских изображений. В частности, в области гастроэнтерологии, где развитие технологий позволяет улучшить диагностику и терапию, VQA может стать важной инструментом повышения точности диагностики. Однако существуют существующие проблемы, связанные с недостатком точности и обоснованности решений. Многие медицинские модели, в том числе VQA, часто остаются "черными ящиками", не обеспечивая достаточной наглядности в своих выводах. Это ограничивает доверие к ним, необходимым для принятия важных клинических решений. **Medico 2025: Visual Question Answering for Gastrointestinal Imaging** — это специально созданная задача, которая направлена на вызов существующих моделей VQA в области гастроэнтерологии. Она сочетает требования к точности и прозрачности, чтобы способствовать развитию доверительного ИИ в этой области. #### Метод Методология Medico 2025 основывается на разработке Explainable Artificial Intelligence (XAI), способных отвечать на клинические вопросы, основанные на изображениях гастроэнтерологического переносного исследования (GI). Задача включает два подзадачных направления: 1. **Ответы на визуальные вопросы:** Используется Kvasir-VQA-x1, большая коллекция с разнообразными видами визуальных вопросов. Задача состоит в том, чтобы модели могли обрабатывать сложные запросы и давать точные ответы, при этом обеспечивая понимание источника своих выводов. 2. **Генерация мультимодальных объяснений:** Это подзадача состоит в том, чтобы модели не только отвечали на вопросы, но и давали подробные, наглядные объяснения, которые могут помочь в клинической практике. **Kvasir-VQA-x1** — это инновационный датасет, содержащий 6 500 изображений и 159 549 вопросов-ответов (QA-пар), который позволяет тренировать и тестировать модели на различных уровнях сложности. Методология сочетает метрики точности с экспертным оцениванием, чтобы гарантировать качество выдачи ответов и их грамотность. #### Результаты В результатах задач были применены различные метрики для оценки точности ответа и качества объяснений. Эксперименты включали обучение и тестирование моделей на датасете Kvasir-VQA-x1. Использовались техники, такие как визуально-текстовый префикс-финер, для обеспечения точности в ответах. В результате модели показали сильные результаты в ответах на визуальные запросы, но некоторые проблемы с ответами, требующими глубокого клинического понимания, о

Annotation:

The Medico 2025 challenge addresses Visual Question Answering (VQA) for Gastrointestinal (GI) imaging, organized as part of the MediaEval task series. The challenge focuses on developing Explainable Artificial Intelligence (XAI) models that answer clinically relevant questions based on GI endoscopy images while providing interpretable justifications aligned with medical reasoning. It introduces two subtasks: (1) answering diverse types of visual questions using the Kvasir-VQA-x1 dataset, and (2)...

ID: 2508.10869v1 cs.CV, cs.AI, 68T45, 92C55, I.2.10; I.4.9

arXiv PDF