MedMKEB: A Comprehensive Knowledge Editing Benchmark for Medical Multimodal Large Language Models

2508.05083v1 cs.AI 2025-08-09

Авторы:

Dexuan Xu, Jieyi Wang, Zhongyan Chai, Yongzhi Cao, Hanpin Wang, Huamin Zhang, Yu Huang

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Медицинские мультимодальные большие языковые модели (MLLMs) представляют собой передовое достижение в области искусственного интеллекта, которое позволяет эффективно объединить восприятие визуальной и текстовой информации. Эти модели имеют большое значение для медицинских приложений, в том числе для визуального вопросов-ответов, диагностики и поддержки принятия решений. Однако медицинская наука непрерывно развивается, и медицинские знания постоянно обновляются. Это поставляет серьезную проблему для MLLMs, которые должны быть способны эффективно обновлять свои знания без необходимости полной переобучения модели с нуля. Традиционно, в области искусственного интеллекта широко изучается проблема обновления текстовых знаний в моделях. Однако в медицинской области, где знания часто представлены не только в текстовом, но и в визуальном виде, существует значительный недостаток систематических подходов и бенчмарков для мультимодального обновления знаний. Это создает серьезные ограничения для разработки надежных и эффективных методов для обновления медицинских знаний в MLLMs. Проблематика заключается в том, что существующие подходы к обновлению знаний в MLLMs недостаточно учитывают специфику медицинских данных, которые часто включают в себя как текстовые, так и визуальные компоненты. Недостаток специализированных бенчмарков для оценки качества обновления медицинских знаний в мультимодальных моделях является ключевым барьером для развития этой области. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предлагают MedMKEB - первый в своем роде комплексный бенчмарк, предназначенный для оценки эффективности и надежности методов обновления медицинских знаний в мультимодальных моделях. MedMKEB основывается на высококачественном датасете для визуального вопрос-ответ в медицине и включает в себя ряд заданий, специально разработанных для оценки различных аспектов медицинского обновления знаний. Бенчмарк состоит из нескольких задач, включая: 1. **Контрфактуальная коррекция** - проверяет способность модели корректировать неточные или устаревшие знания. 2. **Семантическая генерализация** - оценивает возможность модели применять обновленные знания в новых контекстах. 3. **Перенос знаний** - изучает как модель переносит знания из одного домена на другой. 4. **Адаптивность к противоположностям** - проверяет надежность модели в ситуациях, когда встречается непредусмотренная информация. MedMKEB также включает валидацию человеческими экспертами, что гарантирует высокое качество и точность данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели широкий набор экспериментов на MedMKEB, включая одноразовые и последовательные задачи обновления знаний. Они использовали различные MLLMs, в том числе общие и специализированные медицинские модели, чтобы оценить их производительность. Результаты показали, что существующие методы обновления знаний недостаточно эффективны в медицинском контексте. Например, обновление знаний в мультимодальных моделях часто приводит к потере точности или несогласованности в результатах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MedMKEB имеет значительное практическое значение для разработки более надежных и эффективных методов обновления медицинских знаний. Он может быть использован для оценки и улучшения методологий в области медицинского искусственного интеллекта, особенно в сфере визуального вопрос-ответ и диагностики. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, MedMKEB является важной вкладкой в развитие медицинских MLLMs, поскольку он предоставляет комплексный инструмент для оценки и улучшения методов обновления знаний. Будущие исследования могут сосредоточиться на разработке более специализированных методов обновления знаний, которые будут лучше адаптированы к медицинским данным.

Abstract

Recent advances in multimodal large language models (MLLMs) have significantly improved medical AI, enabling it to unify the understanding of visual and textual information. However, as medical knowledge continues to evolve, it is critical to allow these models to efficiently update outdated or incorrect information without retraining from scratch. Although textual knowledge editing has been widely studied, there is still a lack of systematic benchmarks for multimodal medical knowledge editing involving image and text modalities. To fill this gap, we present MedMKEB, the first comprehensive benchmark designed to evaluate the reliability, generality, locality, portability, and robustness of knowledge editing in medical multimodal large language models. MedMKEB is built on a high-quality medical visual question-answering dataset and enriched with carefully constructed editing tasks, including counterfactual correction, semantic generalization, knowledge transfer, and adversarial robustness. We incorporate human expert validation to ensure the accuracy and reliability of the benchmark. Extensive single editing and sequential editing experiments on state-of-the-art general and medical MLLMs demonstrate the limitations of existing knowledge-based editing approaches in medicine, highlighting the need to develop specialized editing strategies. MedMKEB will serve as a standard benchmark to promote the development of trustworthy and efficient medical knowledge editing algorithms.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

MedMKEB: A Comprehensive Knowledge Editing Benchmark for Medical Multimodal Large Language Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Executable Governance for AI: Translating Policies into Rules Using LLMs

Solving LLM Repetition Problem in Production: A Comprehensive Study of Multiple ...

BiTAgent: A Task-Aware Modular Framework for Bidirectional Coupling between Mult...

SlideGen: Collaborative Multimodal Agents for Scientific Slide Generation

GTM: Simulating the World of Tools for AI Agents

Навигация