MultiMedEdit: A Scenario-Aware Benchmark for Evaluating Knowledge Editing in Medical VQA
2508.07022v1
cs.AI, cs.CL, cs.LG, cs.MM
2025-08-13
Авторы:
Shengtao Wen, Haodong Chen, Yadong Wang, Zhongying Pan, Xiang Chen, Yu Tian, Bo Qian, Dong Liang, Sheng-Jun Huang
Резюме на русском
#### Контекст
Knowledge editing (KE) является эффективным способом обновления фактического знания в больших языковых моделях без полной переучетов. Изучены текстовые и медицинские задачи QA, но решения для multimodal medical KE остаются недооцененными. В отличие от текстовых моделей, multimodal KE требует интеграции знаний с визуальным разумом для безопасного и интерпретируемого клинического принятия решений. Несмотря на важность этой области, существуют недостатки в методах и бенчмарках для ее оценки. Мы предлагаем MultiMedEdit — первую библиотеку, ориентированную на KE в multimodal medical tasks, позволяющую провести cross-paradigm evaluation и определить критерии для клинической надежности, генеральности и локальности.
#### Метод
MultiMedEdit состоит из сценарио-ориентированных задач, охватывающих как простые вопросы с ответами (SQuAD-like), так и рассуждения с глубоким визуальным разумом (Visual QA). Определяется многомерный трехмерный метрический подход (reliability, generality, locality) для сравнения KE моделей в различных сценариях. Метод предлагает разделение на two-stage KE и lifelong KE, позволяющий оценить их качество в различных политиках редактирования. Библиотека поддерживает не только обучение моделей, но и поддерживает перенос знаний при повторном редактировании. Использованы большие данные медицинских сценариев, включая как текстовые, так и визуальные, с целью провести широкую экспериментальную оценку.
#### Результаты
Выполнены эксперименты под различными условиями редактирования знаний (single-editing и lifelong-editing). Методы KE показали слабую generalization и неэффективность в решении задач с long-tail разделениями. Библиотека MultiMedEdit позволяет четко выявить эти проблемы и сравнивать performance в разных сценариях, включая те, когда необходимо корректировать клинически важные знания. Была проведена эффективность работы KE-парадигм с разными trade-offs между вычислительными ресурсами и скоростью редактирования.
#### Значимость
MultiMedEdit предоставляет широкие возможности для клинических приложений, включая обновление моделей в здравоохранении, клинические визуальные задачи и поддержку принятия решений. Библиотека предоставляет уникальный подход к KE, пригодному для решения сложных клинических задач. Результаты показали, что существуют значительные проблемы в предыдущих моделях, относящиеся к generalization и long-tail reasoning. Это позволяет значительно улучшить будущие модели и сделать их более надежными для клинических приложений.
#### Выводы
MultiMedEdit раскрывает недостатки и ограничения существующих KE-методов в multimodal medical tasks. Библиотека поддерживает развитие клинически надежных моделей KE, используя сценарио-ориентированные бенчмарки. Будущие исследования должны сосредоточиться на улучшении generalization и разви
Abstract
Knowledge editing (KE) provides a scalable approach for updating factual
knowledge in large language models without full retraining. While previous
studies have demonstrated effectiveness in general domains and medical QA
tasks, little attention has been paid to KE in multimodal medical scenarios.
Unlike text-only settings, medical KE demands integrating updated knowledge
with visual reasoning to support safe and interpretable clinical decisions. To
address this gap, we propose MultiMedEdit, the first benchmark tailored to
evaluating KE in clinical multimodal tasks. Our framework spans both
understanding and reasoning task types, defines a three-dimensional metric
suite (reliability, generality, and locality), and supports cross-paradigm
comparisons across general and domain-specific models. We conduct extensive
experiments under single-editing and lifelong-editing settings. Results suggest
that current methods struggle with generalization and long-tail reasoning,
particularly in complex clinical workflows. We further present an efficiency
analysis (e.g., edit latency, memory footprint), revealing practical trade-offs
in real-world deployment across KE paradigms. Overall, MultiMedEdit not only
reveals the limitations of current approaches but also provides a solid
foundation for developing clinically robust knowledge editing techniques in the
future.