CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding

2509.23379v1 cs.CL, cs.AI, cs.CV, I.2.10; J.3; I.5.4 2025-10-01
Авторы:

Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho

Резюме на русском

#### Контекст В последнее время multimodal large language models (MLLMs) показали существенные успехи в области радиологии, объединяя в себе визуальные исследования и естественный языковой понимание. Тем не менее, эти модели часто генерируют клинически неподтвержденные описания, известные как "медицинские халлуцинации" (medical hallucinations). Эти неточности могут иметь серьезные последствия в сфере медицины, где точность и гранулярность вывода ключевые. Несмотря на развитие методов, таких как модификация процесса обучения или использование контекстно-зависимых моделей, эти проблемы остаются актуальными. Этот аспект мотивирует разработку новых подходов, которые могут обеспечить более устойчивый и точный генеративный процесс. #### Метод Мы предлагаем Clinical Contrastive Decoding (CCD), методику, основанную на двух этапах различия (contrastive mechanism). Эта методика интегрирует структурированные клинические сигналы, полученные от задач-специфических моделей радиологии, в текстовую генерацию MLLMs. CCD не требует дополнительного обучения или вычислительных ресурсов, а сводится к изменению токен-уровня логитов в процессе генерации. Основной идеей является укрепление клинической точности, структурировав выходные данные отдельными этапами: множественному учету соответствия структурной информации (clustering) и последовательному фильтрованию по клинической семантике. Этот подход легко модифицируется для работы с различными моделями и ситуациями. #### Результаты Мы провести эксперименты на трех различных датасетах, включая MIMIC-CXR, Open-I и CheXpert. Мы использовали несколько моделей, включая state-of-the-art RRG (radiology report generation) модели. Результаты показали, что CCD постоянно улучшает общую эффективность моделей на задаче RRG. Например, на MIMIC-CXR, CCD повысил RadGraph-F1 до 17% при использовании самых современных моделей. Эти результаты подтверждают то, что CCD эффективно устраняет медицинские халлуцинации без изменения основных MLLM. #### Значимость Предлагаемый подход имеет расширенные области применения, включая радиологию, эндокринологию и другие сферы медицины, где необходима точность генерируемой информации. Он предлагает легкий в использовании, общедоступный и эффективный подход для уменьшения медицинских халлуцинаций. Благодаря повышению точности и релевантности в выводах, CCD может улучшить безопасность и эффективность медицинских приложений, которые полагаются на информацию, полученную с помощью MLLMs. #### Выводы CCD представляет собой новый подход к устранению медицинских халлуцинаций в радиологии MLLMs. Он продемонстрировал высокую эфф

Abstract

Multimodal large language models (MLLMs) have recently achieved remarkable progress in radiology by integrating visual perception with natural language understanding. However, they often generate clinically unsupported descriptions, known as medical hallucinations, which pose serious risks in medical applications that demand accuracy and image-grounded outputs. Through empirical analysis, we find that prompt-induced hallucinations remain prevalent in radiology MLLMs, largely due to over-sensitivity to clinical sections. To address this, we introduce Clinical Contrastive Cecoding (CCD), a training-free and retrieval-free inference framework that integrates structured clinical signals from task-specific radiology expert models. CCD introduces a dual-stage contrastive mechanism to refine token-level logits during generation, thereby enhancing clinical fidelity without modifying the base MLLM. Experiments on three datasets and multiple models demonstrate that CCD consistently improves overall performance on radiology report generation (RRG). On the MIMIC-CXR dataset, it yields up to a 17% improvement in RadGraph-F1 when applied to state-of-the-art RRG models. Our approach provides a lightweight and generalisable solution for mitigating medical hallucinations, effectively bridging expert models and MLLMs in radiology.

Ссылки и действия