Trustworthy Medical Imaging with Large Language Models: A Study of Hallucinations Across Modalities

2508.07031v1 eess.IV, cs.AI, cs.CV 2025-08-13
Авторы:

Anindya Bijoy Das, Shahnewaz Karim Sakib, Shibbir Ahmed

Резюме на русском

## Контекст Модели языка (LLMs) в настоящее время применяются в различных медицинских областях, включая анализ изображений и генерацию синтетических изображений. Однако они часто создают "халлуцинации", то есть выдают уверенные, но неверные ответы, которые могут привести к ошибкам в клинических решениях. Это затрудняет доверие к таким системам в клинической практике. В нашем исследовании мы экспериментально рассматриваем две стороны LLM применения в медицинских изображениях: интерпретацию изображений (image-to-text) и генерацию изображений (text-to-image). Наша мотивация заключается в изучении ошибок, таких как фактические несоответствия и анатомические неточности, и в оценке качества вывода моделей с помощью критериев, разработанных экспертами. Таким образом, мы нацелены на улучшение надежности и безопасности LLM-движений в области медицинской импровизации. ## Метод Мы использовали две основные методики для подробного изучения "халлуцинаций" в LLM-движениях. В первой, интерпретация изображений, мы использовали ряд синтетических и реальных медицинских изображений (X-ray, CT, MRI) и сравнили выводы моделей с экспертной оценкой. Во второй, генерация изображений, мы выдавали моделям клинические задачи и анализировали генерируемые изображения в сравнении с исходными клиническими данными. Для оценки качества мы использовали критерии, основанные на знаниях экспертов. Наши методы учитывают различные аспекты, включая тип модели, тип изображения и характер ошибок. Эта кросс-модальная оценка позволяет краткосрочно проанализировать и выявить типичные модели халлуцинаций, а также помочь сформировать рекомендации для улучшения медицинских LLM-систем. ## Результаты Мы провели эксперименты с несколькими моделями LLM, включая общего назначения и медицинские конкретные. Наши результаты показали, что модели часто создают фактические ошибки и анатомические неточности, даже когда выводы выглядят уверенными. Например, в интерпретации изображений, модели часто забывали упомянуть ключевые детали, а в генерации изображений, создавали неточные структуры. Ошибки различались в зависимости от типа изображения и модели. Мы также выявили зависимость ошибок от размера модели, а также от характера обучающих данных. Наши результаты подтверждают, что халлуцинации являются такими же распространенными в интерпретации, как и в генерации, и что они могут привести к серьезным последствиям в клинической практике. ## Значимость Наши результаты имеют важное значение для разных сфер применения. Мы показали, что "халлуцина

Abstract

Large Language Models (LLMs) are increasingly applied to medical imaging tasks, including image interpretation and synthetic image generation. However, these models often produce hallucinations, which are confident but incorrect outputs that can mislead clinical decisions. This study examines hallucinations in two directions: image to text, where LLMs generate reports from X-ray, CT, or MRI scans, and text to image, where models create medical images from clinical prompts. We analyze errors such as factual inconsistencies and anatomical inaccuracies, evaluating outputs using expert informed criteria across imaging modalities. Our findings reveal common patterns of hallucination in both interpretive and generative tasks, with implications for clinical reliability. We also discuss factors contributing to these failures, including model architecture and training data. By systematically studying both image understanding and generation, this work provides insights into improving the safety and trustworthiness of LLM driven medical imaging systems.

Ссылки и действия