Trustworthy Medical Imaging with Large Language Models: A Study of Hallucinations Across Modalities
2508.07031v1
eess.IV, cs.AI, cs.CV
2025-08-13
Авторы:
Anindya Bijoy Das, Shahnewaz Karim Sakib, Shibbir Ahmed
Резюме на русском
## Контекст
Модели языка (LLMs) в настоящее время применяются в различных медицинских областях, включая анализ изображений и генерацию синтетических изображений. Однако они часто создают "халлуцинации", то есть выдают уверенные, но неверные ответы, которые могут привести к ошибкам в клинических решениях. Это затрудняет доверие к таким системам в клинической практике. В нашем исследовании мы экспериментально рассматриваем две стороны LLM применения в медицинских изображениях: интерпретацию изображений (image-to-text) и генерацию изображений (text-to-image). Наша мотивация заключается в изучении ошибок, таких как фактические несоответствия и анатомические неточности, и в оценке качества вывода моделей с помощью критериев, разработанных экспертами. Таким образом, мы нацелены на улучшение надежности и безопасности LLM-движений в области медицинской импровизации.
## Метод
Мы использовали две основные методики для подробного изучения "халлуцинаций" в LLM-движениях. В первой, интерпретация изображений, мы использовали ряд синтетических и реальных медицинских изображений (X-ray, CT, MRI) и сравнили выводы моделей с экспертной оценкой. Во второй, генерация изображений, мы выдавали моделям клинические задачи и анализировали генерируемые изображения в сравнении с исходными клиническими данными. Для оценки качества мы использовали критерии, основанные на знаниях экспертов. Наши методы учитывают различные аспекты, включая тип модели, тип изображения и характер ошибок. Эта кросс-модальная оценка позволяет краткосрочно проанализировать и выявить типичные модели халлуцинаций, а также помочь сформировать рекомендации для улучшения медицинских LLM-систем.
## Результаты
Мы провели эксперименты с несколькими моделями LLM, включая общего назначения и медицинские конкретные. Наши результаты показали, что модели часто создают фактические ошибки и анатомические неточности, даже когда выводы выглядят уверенными. Например, в интерпретации изображений, модели часто забывали упомянуть ключевые детали, а в генерации изображений, создавали неточные структуры. Ошибки различались в зависимости от типа изображения и модели. Мы также выявили зависимость ошибок от размера модели, а также от характера обучающих данных. Наши результаты подтверждают, что халлуцинации являются такими же распространенными в интерпретации, как и в генерации, и что они могут привести к серьезным последствиям в клинической практике.
## Значимость
Наши результаты имеют важное значение для разных сфер применения. Мы показали, что "халлуцина
Abstract
Large Language Models (LLMs) are increasingly applied to medical imaging
tasks, including image interpretation and synthetic image generation. However,
these models often produce hallucinations, which are confident but incorrect
outputs that can mislead clinical decisions. This study examines hallucinations
in two directions: image to text, where LLMs generate reports from X-ray, CT,
or MRI scans, and text to image, where models create medical images from
clinical prompts. We analyze errors such as factual inconsistencies and
anatomical inaccuracies, evaluating outputs using expert informed criteria
across imaging modalities. Our findings reveal common patterns of hallucination
in both interpretive and generative tasks, with implications for clinical
reliability. We also discuss factors contributing to these failures, including
model architecture and training data. By systematically studying both image
understanding and generation, this work provides insights into improving the
safety and trustworthiness of LLM driven medical imaging systems.
Ссылки и действия
Дополнительные ресурсы: