📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho

#### Контекст В последнее время multimodal large language models (MLLMs) показали существенные успехи в области радиологии, объединяя в себе визуальные исследования и естественный языковой понимание. Тем не менее, эти модели часто генерируют клинически неподтвержденные описания, известные как "медицинские халлуцинации" (medical hallucinations). Эти неточности могут иметь серьезные последствия в сфере медицины, где точность и гранулярность вывода ключевые. Несмотря на развитие методов, таких как модификация процесса обучения или использование контекстно-зависимых моделей, эти проблемы остаются актуальными. Этот аспект мотивирует разработку новых подходов, которые могут обеспечить более устойчивый и точный генеративный процесс. #### Метод Мы предлагаем Clinical Contrastive Decoding (CCD), методику, основанную на двух этапах различия (contrastive mechanism). Эта методика интегрирует структурированные клинические сигналы, полученные от задач-специфических моделей радиологии, в текстовую генерацию MLLMs. CCD не требует дополнительного обучения или вычислительных ресурсов, а сводится к изменению токен-уровня логитов в процессе генерации. Основной идеей является укрепление клинической точности, структурировав выходные данные отдельными этапами: множественному учету соответствия структурной информации (clustering) и последовательному фильтрованию по клинической семантике. Этот подход легко модифицируется для работы с различными моделями и ситуациями. #### Результаты Мы провести эксперименты на трех различных датасетах, включая MIMIC-CXR, Open-I и CheXpert. Мы использовали несколько моделей, включая state-of-the-art RRG (radiology report generation) модели. Результаты показали, что CCD постоянно улучшает общую эффективность моделей на задаче RRG. Например, на MIMIC-CXR, CCD повысил RadGraph-F1 до 17% при использовании самых современных моделей. Эти результаты подтверждают то, что CCD эффективно устраняет медицинские халлуцинации без изменения основных MLLM. #### Значимость Предлагаемый подход имеет расширенные области применения, включая радиологию, эндокринологию и другие сферы медицины, где необходима точность генерируемой информации. Он предлагает легкий в использовании, общедоступный и эффективный подход для уменьшения медицинских халлуцинаций. Благодаря повышению точности и релевантности в выводах, CCD может улучшить безопасность и эффективность медицинских приложений, которые полагаются на информацию, полученную с помощью MLLMs. #### Выводы CCD представляет собой новый подход к устранению медицинских халлуцинаций в радиологии MLLMs. Он продемонстрировал высокую эфф
Annotation:
Multimodal large language models (MLLMs) have recently achieved remarkable progress in radiology by integrating visual perception with natural language understanding. However, they often generate clinically unsupported descriptions, known as medical hallucinations, which pose serious risks in medical applications that demand accuracy and image-grounded outputs. Through empirical analysis, we find that prompt-induced hallucinations remain prevalent in radiology MLLMs, largely due to over-sensitiv...
ID: 2509.23379v1 cs.CL, cs.AI, cs.CV, I.2.10; J.3; I.5.4