Eyes on the Image: Gaze Supervised Multimodal Learning for Chest X-ray Diagnosis and Report Generation

2508.13068v1 cs.CV, cs.LG 2025-08-20
Авторы:

Tanjim Islam Riju, Shuchismita Anwar, Saman Sarker Joy, Farig Sadeque, Swakkhar Shatabda

Резюме на русском

## Контекст Классификация заболеваний и генерация объемных отчетов в радиологии чрезвычайно важны для обеспечения качественной медицинской помощи. Однако существуют значительные проблемы, такие как несогласованность радиологических отчетов, точность диагноза и сложность в интеграции нескольких модальностей данных в легко расширяемые и точные модели. Одним из ключевых аспектов является то, что зрение врачей и радиологов содержит ценное знание, которое часто остается неиспользованным в медицинских исследованиях. За счет подключения моделей машинного обучения к этим разделяемым сигналам можно значительно повысить точность диагноза и качество отчетов. Масштабируемость и точность моделей, включающих в себя такие сигналы, остаются значительным трудностями. ## Метод Мы предлагаем двухэтапный подход на основе мультимодального обучения для решения этих проблем. В первом этапе предлагается новая гибридная архитектура для классификации заболеваний, использующая сигналы, связанные с газом, чтобы улучшить точность классификации. Эта архитектура включает в себя несколько новых компонентов, таких как газовая ате́нтион и мульти-терм газовая ате́нтион лосс. Она интегрирует визуальные признаки, клинические метки, баундинг-боксы и сигналы газа, чтобы оптимизировать диагностику. Во втором этапе мы предлагаем модульную архитектуру для генерации отчетов, которая включает в себя генерацию ключевых диагностических слов, сопоставление их с анатомическими регионами и создание структурированных отчетов с помощью специальных промитов. ## Результаты Мы провести эксперименты на датасете MIMIC-Eye, сравнивая нашу модель с другими подходами. Наша модель показала выигрыш в F1-мерой до 0.631 (+5.70%) и AUC до 0.849 (+3.41%) при классификации заболеваний, улучшив прецизию и рекалл. Также она повысила точность генерации отчетов, оцениваемую по клиническому ключевому слову и ROUGE-мерам. Это подтверждает эффективность интеграции сигналов газа в модели мультимодального обучения. ## Значимость Предложенный подход может быть применен в различных медицинских областях, включая обработку изображений и генерацию отчетов. Он позволяет повысить точность диагноза и качество отчетов, а также обеспечить более легковесную интеграцию новых модальностей данных. Это может иметь большое значение для улучшения качества медицинского здравоохранения. ## Выводы Наша работа показывает, что интеграция визуальных признаков с сигналами газа может значительно улучшить точность классиф

Abstract

We propose a two-stage multimodal framework that enhances disease classification and region-aware radiology report generation from chest X-rays, leveraging the MIMIC-Eye dataset. In the first stage, we introduce a gaze-guided contrastive learning architecture for disease classification. It integrates visual features, clinical labels, bounding boxes, and radiologist eye-tracking signals and is equipped with a novel multi-term gaze-attention loss combining MSE, KL divergence, correlation, and center-of-mass alignment. Incorporating fixations improves F1 score from 0.597 to 0.631 (+5.70%) and AUC from 0.821 to 0.849 (+3.41%), while also improving precision and recall, highlighting the effectiveness of gaze-informed attention supervision. In the second stage, we present a modular report generation pipeline that extracts confidence-weighted diagnostic keywords, maps them to anatomical regions using a curated dictionary constructed from domain-specific priors, and generates region-aligned sentences via structured prompts. This pipeline improves report quality as measured by clinical keyword recall and ROUGE overlap. Our results demonstrate that integrating gaze data improves both classification performance and the interpretability of generated medical reports.

Ссылки и действия