Eyes on the Image: Gaze Supervised Multimodal Learning for Chest X-ray Diagnosis and Report Generation
2508.13068v1
cs.CV, cs.LG
2025-08-20
Авторы:
Tanjim Islam Riju, Shuchismita Anwar, Saman Sarker Joy, Farig Sadeque, Swakkhar Shatabda
Резюме на русском
## Контекст
Классификация заболеваний и генерация объемных отчетов в радиологии чрезвычайно важны для обеспечения качественной медицинской помощи. Однако существуют значительные проблемы, такие как несогласованность радиологических отчетов, точность диагноза и сложность в интеграции нескольких модальностей данных в легко расширяемые и точные модели. Одним из ключевых аспектов является то, что зрение врачей и радиологов содержит ценное знание, которое часто остается неиспользованным в медицинских исследованиях. За счет подключения моделей машинного обучения к этим разделяемым сигналам можно значительно повысить точность диагноза и качество отчетов. Масштабируемость и точность моделей, включающих в себя такие сигналы, остаются значительным трудностями.
## Метод
Мы предлагаем двухэтапный подход на основе мультимодального обучения для решения этих проблем. В первом этапе предлагается новая гибридная архитектура для классификации заболеваний, использующая сигналы, связанные с газом, чтобы улучшить точность классификации. Эта архитектура включает в себя несколько новых компонентов, таких как газовая ате́нтион и мульти-терм газовая ате́нтион лосс. Она интегрирует визуальные признаки, клинические метки, баундинг-боксы и сигналы газа, чтобы оптимизировать диагностику. Во втором этапе мы предлагаем модульную архитектуру для генерации отчетов, которая включает в себя генерацию ключевых диагностических слов, сопоставление их с анатомическими регионами и создание структурированных отчетов с помощью специальных промитов.
## Результаты
Мы провести эксперименты на датасете MIMIC-Eye, сравнивая нашу модель с другими подходами. Наша модель показала выигрыш в F1-мерой до 0.631 (+5.70%) и AUC до 0.849 (+3.41%) при классификации заболеваний, улучшив прецизию и рекалл. Также она повысила точность генерации отчетов, оцениваемую по клиническому ключевому слову и ROUGE-мерам. Это подтверждает эффективность интеграции сигналов газа в модели мультимодального обучения.
## Значимость
Предложенный подход может быть применен в различных медицинских областях, включая обработку изображений и генерацию отчетов. Он позволяет повысить точность диагноза и качество отчетов, а также обеспечить более легковесную интеграцию новых модальностей данных. Это может иметь большое значение для улучшения качества медицинского здравоохранения.
## Выводы
Наша работа показывает, что интеграция визуальных признаков с сигналами газа может значительно улучшить точность классиф
Abstract
We propose a two-stage multimodal framework that enhances disease
classification and region-aware radiology report generation from chest X-rays,
leveraging the MIMIC-Eye dataset. In the first stage, we introduce a
gaze-guided contrastive learning architecture for disease classification. It
integrates visual features, clinical labels, bounding boxes, and radiologist
eye-tracking signals and is equipped with a novel multi-term gaze-attention
loss combining MSE, KL divergence, correlation, and center-of-mass alignment.
Incorporating fixations improves F1 score from 0.597 to 0.631 (+5.70%) and AUC
from 0.821 to 0.849 (+3.41%), while also improving precision and recall,
highlighting the effectiveness of gaze-informed attention supervision. In the
second stage, we present a modular report generation pipeline that extracts
confidence-weighted diagnostic keywords, maps them to anatomical regions using
a curated dictionary constructed from domain-specific priors, and generates
region-aligned sentences via structured prompts. This pipeline improves report
quality as measured by clinical keyword recall and ROUGE overlap. Our results
demonstrate that integrating gaze data improves both classification performance
and the interpretability of generated medical reports.
Ссылки и действия
Дополнительные ресурсы: