NEURAL: Attention-Guided Pruning for Unified Multimodal Resource-Constrained Clinical Evaluation
2508.09715v1
cs.CV, cs.LG
2025-08-15
Авторы:
Devvrat Joshi, Islem Rekik
Резюме на русском
## Контекст
Развитие медицинских импульсных технологий и видеоанализа требует эффективных алгоритмов обработки и извлечения информации из больших многомодальных медицинских наборов данных. Одной из самых серьезных проблем в этой области является нехватка ресурсов для хранения и передачи данных, особенно в условиях ограниченных ресурсов в клинических средах. В этом контексте необходимо разработать методы, позволяющие сократить размер данных, сохранив качество и достоверность диагностических задач. Многомодальные модели визионных языков, такие как нейросети, широко применяются для извлечения фичей и моделирования информации, но часто требуют большого объема памяти, что не подходит для ресурсобедержательных сред.
## Метод
Мы предлагаем NEURAL (Novel Efficient Unified Resource-Constrained Attention-Guided Learning) — рамочный подход, который использует аннотации к синтезированным зрениям и текстовым отчетам для структурного уплотнения данных. Основная идея заключается в том, чтобы использовать cross-attention scores между изображением и текстовым отчетом, полученными из оптимизированной модели скрытых визуальных и языковых слоев. Эти scores определяют ключевые регионы в изображении, которые необходимо сохранить для диагностических целей. Затем эти регионы преобразуются в графовую структуру, где каждый узел представляет собой ключевую область изображения, а ребра — связи между ними. Этот граф интегрируется с классическими классическими знаниями, создавая универсальную структуру данных, уменьшая размер и повышая эффективность обработки.
## Результаты
Мы проверили NEURAL на двух клинических наборах данных: MIMIC-CXR и CheXpert Plus, ориентированных на диагностику бронхит. Улучшение в производительности было достигнуто в сравнении с традиционными методами, которые не учитывали структурное уплотнение. Наш подход позволил достичь 93.4-97.7% сжатия изображений с поддержкой высокого уровня диагностической точности (AUC 0.88-0.95). Этот результат выше, чем у альтернативных подходов, которые используют несжатые данные. Кроме того, мы продемонстрировали, что NEURAL эффективно работает в ресурсораспределенных системах, где ограничения на ресурсы значительно влияют на производительность.
## Значимость
Наша работа может быть применена в системах медицинского видеоанализа, где необходимо эффективно хранить и обрабатывать данные, подходящие для различных клинических задач. Метод NEURAL обеспечивает высокую эффективность и качество диагностики, что может повысить качество работы в клинических условиях, особенно в условиях нехватки ресурсо
Abstract
The rapid growth of multimodal medical imaging data presents significant
storage and transmission challenges, particularly in resource-constrained
clinical settings. We propose NEURAL, a novel framework that addresses this by
using semantics-guided data compression. Our approach repurposes
cross-attention scores between the image and its radiological report from a
fine-tuned generative vision-language model to structurally prune chest X-rays,
preserving only diagnostically critical regions. This process transforms the
image into a highly compressed, graph representation. This unified graph-based
representation fuses the pruned visual graph with a knowledge graph derived
from the clinical report, creating a universal data structure that simplifies
downstream modeling. Validated on the MIMIC-CXR and CheXpert Plus dataset for
pneumonia detection, NEURAL achieves a 93.4-97.7\% reduction in image data size
while maintaining a high diagnostic performance of 0.88-0.95 AUC, outperforming
other baseline models that use uncompressed data. By creating a persistent,
task-agnostic data asset, NEURAL resolves the trade-off between data size and
clinical utility, enabling efficient workflows and teleradiology without
sacrificing performance. Our NEURAL code is available at
https://github.com/basiralab/NEURAL.
Ссылки и действия
Дополнительные ресурсы: