NEURAL: Attention-Guided Pruning for Unified Multimodal Resource-Constrained Clinical Evaluation

2508.09715v1 cs.CV, cs.LG 2025-08-15

Авторы:

Devvrat Joshi, Islem Rekik

Резюме на русском

## Контекст Развитие медицинских импульсных технологий и видеоанализа требует эффективных алгоритмов обработки и извлечения информации из больших многомодальных медицинских наборов данных. Одной из самых серьезных проблем в этой области является нехватка ресурсов для хранения и передачи данных, особенно в условиях ограниченных ресурсов в клинических средах. В этом контексте необходимо разработать методы, позволяющие сократить размер данных, сохранив качество и достоверность диагностических задач. Многомодальные модели визионных языков, такие как нейросети, широко применяются для извлечения фичей и моделирования информации, но часто требуют большого объема памяти, что не подходит для ресурсобедержательных сред. ## Метод Мы предлагаем NEURAL (Novel Efficient Unified Resource-Constrained Attention-Guided Learning) — рамочный подход, который использует аннотации к синтезированным зрениям и текстовым отчетам для структурного уплотнения данных. Основная идея заключается в том, чтобы использовать cross-attention scores между изображением и текстовым отчетом, полученными из оптимизированной модели скрытых визуальных и языковых слоев. Эти scores определяют ключевые регионы в изображении, которые необходимо сохранить для диагностических целей. Затем эти регионы преобразуются в графовую структуру, где каждый узел представляет собой ключевую область изображения, а ребра — связи между ними. Этот граф интегрируется с классическими классическими знаниями, создавая универсальную структуру данных, уменьшая размер и повышая эффективность обработки. ## Результаты Мы проверили NEURAL на двух клинических наборах данных: MIMIC-CXR и CheXpert Plus, ориентированных на диагностику бронхит. Улучшение в производительности было достигнуто в сравнении с традиционными методами, которые не учитывали структурное уплотнение. Наш подход позволил достичь 93.4-97.7% сжатия изображений с поддержкой высокого уровня диагностической точности (AUC 0.88-0.95). Этот результат выше, чем у альтернативных подходов, которые используют несжатые данные. Кроме того, мы продемонстрировали, что NEURAL эффективно работает в ресурсораспределенных системах, где ограничения на ресурсы значительно влияют на производительность. ## Значимость Наша работа может быть применена в системах медицинского видеоанализа, где необходимо эффективно хранить и обрабатывать данные, подходящие для различных клинических задач. Метод NEURAL обеспечивает высокую эффективность и качество диагностики, что может повысить качество работы в клинических условиях, особенно в условиях нехватки ресурсо

Abstract

The rapid growth of multimodal medical imaging data presents significant storage and transmission challenges, particularly in resource-constrained clinical settings. We propose NEURAL, a novel framework that addresses this by using semantics-guided data compression. Our approach repurposes cross-attention scores between the image and its radiological report from a fine-tuned generative vision-language model to structurally prune chest X-rays, preserving only diagnostically critical regions. This process transforms the image into a highly compressed, graph representation. This unified graph-based representation fuses the pruned visual graph with a knowledge graph derived from the clinical report, creating a universal data structure that simplifies downstream modeling. Validated on the MIMIC-CXR and CheXpert Plus dataset for pneumonia detection, NEURAL achieves a 93.4-97.7\% reduction in image data size while maintaining a high diagnostic performance of 0.88-0.95 AUC, outperforming other baseline models that use uncompressed data. By creating a persistent, task-agnostic data asset, NEURAL resolves the trade-off between data size and clinical utility, enabling efficient workflows and teleradiology without sacrificing performance. Our NEURAL code is available at https://github.com/basiralab/NEURAL.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

NEURAL: Attention-Guided Pruning for Unified Multimodal Resource-Constrained Clinical Evaluation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Plug-and-Play Image Restoration with Flow Matching: A Continuous Viewpoint

Inference-time Stochastic Refinement of GRU-Normalizing Flow for Real-time Video...

Rethinking the Use of Vision Transformers for AI-Generated Image Detection

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias...

HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Tex...

Навигация