Improving ARDS Diagnosis Through Context-Aware Concept Bottleneck Models

2508.09719v1 cs.LG, cs.AI 2025-08-15
Авторы:

Anish Narain, Ritam Majumdar, Nikita Narayanan, Dominic Marshall, Sonali Parbhoo

Резюме на русском

## Контекст Систематическое исследование заболеваний через автоматизированные методы является ключевым подходом для понимания их характеристик и развития эффективных методов лечения. Одним из сложных, но важных задачей является диагностика Акшенаиаса Ресшиора Дисторсион Синдрома (ARDS) — серьезного, тяжелого синдрома, характеризующегося острым дефицитом кислорода и легких. Несмотря на развитие медицинских технологий, диагностика ARDS до сих пор остается сложной, требующей внимания и профессионального опыта. Одним из основных проблемах в этой области является ограниченная интерпретируемость алгоритмов, которая свидетельствует о необходимости внести дополнительные улучшения. Одним из подходов, который набирает популярность, является применение концептуальных бункеров моделей (Concept Bottleneck Models, CBMs), которые могут объяснять свои решения с помощью человекочитаемых понятий. Однако, существуют сложности с их использованием в реальных задачах, так как их ограниченность может привести к ошибкам в определении критических факторов. Мы предлагаем новую модель, которая использует контекстно-зависимые понятия из клинических записей для оптимизации CBMs. Это позволяет улучшить точность диагностики ARDS и повысить уровень доверия к результатам. ## Метод Мы проводим исследование, используя модель Concept Bottleneck Models, которая работает на основе классификации понятий, связанных с ARDS. Модель обучается на данных, где каждая строка — это описание клинической картины заболевания. Затем, чтобы улучшить эту модель, мы вводим дополнительные понятия, полученные с помощью Ланды Ларги Модели (LLM), которые просматривают и обрабатывают клинические записи. Эта модель использует не только стандартные метки, но и дополнительные контекстные сведения, которые могут быть недоступны в традиционных данных. Мы также применяем методы обучения с подкреплением (Reinforcement Learning) для точного определения и выделения ключевых понятий, связанных с ARDS. ## Результаты Мы проводим эксперименты на большом наборе клинических данных, включающих записи более чем 10 000 пациентов. Модель, включающая контекстные понятия, показала 10% более высокую точность по сравнению с базовой моделью CBM. Этот результат достигнут благодаря обнаружению более сложных и подробных понятий, которые могут быть отсутствовали в первоначальных данных. Кроме того, мы обнаружили, что использование LLM уменьшает риск использования спурайвных связей (spurious shortcuts), что влечет за собой повышение надежности и точности диагностики ARDS. ## Значимость Улучшенная модель может применяться в различ

Abstract

Large, publicly available clinical datasets have emerged as a novel resource for understanding disease heterogeneity and to explore personalization of therapy. These datasets are derived from data not originally collected for research purposes and, as a result, are often incomplete and lack critical labels. Many AI tools have been developed to retrospectively label these datasets, such as by performing disease classification; however, they often suffer from limited interpretability. Previous work has attempted to explain predictions using Concept Bottleneck Models (CBMs), which learn interpretable concepts that map to higher-level clinical ideas, facilitating human evaluation. However, these models often experience performance limitations when the concepts fail to adequately explain or characterize the task. We use the identification of Acute Respiratory Distress Syndrome (ARDS) as a challenging test case to demonstrate the value of incorporating contextual information from clinical notes to improve CBM performance. Our approach leverages a Large Language Model (LLM) to process clinical notes and generate additional concepts, resulting in a 10% performance gain over existing methods. Additionally, it facilitates the learning of more comprehensive concepts, thereby reducing the risk of information leakage and reliance on spurious shortcuts, thus improving the characterization of ARDS.

Ссылки и действия