Iterative Learning of Computable Phenotypes for Treatment Resistant Hypertension using Large Language Models
2508.05581v1
cs.LG, cs.AI, cs.CL
2025-08-08
Авторы:
Guilherme Seidyo Imai Aldeia, Daniel S. Herman, William G. La Cava
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Гипертоническая болезнь остается одним из ведущих факторов риска сердечно-сосудистых заболеваний и преждевременной смертности во всем мире. Особую тревогу вызывает устойчивая артериальная гипертония (resistant hypertension) — состояние, при котором артериальное давление остается выше целевого уровня несмотря на прием трех антигипертензивных препаратов различных классов, включая диуретик, в оптимальных дозировках. Точная идентификация пациентов с устойчивой гипертонией критически важна для корректировки терапевтических стратегий и улучшения прогноза, однако клинические портреты таких пациентов остаются неоднозначными и сложными для формализации.
Традиционные подходы к созданию вычислимых фенотипов (computable phenotypes, CP) — формальных правил для идентификации клинических состояний на основе электронных медицинских записей — требуют значительных ресурсов, включая участие экспертов-клиницистов, ручную разметку больших объемов данных и длительную валидацию. Современные методы машинного обучения, достигающие высокой точности, часто представляют собой "черные ящики", недоступные для интерпретации клиницистами и не позволяющие понять патофизиологические механизмы заболеваний.
Большие языковые модели (LLM) продемонстрировали выдающиеся способности в области медицинского консультирования и программирования, однако их потенциал для генерации интерпретируемых вычислимых фенотипов остается практически неизученным. Существующие исследования фокусировались в основном на задачах вопросно-ответного формата и извлечения информации из текста, в то время как возможность автоматической генерации формальных правил для клинических портретов остается открытым фронтиром. Это создает значительный разрыв между возможностями современных ИИ-систем и потребностями клинической практики в масштабируемых, интерпретируемых инструментах поддержки принятия решений.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Авторы разработали инновационную стратегию "синтез-исполнение-отладка-инструкция" (synthesize, execute, debug, instruct), которая использует возможности больших языковых моделей для генерации и итеративного уточнения вычислимых фенотипов на основе данных-обратной связи. Методология представляет собой многоэтапный процесс, начинающийся с нулевого обучения (zero-shot), при котором LLM генерирует первоначальные правила без предварительных примеров, опираясь исключительно на текстовое описание клинического фенотипа.
На этапе синтеза модель получает естественно-языковое описание целевого клинического состояния и генерирует соответствующий код, обычно представленный в виде SQL-запросов или логических выражений. Сгенерированные правила затем исполняются на реальных клинических данных, что позволяет получить предсказания наличия или отсутствия исследуемого фенотипа у пациентов. Используемая вычислительная архитектура включает в себя механизмы безопасного выполнения кода для предотвращения потенциальных уязвимостей и обеспечения конфиденциальности медицинских данных.
Ключевым элементом является процесс отладки, при котором результаты исполнения сопоставляются с золотым стандартом или экспертной разметкой. Расхождения между предсказанными и фактическими метками анализируются LLM, которая затем генерирует инструкции для улучшения правил. Этот цикл повторяется итеративно, позволяя модели постепенно уточнять и оптимизировать вычислимые фенотипы. Процесс продолжается до достижения приемлемого уровня производительности или исчерпания заданного количества итераций.
Архитектура системы включает компоненты для управления версиями генерируемого кода, логирования всех изменений и обеспечения воспроизводимости результатов. Специальные механизмы предотвращают циклические улучшения и гарантируют конвергенцию процесса. Для обработки сложных случаев реализована система приоритизации ошибок, фокусирующая внимание LLM на наиболее критичных различиях между предсказанными и истинными метками.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Исследование оценивало способность LLM генерировать точные и лаконичные вычислимые фенотипы для шести клинических состояний различной сложности,
Abstract
Large language models (LLMs) have demonstrated remarkable capabilities for
medical question answering and programming, but their potential for generating
interpretable computable phenotypes (CPs) is under-explored. In this work, we
investigate whether LLMs can generate accurate and concise CPs for six clinical
phenotypes of varying complexity, which could be leveraged to enable scalable
clinical decision support to improve care for patients with hypertension. In
addition to evaluating zero-short performance, we propose and test a
synthesize, execute, debug, instruct strategy that uses LLMs to generate and
iteratively refine CPs using data-driven feedback. Our results show that LLMs,
coupled with iterative learning, can generate interpretable and reasonably
accurate programs that approach the performance of state-of-the-art ML methods
while requiring significantly fewer training examples.
Ссылки и действия
Дополнительные ресурсы: