How many patients could we save with LLM priors?

2509.04250v1 stat.ME, cs.AI, cs.ET, cs.IR, stat.AP 2025-09-06
Авторы:

Shota Arai, David Selby, Andrew Vargo, Sebastian Vollmer

Резюме на русском

#### Контекст Клинические испытания являются ключевым элементом в разработке лекарственных средств, но часто требуют больших объемов данных и числа участников для достижения статистической силы. Это приводит к увеличению стоимости исследований и потенциальным рискум для участников. Большие языковые модели (LLMs) содержат огромные объемы знаний, включая информацию о клинических характеристиках и адверсных реакциях лекарственных средств. Мотивацией для данного исследования является исследование возможности использования LLMs для создания информативных предварительных распределений в моделях Байесовского моделирования, чтобы улучшить точность и эффективность клинических исследований. #### Метод Для решения этой задачи разработана новая методология, основанная на гибридном Байесовском моделировании с использованием предварительных распределений, информированных знаниями LLMs. Метод включает предварительно обученную LLM для генерирования информативных предварительных распределений для гиперпараметров в гибридных моделях. Эти предварительные распределения используются для моделирования адверсных реакций в клинических испытаниях. Технические решения включают архитектуру модели, позволяющую эффективно обновлять предварительные распределения на основе реальных данных испытаний. Модель протестирована на реальных данных клинических испытаний, а ее производительность была сравнена с традиционными методами. #### Результаты В ходе экспериментов на реальных данных клинических испытаний было продемонстрировано, что LLM-информированные предварительные распределения позволяют значительно улучшить точность прогнозирования адверсных реакций по сравнению с традиционными методами. Было проведено подробное анализирование чувствительности модели к температуре и проверка с точки зрения кросс-валидации. Результаты показали, что LLM-подход дает более стабильные и точные результаты, снижая необходимое число участников в испытаниях. #### Значимость Использование LLM-информированных предварительных распределений может значительно уменьшить необходимое число участников в клинических испытаниях, сохранив или даже повысив статистическую силу. Это позволит снизить стоимость исследований и уменьшить риск для участников. Благодаря этой модели можно будет оптимизировать клинические испытания, повысить эффективность моделирования и существенно повлиять на регуляторные решения по одобрению новых лекарственных средств. #### Выводы Данное исследование показало, что использование знаний LLMs для создания предварительных распределений в Байесо

Abstract

Imagine a world where clinical trials need far fewer patients to achieve the same statistical power, thanks to the knowledge encoded in large language models (LLMs). We present a novel framework for hierarchical Bayesian modeling of adverse events in multi-center clinical trials, leveraging LLM-informed prior distributions. Unlike data augmentation approaches that generate synthetic data points, our methodology directly obtains parametric priors from the model. Our approach systematically elicits informative priors for hyperparameters in hierarchical Bayesian models using a pre-trained LLM, enabling the incorporation of external clinical expertise directly into Bayesian safety modeling. Through comprehensive temperature sensitivity analysis and rigorous cross-validation on real-world clinical trial data, we demonstrate that LLM-derived priors consistently improve predictive performance compared to traditional meta-analytical approaches. This methodology paves the way for more efficient and expert-informed clinical trial design, enabling substantial reductions in the number of patients required to achieve robust safety assessment and with the potential to transform drug safety monitoring and regulatory decision making.

Ссылки и действия