How many patients could we save with LLM priors?
2509.04250v1
stat.ME, cs.AI, cs.ET, cs.IR, stat.AP
2025-09-06
Авторы:
Shota Arai, David Selby, Andrew Vargo, Sebastian Vollmer
Резюме на русском
#### Контекст
Клинические испытания являются ключевым элементом в разработке лекарственных средств, но часто требуют больших объемов данных и числа участников для достижения статистической силы. Это приводит к увеличению стоимости исследований и потенциальным рискум для участников. Большие языковые модели (LLMs) содержат огромные объемы знаний, включая информацию о клинических характеристиках и адверсных реакциях лекарственных средств. Мотивацией для данного исследования является исследование возможности использования LLMs для создания информативных предварительных распределений в моделях Байесовского моделирования, чтобы улучшить точность и эффективность клинических исследований.
#### Метод
Для решения этой задачи разработана новая методология, основанная на гибридном Байесовском моделировании с использованием предварительных распределений, информированных знаниями LLMs. Метод включает предварительно обученную LLM для генерирования информативных предварительных распределений для гиперпараметров в гибридных моделях. Эти предварительные распределения используются для моделирования адверсных реакций в клинических испытаниях. Технические решения включают архитектуру модели, позволяющую эффективно обновлять предварительные распределения на основе реальных данных испытаний. Модель протестирована на реальных данных клинических испытаний, а ее производительность была сравнена с традиционными методами.
#### Результаты
В ходе экспериментов на реальных данных клинических испытаний было продемонстрировано, что LLM-информированные предварительные распределения позволяют значительно улучшить точность прогнозирования адверсных реакций по сравнению с традиционными методами. Было проведено подробное анализирование чувствительности модели к температуре и проверка с точки зрения кросс-валидации. Результаты показали, что LLM-подход дает более стабильные и точные результаты, снижая необходимое число участников в испытаниях.
#### Значимость
Использование LLM-информированных предварительных распределений может значительно уменьшить необходимое число участников в клинических испытаниях, сохранив или даже повысив статистическую силу. Это позволит снизить стоимость исследований и уменьшить риск для участников. Благодаря этой модели можно будет оптимизировать клинические испытания, повысить эффективность моделирования и существенно повлиять на регуляторные решения по одобрению новых лекарственных средств.
#### Выводы
Данное исследование показало, что использование знаний LLMs для создания предварительных распределений в Байесо
Abstract
Imagine a world where clinical trials need far fewer patients to achieve the
same statistical power, thanks to the knowledge encoded in large language
models (LLMs). We present a novel framework for hierarchical Bayesian modeling
of adverse events in multi-center clinical trials, leveraging LLM-informed
prior distributions. Unlike data augmentation approaches that generate
synthetic data points, our methodology directly obtains parametric priors from
the model. Our approach systematically elicits informative priors for
hyperparameters in hierarchical Bayesian models using a pre-trained LLM,
enabling the incorporation of external clinical expertise directly into
Bayesian safety modeling. Through comprehensive temperature sensitivity
analysis and rigorous cross-validation on real-world clinical trial data, we
demonstrate that LLM-derived priors consistently improve predictive performance
compared to traditional meta-analytical approaches. This methodology paves the
way for more efficient and expert-informed clinical trial design, enabling
substantial reductions in the number of patients required to achieve robust
safety assessment and with the potential to transform drug safety monitoring
and regulatory decision making.