Smart Trial: Evaluating the Use of Large Language Models for Recruiting Clinical Trial Participants via Social Media
2509.10584v1
cs.CY, cs.AI, cs.CL
2025-09-17
Авторы:
Xiaofan Zhou, Zisu Wang, Janice Krieger, Mohan Zalake, Lu Cheng
Резюме на русском
## Контекст
Clinical trials (CT) являются крайне важной частью медицинских исследований, помогая развивать новые методы лечения и становясь ключевым инструментом в улучшении здоровья. Однако важность CT не означает простоты их проведения. Одной из самых сложных задач в этом процессе является поиск подходящих для участия в экспериментах пациентов. Они должны соответствовать сложному набору критериев, что часто становится причиной задержек или ошибок.
На данный момент, работники в этой области используют в основном традиционные методы, такие как рекламные объявления или анализ электронных карточек пациентов. Однако эти подходы обычно требуют много времени, имеют ограниченную географическую доступность и не всегда эффективны. В этой работе предлагается использовать современные технологии, а именно ларже ларже language models (LLMs), для улучшения процесса поиска подходящих кандидатов.
LLMs, развившиеся в последние годы, имеют возможность тонкого понимания текста и возможность его анализа. Это делает их подходом, который может помочь в поиске и анализе данных на социальных сетях. Данная работа основывается на использовании двух коллекций данных из социальных медиа, относящихся к различным заболеваниям, и исследует возможности LLMs в том, чтобы выявлять потенциальных участников для CT.
## Метод
Для этого исследования были использованы две коллекции данных, полученные из социальных сетей Reddit. Эти коллекции относятся к двум различным тематикам: колоректальному рака и простатическому рака. Каждая коллекция содержит посты и комментарии, в которых пользователи обсуждают свои здоровье и, возможно, выражают интерес к участию в kliniческих испытаниях.
Для исследования использовались 7 различных моделей LLMs. Эти модели были обучены на данных TRIALQA, которая является собственной набором данных, созданного для этого исследования. Здесь включены два основных типа задач: определение, соответствует ли пользователь элигибильным критериям, и определение, почему пользователь заинтересован в участии в CT.
Для обучения использовались различные стратегии, включая подходы, ориентированные на точность, настройку гиперпараметров и анализ разных моделей. Эти модели были поданы на разные данные, чтобы изучить их уровень точности и способность решать задачи, связанные с поиском подходящих участников.
## Результаты
В результате экспериментов был показан том, что LLMs действительно могут быть эффективными в выполнении некоторых задач, связанных с поиском подходящих участников для CT. Однако эти модели сталкиваются с ограничениями при выполнении более сложных задач, включающих многош
Abstract
Clinical trials (CT) are essential for advancing medical research and
treatment, yet efficiently recruiting eligible participants -- each of whom
must meet complex eligibility criteria -- remains a significant challenge.
Traditional recruitment approaches, such as advertisements or electronic health
record screening within hospitals, are often time-consuming and geographically
constrained. This work addresses the recruitment challenge by leveraging the
vast amount of health-related information individuals share on social media
platforms. With the emergence of powerful large language models (LLMs) capable
of sophisticated text understanding, we pose the central research question: Can
LLM-driven tools facilitate CT recruitment by identifying potential
participants through their engagement on social media? To investigate this
question, we introduce TRIALQA, a novel dataset comprising two social media
collections from the subreddits on colon cancer and prostate cancer. Using
eligibility criteria from public real-world CTs, experienced annotators are
hired to annotate TRIALQA to indicate (1) whether a social media user meets a
given eligibility criterion and (2) the user's stated reasons for interest in
participating in CT. We benchmark seven widely used LLMs on these two
prediction tasks, employing six distinct training and inference strategies. Our
extensive experiments reveal that, while LLMs show considerable promise, they
still face challenges in performing the complex, multi-hop reasoning needed to
accurately assess eligibility criteria.
Ссылки и действия
Дополнительные ресурсы: