Smart Trial: Evaluating the Use of Large Language Models for Recruiting Clinical Trial Participants via Social Media

2509.10584v1 cs.CY, cs.AI, cs.CL 2025-09-17
Авторы:

Xiaofan Zhou, Zisu Wang, Janice Krieger, Mohan Zalake, Lu Cheng

Резюме на русском

## Контекст Clinical trials (CT) являются крайне важной частью медицинских исследований, помогая развивать новые методы лечения и становясь ключевым инструментом в улучшении здоровья. Однако важность CT не означает простоты их проведения. Одной из самых сложных задач в этом процессе является поиск подходящих для участия в экспериментах пациентов. Они должны соответствовать сложному набору критериев, что часто становится причиной задержек или ошибок. На данный момент, работники в этой области используют в основном традиционные методы, такие как рекламные объявления или анализ электронных карточек пациентов. Однако эти подходы обычно требуют много времени, имеют ограниченную географическую доступность и не всегда эффективны. В этой работе предлагается использовать современные технологии, а именно ларже ларже language models (LLMs), для улучшения процесса поиска подходящих кандидатов. LLMs, развившиеся в последние годы, имеют возможность тонкого понимания текста и возможность его анализа. Это делает их подходом, который может помочь в поиске и анализе данных на социальных сетях. Данная работа основывается на использовании двух коллекций данных из социальных медиа, относящихся к различным заболеваниям, и исследует возможности LLMs в том, чтобы выявлять потенциальных участников для CT. ## Метод Для этого исследования были использованы две коллекции данных, полученные из социальных сетей Reddit. Эти коллекции относятся к двум различным тематикам: колоректальному рака и простатическому рака. Каждая коллекция содержит посты и комментарии, в которых пользователи обсуждают свои здоровье и, возможно, выражают интерес к участию в kliniческих испытаниях. Для исследования использовались 7 различных моделей LLMs. Эти модели были обучены на данных TRIALQA, которая является собственной набором данных, созданного для этого исследования. Здесь включены два основных типа задач: определение, соответствует ли пользователь элигибильным критериям, и определение, почему пользователь заинтересован в участии в CT. Для обучения использовались различные стратегии, включая подходы, ориентированные на точность, настройку гиперпараметров и анализ разных моделей. Эти модели были поданы на разные данные, чтобы изучить их уровень точности и способность решать задачи, связанные с поиском подходящих участников. ## Результаты В результате экспериментов был показан том, что LLMs действительно могут быть эффективными в выполнении некоторых задач, связанных с поиском подходящих участников для CT. Однако эти модели сталкиваются с ограничениями при выполнении более сложных задач, включающих многош

Abstract

Clinical trials (CT) are essential for advancing medical research and treatment, yet efficiently recruiting eligible participants -- each of whom must meet complex eligibility criteria -- remains a significant challenge. Traditional recruitment approaches, such as advertisements or electronic health record screening within hospitals, are often time-consuming and geographically constrained. This work addresses the recruitment challenge by leveraging the vast amount of health-related information individuals share on social media platforms. With the emergence of powerful large language models (LLMs) capable of sophisticated text understanding, we pose the central research question: Can LLM-driven tools facilitate CT recruitment by identifying potential participants through their engagement on social media? To investigate this question, we introduce TRIALQA, a novel dataset comprising two social media collections from the subreddits on colon cancer and prostate cancer. Using eligibility criteria from public real-world CTs, experienced annotators are hired to annotate TRIALQA to indicate (1) whether a social media user meets a given eligibility criterion and (2) the user's stated reasons for interest in participating in CT. We benchmark seven widely used LLMs on these two prediction tasks, employing six distinct training and inference strategies. Our extensive experiments reveal that, while LLMs show considerable promise, they still face challenges in performing the complex, multi-hop reasoning needed to accurately assess eligibility criteria.

Ссылки и действия