Data-driven Discovery of Digital Twins in Biomedical Research

2508.21484v2 q-bio.QM, cs.LG, stat.ML 2025-09-03
Авторы:

Clémence Métayer, Annabelle Ballesta, Julien Martinelli

Резюме на русском

#### Контекст В последние десятилетия технологии высокого производительности позволили создавать цифровые модели биомедицинских систем и пациентов. Эти цифровые двойники, или digital twins, могут описывать ключевые реакционные сети, влияющие на биологические системы, включая ответы на лекарства и возможности лечения. Однако создание этих моделей часто требует трудоемкой интеграции данных, что ограничивает их универсальность и эффективность. Для того чтобы улучшить процесс создания digital twins, требуется разработка автоматизированных методов, которые могут упростить интеллектуальную нагрузку на человека и повысить точность и надежность данных моделей. #### Метод Методология развития digital twins в биологии основывается на нескольких ключевых подходах. Символьная и спарсе регрессия — это основные методы, используемые для выявления структуры биологических систем с помощью временных рядов данных. Данные представляют собой значительные вызовы, включая шум, неполноту, необходимость интеграции предварительных знаний и обработку высокомерности. Особенно успешными оказались алгоритмы спарсе регрессии, особенно те, что используют фреймворки Байеса, так как они умело комбинируют экспериментальные данные с теоретическими моделями. Более того, внедрение глубокого обучения и языковых моделей становится все более актуальным, так как эти технологии могут улучшить интеграцию предварительных знаний и прогнозирование. Несмотря на это, ни один метод не может удовлетворять всем биологическим и методологическим вызовам одновременно. #### Результаты В ходе экспериментов были проанализированы несколько методов автоматического выявления digital twins. Использовались различные типы биологических данных, включая временные ряды, полученные с помощью высокопроизводительных технологий. Обнаружилось, что спарсе регрессия показывает лучшие результаты, особенно когда используется фреймворк Байеса. Эти методы удачно обрабатывают шум и неполноту данных, что важно для биологических исследований. Однако глубокое обучение также демонстрирует перспективу, особенно когда интегрирует значительные объемы предварительных знаний. Тем не менее, необходимо работать над улучшением надежности и последовательности таких подходов. #### Значимость Развитие digital twins в биомедицине открывает новые возможности для лечения персонализированных терапий, раннего диагностирования заболеваний и изучения биологических систем. Эти модели могут помочь в изучении фармакологической активности лекарств, а также в создании стратегий лечения, ориентированных на индивидуального пациента.

Abstract

Recent technological advances have expanded the availability of high-throughput biological datasets, enabling the reliable design of digital twins of biomedical systems or patients. Such computational tools represent key reaction networks driving perturbation or drug response and can guide drug discovery and personalized therapeutics. Yet, their development still relies on laborious data integration by the human modeler, so that automated approaches are critically needed. The success of data-driven system discovery in Physics, rooted in clean datasets and well-defined governing laws, has fueled interest in applying similar techniques in Biology, which presents unique challenges. Here, we reviewed methodologies for automatically inferring digital twins from biological time series, which mostly involve symbolic or sparse regression. We evaluate algorithms according to eight biological and methodological challenges, associated to noisy/incomplete data, multiple conditions, prior knowledge integration, latent variables, high dimensionality, unobserved variable derivatives, candidate library design, and uncertainty quantification. Upon these criteria, sparse regression generally outperformed symbolic regression, particularly when using Bayesian frameworks. We further highlight the emerging role of deep learning and large language models, which enable innovative prior knowledge integration, though the reliability and consistency of such approaches must be improved. While no single method addresses all challenges, we argue that progress in learning digital twins will come from hybrid and modular frameworks combining chemical reaction network-based mechanistic grounding, Bayesian uncertainty quantification, and the generative and knowledge integration capacities of deep learning. To support their development, we further propose a benchmarking framework to evaluate methods across all challenges.

Ссылки и действия

Связанные статьи

Data-driven Discovery of Digital Twins in Biomedical Research

## Контекст ### Область исследования и мотивация Появление высокопроизводительных технологий в биомедицинских исследов...

2025-09-02