Data-driven Discovery of Digital Twins in Biomedical Research
2508.21484v2
q-bio.QM, cs.LG, stat.ML
2025-09-03
Авторы:
Clémence Métayer, Annabelle Ballesta, Julien Martinelli
Резюме на русском
#### Контекст
В последние десятилетия технологии высокого производительности позволили создавать цифровые модели биомедицинских систем и пациентов. Эти цифровые двойники, или digital twins, могут описывать ключевые реакционные сети, влияющие на биологические системы, включая ответы на лекарства и возможности лечения. Однако создание этих моделей часто требует трудоемкой интеграции данных, что ограничивает их универсальность и эффективность. Для того чтобы улучшить процесс создания digital twins, требуется разработка автоматизированных методов, которые могут упростить интеллектуальную нагрузку на человека и повысить точность и надежность данных моделей.
#### Метод
Методология развития digital twins в биологии основывается на нескольких ключевых подходах. Символьная и спарсе регрессия — это основные методы, используемые для выявления структуры биологических систем с помощью временных рядов данных. Данные представляют собой значительные вызовы, включая шум, неполноту, необходимость интеграции предварительных знаний и обработку высокомерности. Особенно успешными оказались алгоритмы спарсе регрессии, особенно те, что используют фреймворки Байеса, так как они умело комбинируют экспериментальные данные с теоретическими моделями. Более того, внедрение глубокого обучения и языковых моделей становится все более актуальным, так как эти технологии могут улучшить интеграцию предварительных знаний и прогнозирование. Несмотря на это, ни один метод не может удовлетворять всем биологическим и методологическим вызовам одновременно.
#### Результаты
В ходе экспериментов были проанализированы несколько методов автоматического выявления digital twins. Использовались различные типы биологических данных, включая временные ряды, полученные с помощью высокопроизводительных технологий. Обнаружилось, что спарсе регрессия показывает лучшие результаты, особенно когда используется фреймворк Байеса. Эти методы удачно обрабатывают шум и неполноту данных, что важно для биологических исследований. Однако глубокое обучение также демонстрирует перспективу, особенно когда интегрирует значительные объемы предварительных знаний. Тем не менее, необходимо работать над улучшением надежности и последовательности таких подходов.
#### Значимость
Развитие digital twins в биомедицине открывает новые возможности для лечения персонализированных терапий, раннего диагностирования заболеваний и изучения биологических систем. Эти модели могут помочь в изучении фармакологической активности лекарств, а также в создании стратегий лечения, ориентированных на индивидуального пациента.
Abstract
Recent technological advances have expanded the availability of
high-throughput biological datasets, enabling the reliable design of digital
twins of biomedical systems or patients. Such computational tools represent key
reaction networks driving perturbation or drug response and can guide drug
discovery and personalized therapeutics. Yet, their development still relies on
laborious data integration by the human modeler, so that automated approaches
are critically needed. The success of data-driven system discovery in Physics,
rooted in clean datasets and well-defined governing laws, has fueled interest
in applying similar techniques in Biology, which presents unique challenges.
Here, we reviewed methodologies for automatically inferring digital twins from
biological time series, which mostly involve symbolic or sparse regression. We
evaluate algorithms according to eight biological and methodological
challenges, associated to noisy/incomplete data, multiple conditions, prior
knowledge integration, latent variables, high dimensionality, unobserved
variable derivatives, candidate library design, and uncertainty quantification.
Upon these criteria, sparse regression generally outperformed symbolic
regression, particularly when using Bayesian frameworks. We further highlight
the emerging role of deep learning and large language models, which enable
innovative prior knowledge integration, though the reliability and consistency
of such approaches must be improved. While no single method addresses all
challenges, we argue that progress in learning digital twins will come from
hybrid and modular frameworks combining chemical reaction network-based
mechanistic grounding, Bayesian uncertainty quantification, and the generative
and knowledge integration capacities of deep learning. To support their
development, we further propose a benchmarking framework to evaluate methods
across all challenges.