Data-driven Discovery of Digital Twins in Biomedical Research

2508.21484v1 q-bio.QM, cs.LG, stat.ML 2025-09-02
Авторы:

Clémence Métayer, Annabelle Ballesta, Julien Martinelli

Резюме на русском

## Контекст ### Область исследования и мотивация Появление высокопроизводительных технологий в биомедицинских исследованиях привело к обширному доступу к широкомасштабным данным, которые обеспечили надежный дизайн цифровых двойников биомедицинских систем и пациентов. Эти цифровые двойники моделируют ключевые реакционные сети, определяющие переносимость или ответ на лекарственные препараты, и оказывают важную поддержку в лекарственном открытии и персонализированных терапиях. Однако, в настоящее время, их развитие все еще опирается на трудоемкую интеграцию данных вручную моделиром, что делает критически важной разработку автоматизированных подходов. ### Значимость Изучение автоматического выявления цифровых двойников в биомедицинских исследованиях имеет перспективу для внедрения во все более широких областях, включая разработку новых лекарств, индивидуализированной медицины и подробное понимание биологических систем. Однако, существующие технологии встречаются с рядом технических вызовов, включая шумные и неполные данные, неопределенность в моделировании и сложности в интеграции предварительных знаний. ## Метод ### Методология и технические решения Методология, рассматриваемая в работе, основывается на автоматической интерпретации цифровых двойников с помощью символического и спарсе регрессии. Символическое моделирование позволяет выражать биологические процессы через латеральные уравнения, в то время как спарсе регрессия оптимизирует веса параметров в предложенной библиотеке реакций. Эти методы адаптируются для работы с шумными и неполными данными, которые характерны для биологических исследований. ### Архитектура Архитектура методологии включает следующие компоненты: - **Интеграция данных**: Сбор и обработка биологических данных с различных источников, включая различные типы биологических сигналов и высокопроизводительные технологии. - **Обработка данных**: Методы для удаления шума, заполнения пропусков и аппроксимации производных переменных. - **Моделирование сети**: Реализация символической и спарсе регрессии для выявления цифровых двойников. - **Оценка результатов**: Измерение точности, валидности и общей универсальности моделированных сетей. ## Результаты ### Эксперименты и Данные Наборы данных включали опыты с биологическими системами, где измерялись динамические переменные при различных условиях. Это включало данные о выражении генов, протеинов, метаболических процессах и других ключевых показателях. ### Резуль

Abstract

Recent technological advances have expanded the availability of high-throughput biological datasets, enabling the reliable design of digital twins of biomedical systems or patients. Such computational tools represent key reaction networks driving perturbation or drug response and can guide drug discovery and personalized therapeutics. Yet, their development still relies on laborious data integration by the human modeler, so that automated approaches are critically needed. The success of data-driven system discovery in Physics, rooted in clean datasets and well-defined governing laws, has fueled interest in applying similar techniques in Biology, which presents unique challenges. Here, we reviewed methodologies for automatically inferring digital twins from biological time series, which mostly involve symbolic or sparse regression. We evaluate algorithms according to eight biological and methodological challenges, associated to noisy/incomplete data, multiple conditions, prior knowledge integration, latent variables, high dimensionality, unobserved variable derivatives, candidate library design, and uncertainty quantification. Upon these criteria, sparse regression generally outperformed symbolic regression, particularly when using Bayesian frameworks. We further highlight the emerging role of deep learning and large language models, which enable innovative prior knowledge integration, though the reliability and consistency of such approaches must be improved. While no single method addresses all challenges, we argue that progress in learning digital twins will come from hybrid and modular frameworks combining chemical reaction network-based mechanistic grounding, Bayesian uncertainty quantification, and the generative and knowledge integration capacities of deep learning. To support their development, we further propose a benchmarking framework to evaluate methods across all challenges.

Ссылки и действия

Связанные статьи

Data-driven Discovery of Digital Twins in Biomedical Research

#### Контекст В последние десятилетия технологии высокого производительности позволили создавать цифровые модели биомед...

2025-09-03