Data-driven Discovery of Digital Twins in Biomedical Research
2508.21484v1
q-bio.QM, cs.LG, stat.ML
2025-09-02
Авторы:
Clémence Métayer, Annabelle Ballesta, Julien Martinelli
Резюме на русском
## Контекст
### Область исследования и мотивация
Появление высокопроизводительных технологий в биомедицинских исследованиях привело к обширному доступу к широкомасштабным данным, которые обеспечили надежный дизайн цифровых двойников биомедицинских систем и пациентов. Эти цифровые двойники моделируют ключевые реакционные сети, определяющие переносимость или ответ на лекарственные препараты, и оказывают важную поддержку в лекарственном открытии и персонализированных терапиях. Однако, в настоящее время, их развитие все еще опирается на трудоемкую интеграцию данных вручную моделиром, что делает критически важной разработку автоматизированных подходов.
### Значимость
Изучение автоматического выявления цифровых двойников в биомедицинских исследованиях имеет перспективу для внедрения во все более широких областях, включая разработку новых лекарств, индивидуализированной медицины и подробное понимание биологических систем. Однако, существующие технологии встречаются с рядом технических вызовов, включая шумные и неполные данные, неопределенность в моделировании и сложности в интеграции предварительных знаний.
## Метод
### Методология и технические решения
Методология, рассматриваемая в работе, основывается на автоматической интерпретации цифровых двойников с помощью символического и спарсе регрессии. Символическое моделирование позволяет выражать биологические процессы через латеральные уравнения, в то время как спарсе регрессия оптимизирует веса параметров в предложенной библиотеке реакций. Эти методы адаптируются для работы с шумными и неполными данными, которые характерны для биологических исследований.
### Архитектура
Архитектура методологии включает следующие компоненты:
- **Интеграция данных**: Сбор и обработка биологических данных с различных источников, включая различные типы биологических сигналов и высокопроизводительные технологии.
- **Обработка данных**: Методы для удаления шума, заполнения пропусков и аппроксимации производных переменных.
- **Моделирование сети**: Реализация символической и спарсе регрессии для выявления цифровых двойников.
- **Оценка результатов**: Измерение точности, валидности и общей универсальности моделированных сетей.
## Результаты
### Эксперименты и Данные
Наборы данных включали опыты с биологическими системами, где измерялись динамические переменные при различных условиях. Это включало данные о выражении генов, протеинов, метаболических процессах и других ключевых показателях.
### Резуль
Abstract
Recent technological advances have expanded the availability of
high-throughput biological datasets, enabling the reliable design of digital
twins of biomedical systems or patients. Such computational tools represent key
reaction networks driving perturbation or drug response and can guide drug
discovery and personalized therapeutics. Yet, their development still relies on
laborious data integration by the human modeler, so that automated approaches
are critically needed. The success of data-driven system discovery in Physics,
rooted in clean datasets and well-defined governing laws, has fueled interest
in applying similar techniques in Biology, which presents unique challenges.
Here, we reviewed methodologies for automatically inferring digital twins from
biological time series, which mostly involve symbolic or sparse regression. We
evaluate algorithms according to eight biological and methodological
challenges, associated to noisy/incomplete data, multiple conditions, prior
knowledge integration, latent variables, high dimensionality, unobserved
variable derivatives, candidate library design, and uncertainty quantification.
Upon these criteria, sparse regression generally outperformed symbolic
regression, particularly when using Bayesian frameworks. We further highlight
the emerging role of deep learning and large language models, which enable
innovative prior knowledge integration, though the reliability and consistency
of such approaches must be improved. While no single method addresses all
challenges, we argue that progress in learning digital twins will come from
hybrid and modular frameworks combining chemical reaction network-based
mechanistic grounding, Bayesian uncertainty quantification, and the generative
and knowledge integration capacities of deep learning. To support their
development, we further propose a benchmarking framework to evaluate methods
across all challenges.