Beyond Imaging: Vision Transformer Digital Twin Surrogates for 3D+T Biological Tissue Dynamics

2508.15883v1 eess.IV, cs.AI, cs.LG, q-bio.TO 2025-08-25
Авторы:

Kaan Berke Ugurlar, Joaquín de Navascués, Michael Taynnan Barros

Резюме на русском

#### Контекст Область исследований, ориентированная на понимание динамики организации и гомеостаза живых тканей, требует высококачественных временных серий изображений, а также методов, позволяющих извлекать интерпретируемые и прогностические аналитические выводы из сложных данных. Несмотря на развитие методов изображения, включая многослойные сети и формализмы нейровизуализации, существует недостаток в систематических подходах к моделированию и визуализации тканевых динамик. Этот недостаток ограничивает возможности выполнения виртуальных экспериментов в биологических исследованиях. Мотивация заключается в разработке новых методик, которые могут обеспечить высокоточные, временно резолюционные модели для томографических изображений в реальном времени, позволяющих интеллектуального анализа и моделирования тканевых процессов. #### Метод Предложенный подход, названный Vision Transformer Digital Twin Surrogate Network (VT-DTSN), является глубоким обучением, основанным на трансформерах с в site pretraining, использующим DINO (Self-Distillation with NO Labels). Модель принимает в качестве входных данных последовательные сечения ткани живого организма, полученные с помощью временных серий томографических изображений, и предсказывает их временную динамику в 3D+T пространстве. Архитектура VT-DTSN включает несколько ключевых модулей: Vision Transformer для локального представления входных изображений, Multi-view Fusion Block для объединения многопрослойных сечений и Feature Alignment Module для сохранения биологической правдоподобности выходных данных. Для обучения используется составной функционал ошибки, который оптимизирует пиксельную точность, разрешение структуры и согласование в функциональных пространствах. Такой подход обеспечивает высокую точность моделирования и эффективность вычислений. #### Результаты В экспериментах были использованы временные серии изображений Drosophila midgut, полученные с помощью томографических изображений в реальном времени. VT-DTSN был обучен на данных с высоким разрешением и проверен на независимых наборах данных. Результаты показывают, что модель достигает очень высокой точности в описании динамики тканей, с минимальным погрешностным расхождением и высокой детализацией биологических структур. Было проанализировано влияние различных модулей модели, включая Multi-view Fusion и Feature Alignment, на качество результатов. Было показано, что VT-DTSN позволяет эффективно моделировать тканевые процессы в реальном времени, обеспечивая возможность виртуальных экспериментов и теоретических исследований. #### Значимость Разработанная модель открывает новые возможности в моделировании тканевых процессов в биологии. Ее применение может быть распространено

Abstract

Understanding the dynamic organization and homeostasis of living tissues requires high-resolution, time-resolved imaging coupled with methods capable of extracting interpretable, predictive insights from complex datasets. Here, we present the Vision Transformer Digital Twin Surrogate Network (VT-DTSN), a deep learning framework for predictive modeling of 3D+T imaging data from biological tissue. By leveraging Vision Transformers pretrained with DINO (Self-Distillation with NO Labels) and employing a multi-view fusion strategy, VT-DTSN learns to reconstruct high-fidelity, time-resolved dynamics of a Drosophila midgut while preserving morphological and feature-level integrity across imaging depths. The model is trained with a composite loss prioritizing pixel-level accuracy, perceptual structure, and feature-space alignment, ensuring biologically meaningful outputs suitable for in silico experimentation and hypothesis testing. Evaluation across layers and biological replicates demonstrates VT-DTSN's robustness and consistency, achieving low error rates and high structural similarity while maintaining efficient inference through model optimization. This work establishes VT-DTSN as a feasible, high-fidelity surrogate for cross-timepoint reconstruction and for studying tissue dynamics, enabling computational exploration of cellular behaviors and homeostasis to complement time-resolved imaging studies in biological research.

Ссылки и действия