📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Property-Isometric Variational Autoencoders for Sequence Modeling and Design

2025-09-20

Авторы:

Elham Sadeghi, Xianqi Deng, I-Hsin Lin, Stacy M. Copp, Petko Bogdanov

## Контекст Моделирование и дизайн последовательностей биологических материалов, таких как DNA, RNA и белки, играет ключевую роль в разработке новых наноматериалов, биосенсоров, антимикробных средств и других технологий. Однако оптимизация сложных высокомерных свойств, таких как эмиссионные спектры фотопроводящих наночастиц, сопротивляемость к фото- и химическим воздействиям, и антимикробная активность пептидов, является высокосложной задачей. Традиционные модели, оперирующие простыми бинарными метками (например, привязка/непривязка), не могут корректно учитывать такие сложности. Существует необходимость в развитии моделей, которые бы гарантированно учитывали геометрическую структуру пространств свойств во время обучения и использования. ## Метод Разработанная модель, **Property-Isometric Variational Autoencoder (PrIVAE)**, представляет собой новую архитектуру вариационного автоэнкодера, которая сохраняет геометрию пространства свойств во время обучения и использования. Мы определяем пространство свойств как высокомерный манифест, локально приближаемый к графу ближайших соседей, восстановленному на основе определенного расстояния. Для того чтобы гарантировать то, что полученные представления последовательностей сохраняют геометрические свойства пространства свойств, мы используем (1) слои графных нейронных сетей в качестве кодировщика и (2) изометрический регуляризатор для управления геометрическими свойствами в пространстве представлений. Это позволяет гарантировать, что разброс последовательностей в генерируемом пространстве будет соответствовать геометрии пространства свойств, что в свою очередь позволяет ориентироваться на выполнение сложных целей в дизайне последовательностей. ## Результаты Мы проверили PrIVAE на двух задачах генерирующего моделирования: (1) дизайне DNA-последовательностей, шаблонирующих фотопроводящие металловые наночастицы, и (2) дизайне антимикробных пептидов. В двух экспериментах показано, что PrIVAE обеспечивает высокую точность воспроизведения последовательностей и эффективно организует генерируемое пространство по свойствам. На практической стадии мы провели влаговые эксперименты, в которых использовались полученные последовательности для создания фотопроводящих наночастиц. Это привело к 16.1-кратному увеличению концентрации наночастиц с редкими свойствами в сравнении с их содержанием в обучающей выборке. Эти результаты подтверждают эффективность PrIVAE в решении задач генерирующего дизайна с биологическими последовательностями. ## Значимость PrIVAE представляет собой

Annotation:

Biological sequence design (DNA, RNA, or peptides) with desired functional properties has applications in discovering novel nanomaterials, biosensors, antimicrobial drugs, and beyond. One common challenge is the ability to optimize complex high-dimensional properties such as target emission spectra of DNA-mediated fluorescent nanoparticles, photo and chemical stability, and antimicrobial activity of peptides across target microbes. Existing models rely on simple binary labels (e.g., binding/non-...

ID: 2509.14287v1 q-bio.QM, cs.AI, cs.LG

arXiv PDF

📄 Artificial Intelligence for CRISPR Guide RNA Design: Explainable Models and Off-Target Safety

2025-08-30

Авторы:

Alireza Abbaszadeh, Armita Shahlai

################################# ## Контекст ################################# Система CRISPR (Clustered Regularly Interspaced Short Palindromic Repeats) представляет собой необходимый инструмент для геномного редактирования, позволяя выполнять точное модификации генов. Одной из ключевых задач в этой области является оптимизация дизайна guide RNA (gRNA), который руководит Cas-энзимом к целевой последовательности. Оптимальный дизайн gRNA должен обеспечивать эффективность редактирования и минимизировать off-target эффекты, которые могут привести к нежелательным модификациям генома. Несмотря на прогресс в этой области, оценка on-target activity и off-target потенциала gRNA остается сложной и часто неточной задачей. Появление искусственного интеллекта (AI), особенно глубокого обучения, дало новые возможности для точной предсказания поведения gRNA. AI модели могут анализировать большие наборы данных и выявлять сложные зависимости между геномными последовательностями и производительностью Cas-энзима. Тем не менее, многие из этих моделей остаются "черными ящиками", что ограничивает их практическое применение в клинических и научных задачах. Недавние развития в области explainable AI (XAI) начали разглядеть эти черные ящики, предоставляя понятные для человека обоснования для предсказаний. Это решает не только проблему эффективности gRNA, но и обеспечивает новые возможности для расширения применения CRISPR в клиническую практику, включая лечение генетических заболеваний и разработку новых терапевтических агентов. ################################# ## Метод ################################# Для повышения точности и понятности дизайна gRNA в статье предлагается использование современных AI-моделей, включая глубокое обучение (deep learning), и explainable AI (XAI) техники. Модели разрабатываются на основе больших наборов данных, включающих последовательности gRNA и связанных с ними производительностей Cas-энзимов. Основной методологией является следующая: 1. Предварительная обработка данных: геномные последовательности gRNA и целевые гены обрабатываются для удаления шумов и выделения признаков, относящихся к производительности и off-target эффектам. 2. Обучение моделей: учитывается использование различных глубоких нейронных сетей, таких как рекуррентные сети (RNN), конволюционные сети (CNN) и трансформеры, для предсказания on-target activity и off-target risk. 3. Хорошая поддержка XAI-техниками, которые предоставляют понятные для человека объяснения для каждого предсказания, выявляя ключевые факторы, влияющие на производительность gRNA. Архитектура моделей включает слои для фичи-экстракции, attention-механизмы для выявления важных подпоследовательностей в gRNA, и оптимизационные слои для совместимости с ограничениями клинических применений. ################################# ## Результаты ################################# Оп

Annotation:

CRISPR-based genome editing has revolutionized biotechnology, yet optimizing guide RNA (gRNA) design for efficiency and safety remains a critical challenge. Recent advances (2020--2025, updated to reflect current year if needed) demonstrate that artificial intelligence (AI), especially deep learning, can markedly improve the prediction of gRNA on-target activity and identify off-target risks. In parallel, emerging explainable AI (XAI) techniques are beginning to illuminate the black-box nature o...

ID: 2508.20130v1 q-bio.QM, cs.AI, cs.LG

arXiv PDF

📄 Can synthetic data reproduce real-world findings in epidemiology? A replication study using tree-based generative AI

2025-08-23

Авторы:

Jan Kapar, Kathrin Günther, Lori Ann Vallis, Klaus Berger, Nadine Binder, Hermann Brenner, Stefanie Castell, Beate Fischer, Volker Harth, Bernd Holleczek, Timm Intemann, Till Ittermann, André Karch, Thomas Keil, Lilian Krist, Berit Lange, Michael F. Leitzmann, Katharina Nimptsch, Nadia Obi, Iris Pigeot, Tobias Pischon, Tamara Schikowski, Börge Schmidt, Carsten Oliver Schmidt, Anja M. Sedlmair, Justine Tanoey, Harm Wienbergen, Andreas Wienke, Claudia Wigmann, Marvin N. Wright

#### Контекст Генерируемые с помощью искусственного интеллекта модели данных играют важную роль в решении практических проблем в области эпидемиологии, таких как защита конфиденциальности, увеличение размера выборки и уменьшение затрат на сбор данных. Несмотря на эти преимущества, многие нынешние методы генерации синтетических данных страдают недостатками качества, высокими затратами ресурсов вычислений и высокой сложностью для неэкспертных пользователей. Кроме того, существующие стратегии оценки синтетических данных не всегда напрямую отражают их статистическую полезность. Одним из ключевых вопросов является: могут ли синтетические данные верифицировать основные выводы эпидемиологического исследования? Мы предлагаем использовать алгоритм `adversarial random forests` (ARF), чтобы эффективно и просто генерировать синтетические данные в рамках эпидемиологических исследований. #### Метод Мы разработали `adversarial random forests` (ARF), алгоритм, который эффективно генерирует синтетические данные, используя решающие деревья. Этот подход характеризуется высокой скоростью и простотой использования. Мы применяем алгоритм ARF для синтеза данных эпидемиологических исследований, основываясь на данных из публикаций, рассматривающих такие показатели как антропометрия, сердечно-сосудистые заболевания, акселерометрия, одиночество, диабет и кровяное давление. Данные взяты из немецкого национального эпидемиологического исследования (NAKO), Bremen STEMI Registry U45 и Guelph Family Health Study. Для оценки качества синтеза мы сравнивали оригинальные выводы эпидемиологических исследований с результатами анализов, проведенных с использованием синтетических данных. Для дальнейшей оценки влияния того, как изменяется размер выборки и сложность данных, мы ограничивали данные только теми переменными, которые использовались в оригинальных эпидемиологических анализах. #### Результаты Мы провели кросс-валидацию синтетических данных с помощью различных эпидемиологических методов, включая описательные анализы, регрессионные модели и множественные кросс-валидации. В результате, результаты синтетических данных отражают оригинальные выводы всех первичных исследований, которые мы проверили. Даже при небольших размерах выборок и высокой сложности данных, результаты синтеза были стабильными и совпадали с результатами оригинальных исследований. Например, удалось воспроизвести результаты по изучению уровня кровяного давления, клинических показателей диабета и сердечно-сосудистых заболеваний. Мы также обнаружили, что сокращение размера выборки и предварительно разработанные перем

Annotation:

Generative artificial intelligence for synthetic data generation holds substantial potential to address practical challenges in epidemiology. However, many current methods suffer from limited quality, high computational demands, and complexity for non-experts. Furthermore, common evaluation strategies for synthetic data often fail to directly reflect statistical utility. Against this background, a critical underexplored question is whether synthetic data can reliably reproduce key findings from ...

ID: 2508.14936v1 q-bio.QM, cs.AI, cs.LG, stat.AP, stat.ML

arXiv PDF

📄 A Physiologically-Constrained Neural Network Digital Twin Framework for Replicating Glucose Dynamics in Type 1 Diabetes

2025-08-12

Авторы:

Valentina Roquemen-Echeverri, Taisa Kushner, Peter G. Jacobs, Clara Mosquera-Lopez

## Контекст Тип 1 диабет (Т1Д) характеризуется нехваткой инсулина из-за аутоиммунных процессов, что приводит к нестабильности глюкозы в крови. Эта нестабильность требует постоянного мониторинга и трудностей в лечении. Одним из ключевых аспектов лечения Т1Д является кропотливое сбалансирование инсулина, диеты и физической активности. Однако существующие модели часто не учитывают важные физиологические аспекты или трудно приспособить к отдельным пациентам. Наша работа стремится создать модель, которая будет физиологически точной и легко адаптирована к отдельным лицам, чтобы обеспечить более точное моделирование динамики глюкозы и поддержку выбора лечения. ## Метод Мы предлагаем физиологически констрированную нейронную сеть (NN) цифровой двойни (digital twin) для моделирования динамики глюкозы у пациентов с Т1Д. Наша модель включает в себя общую модель на основе нейронных сетей, организованную в популяционную модель для учета интериндивидуальной вариабельности. Мы используем стандартные нурмальные дифференциальные уравнения (ODEs) для описания физиологических процессов регулировки глюкозы. Для обеспечения интерпретируемости и физиологической точности, мы формально проверяем модель, чтобы она соответствовала известным динамикам Т1Д. Далее, мы создаем цифровые двойни, добавляя отдельные модели, которые включают персональные данные, такие как данные о управлении глюкозой и контекстные факторы. Эта модель позволяет учесть интара-индивидуальную вариабельность, в том числе такие факторы как сна и физическая активность. ## Результаты Мы проверили нашу модель на реальных данных из исследования T1D Exercise Initiative. Два недельных данных каждого участника были разделены на последовательности 5 часов, и симулированные профили глюкозы были сравнены с наблюдаемыми. Мы использовали клинически значимые показатели, такие как время в нормальном диапазоне (70-180 мг/дл), время ниже нормы (<70 мг/дл) и время над нормой (>180 мг/дл), для оценки сходства между симулированными и реальными данными с помощью парного эквивалентного t-теста с заданными клиническими критериями толерантности. У 394 цифровых двойных, время в нормальном диапазоне глюкозы было 75.1±21.2% (симуляция) против 74.4±15.4% (реальные данные; P<0.001), время ниже нормы 2.5±5.2% против 3.0±3.3% (P=0.022), а время над нормой 22.4±22.0% против 22.6±15.9% (P<0.001). Это указывает на то, что наша модель может точно повторять клинически важные а

Annotation:

Simulating glucose dynamics in individuals with type 1 diabetes (T1D) is critical for developing personalized treatments and supporting data-driven clinical decisions. Existing models often miss key physiological aspects and are difficult to individualize. Here, we introduce physiologically-constrained neural network (NN) digital twins to simulate glucose dynamics in T1D. To ensure interpretability and physiological consistency, we first build a population-level NN state-space model aligned with...

ID: 2508.05705v1 q-bio.QM, cs.AI, cs.LG

arXiv PDF

Показано 11 - 14 из 14 записей