📚 Саммари научных статей из arXiv

Найдено 48 результатов по запросу 'q-bio.QM, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Dynamicasome: a molecular dynamics-guided and AI-driven pathogenicity prediction catalogue for all genetic mutations

2025-09-26

Авторы:

Naeyma N Islam, Mathew A Coban, Jessica M Fuller, Caleb Weber, Rohit Chitale, Benjamin Jussila, Trisha J. Brock, Cui Tao, Thomas R Caulfield

## Контекст Понимание того, какие мутации в генах приводят к заболеваниям, является ключевым заданием в геномической медицине. Однако многие мутации остаются неизвестными в своем патогенном потенциале, что затрудняет их использование в диагностике и клинических решениях. Несмотря на то, что генетические анализаторы могут устанавливать многочисленные мутации, только небольшое число из них было протестировано на предмет патогенности. Это недостаточное понимание ставит под угрозу правильное диагностическое использование подобных мутаций. Дополнительно, нынешние модели для прогнозирования патогенности часто не показывают достаточно высокую точность при проверке на функционально валидированных данных. Таким образом, необходимо разработать более точный подход для обнаружения и прогнозирования патогенности новых мутаций. ## Метод Мы предлагаем комбинированный подход, который использует данные, полученные из молекулярных динамических симуляций (MDS), и развитые нейронные сети для прогнозирования патогенности мутаций. Молекулярные динамические симуляции обеспечивают детальные структурные данные для каждого варианта мутации. Мы собрали и анализировали данные для всех возможных мутаций в гене PMM2, который привносит вклад в развитие ряда условий. Данные о структуре были использованы для обучения нейронных сетей, чтобы определить соотношение между структурными изменениями мутаций и их патогенностью. Мы разработали модель, которая использует эти данные для предсказания патогенности новых мутаций. ## Результаты Мы проверили нашу модель на данных, относящихся к гену PMM2. Наши результаты показывают, что модель показывает высокую точность при прогнозировании патогенности известных мутаций. Более того, она успешно прогнозирует патогенность некоторых мутаций, которые ранее были классифицированы как неизвестно значимые. Это значит, что модель может помочь в оценке новых мутаций, которые были до этого недоступны для точного прогнозирования. Мы также проверили нашу модель на других генах, что подтвердило ее универсальность и высокую точность. ## Значимость Наш подход имеет значительное значение для геномической медицины. Он может помочь в улучшении диагностических процессов, обеспечивая более точную оценку риска, связанный с новыми мутациями. Более того, наша модель может быть применена для анализа других генов, повысив общую точность прогнозирования патогенности мутаций. Этот подход также может помочь уменьшить количество неизвестных мутаций, что в свою очередь будет способствовать развитию геномической медицины. ## Выводы Мы разработали модель, которая включает

Annotation:

Advances in genomic medicine accelerate the identi cation of mutations in disease-associated genes, but the pathogenicity of many mutations remains unknown, hindering their use in diagnostics and clinical decision-making. Predictive AI models are generated to combat this issue, but current tools display low accuracy when tested against functionally validated datasets. We show that integrating detailed conformational data extracted from molecular dynamics simulations (MDS) into advanced AI-based ...

ID: 2509.19766v1 q-bio.QM, cs.AI, physics.bio-ph, q-bio.MN

arXiv PDF

📄 Property-Isometric Variational Autoencoders for Sequence Modeling and Design

2025-09-20

Авторы:

Elham Sadeghi, Xianqi Deng, I-Hsin Lin, Stacy M. Copp, Petko Bogdanov

## Контекст Моделирование и дизайн последовательностей биологических материалов, таких как DNA, RNA и белки, играет ключевую роль в разработке новых наноматериалов, биосенсоров, антимикробных средств и других технологий. Однако оптимизация сложных высокомерных свойств, таких как эмиссионные спектры фотопроводящих наночастиц, сопротивляемость к фото- и химическим воздействиям, и антимикробная активность пептидов, является высокосложной задачей. Традиционные модели, оперирующие простыми бинарными метками (например, привязка/непривязка), не могут корректно учитывать такие сложности. Существует необходимость в развитии моделей, которые бы гарантированно учитывали геометрическую структуру пространств свойств во время обучения и использования. ## Метод Разработанная модель, **Property-Isometric Variational Autoencoder (PrIVAE)**, представляет собой новую архитектуру вариационного автоэнкодера, которая сохраняет геометрию пространства свойств во время обучения и использования. Мы определяем пространство свойств как высокомерный манифест, локально приближаемый к графу ближайших соседей, восстановленному на основе определенного расстояния. Для того чтобы гарантировать то, что полученные представления последовательностей сохраняют геометрические свойства пространства свойств, мы используем (1) слои графных нейронных сетей в качестве кодировщика и (2) изометрический регуляризатор для управления геометрическими свойствами в пространстве представлений. Это позволяет гарантировать, что разброс последовательностей в генерируемом пространстве будет соответствовать геометрии пространства свойств, что в свою очередь позволяет ориентироваться на выполнение сложных целей в дизайне последовательностей. ## Результаты Мы проверили PrIVAE на двух задачах генерирующего моделирования: (1) дизайне DNA-последовательностей, шаблонирующих фотопроводящие металловые наночастицы, и (2) дизайне антимикробных пептидов. В двух экспериментах показано, что PrIVAE обеспечивает высокую точность воспроизведения последовательностей и эффективно организует генерируемое пространство по свойствам. На практической стадии мы провели влаговые эксперименты, в которых использовались полученные последовательности для создания фотопроводящих наночастиц. Это привело к 16.1-кратному увеличению концентрации наночастиц с редкими свойствами в сравнении с их содержанием в обучающей выборке. Эти результаты подтверждают эффективность PrIVAE в решении задач генерирующего дизайна с биологическими последовательностями. ## Значимость PrIVAE представляет собой

Annotation:

Biological sequence design (DNA, RNA, or peptides) with desired functional properties has applications in discovering novel nanomaterials, biosensors, antimicrobial drugs, and beyond. One common challenge is the ability to optimize complex high-dimensional properties such as target emission spectra of DNA-mediated fluorescent nanoparticles, photo and chemical stability, and antimicrobial activity of peptides across target microbes. Existing models rely on simple binary labels (e.g., binding/non-...

ID: 2509.14287v1 q-bio.QM, cs.AI, cs.LG

arXiv PDF

📄 Enabling Down Syndrome Research through a Knowledge Graph-Driven Analytical Framework

2025-09-05

Авторы:

Madan Krishnamurthy, Surya Saha, Pierrette Lo, Patricia L. Whetzel, Tursynay Issabekova, Jamed Ferreris Vargas, Jack DiGiovanna, Melissa A Haendel

#### Контекст Дистония Т21 — многообразие генетических расстройств, вызывающее различные клинические патологии, такие как сердечные недостатки, деформации иммунитета, неврологические расстройства и угроза раннего-начального дегенеративного процесса мозга. Несмотря на достижения в генетике, характерная хаотичность данных и их разделение между исследованиями ограничивают возможности для полноценного интегрированного исследования. Национальный институт здоровья (NIH) запустил INCLUDE-инициативу (INvestigation of Co-occurring conditions across the Lifespan to Understand Down syndromE), собравшую гармонизированные данные по участникам. Однако для оптимального использования этих данных необходимо развитие новых, интегрированных подходов. #### Метод Мы разработали платформу, основанную на знаниях (knowledge graph), которая преобразует неупорядоченные данные из нескольких исследований INCLUDE в унифицированную семантическую систему. Эта платформа объединяет данные от 9-ти исследований, включающих 7 148 участников, 456 заболеваний, 501 патологических признаков и более 37 000 биоматериалов. Для расширения объема знаний, платформа интегрирует данные из Monarch Initiative, добавляя некорректные гены (4 281 гена) и варианты (7 077 вариантов). Эта семантическая система содержит более 1,6 миллиона семантических связей, которая предоставляет базу для AI-ready анализа, включая графические инкапсуляции и путевые причинные выводы для генерирования гипотез. Ученые могут использовать SPARQL или естественный язык для запросов к графу. #### Результаты Мы провели эксперименты, используя данные от 9-ти исследований INCLUDE. Эти данные были преобразованы в значительную семантическую систему, включающую 1,6 миллиона связей. Мы проверили эффективность платформы на задачах, таких как кросс-студийное сравнение, прогнозирование и расследование генотипа-фенотипа отношений. Наши результаты показали, что платформа позволяет выявлять закономерности в данных, которые раньше были недоступны, и обеспечивает новые возможности для исследований по Down синдрому. #### Значимость Платформа, основанная на знаниях, превращает статические данные в динамический окружение для обнаружения. Это открывает широкие возможности для расширения интегрированных исследований Down синдрома, включая преобразование данных, поиск новых терапевтических целей и поддержку предсказательного моделирования. Этот подход может быть использован в других генетических расстройствах с многообразием клинических функций, чтобы повысить эффективность исследований. #### Вы

Annotation:

Trisomy 21 results in Down syndrome, a multifaceted genetic disorder with diverse clinical phenotypes, including heart defects, immune dysfunction, neurodevelopmental differences, and early-onset dementia risk. Heterogeneity and fragmented data across studies challenge comprehensive research and translational discovery. The NIH INCLUDE (INvestigation of Co-occurring conditions across the Lifespan to Understand Down syndromE) initiative has assembled harmonized participant-level datasets, yet rea...

ID: 2509.01565v1 q-bio.QM, cs.AI, cs.DB, cs.LG

arXiv PDF

📄 Artificial Intelligence for CRISPR Guide RNA Design: Explainable Models and Off-Target Safety

2025-08-30

Авторы:

Alireza Abbaszadeh, Armita Shahlai

################################# ## Контекст ################################# Система CRISPR (Clustered Regularly Interspaced Short Palindromic Repeats) представляет собой необходимый инструмент для геномного редактирования, позволяя выполнять точное модификации генов. Одной из ключевых задач в этой области является оптимизация дизайна guide RNA (gRNA), который руководит Cas-энзимом к целевой последовательности. Оптимальный дизайн gRNA должен обеспечивать эффективность редактирования и минимизировать off-target эффекты, которые могут привести к нежелательным модификациям генома. Несмотря на прогресс в этой области, оценка on-target activity и off-target потенциала gRNA остается сложной и часто неточной задачей. Появление искусственного интеллекта (AI), особенно глубокого обучения, дало новые возможности для точной предсказания поведения gRNA. AI модели могут анализировать большие наборы данных и выявлять сложные зависимости между геномными последовательностями и производительностью Cas-энзима. Тем не менее, многие из этих моделей остаются "черными ящиками", что ограничивает их практическое применение в клинических и научных задачах. Недавние развития в области explainable AI (XAI) начали разглядеть эти черные ящики, предоставляя понятные для человека обоснования для предсказаний. Это решает не только проблему эффективности gRNA, но и обеспечивает новые возможности для расширения применения CRISPR в клиническую практику, включая лечение генетических заболеваний и разработку новых терапевтических агентов. ################################# ## Метод ################################# Для повышения точности и понятности дизайна gRNA в статье предлагается использование современных AI-моделей, включая глубокое обучение (deep learning), и explainable AI (XAI) техники. Модели разрабатываются на основе больших наборов данных, включающих последовательности gRNA и связанных с ними производительностей Cas-энзимов. Основной методологией является следующая: 1. Предварительная обработка данных: геномные последовательности gRNA и целевые гены обрабатываются для удаления шумов и выделения признаков, относящихся к производительности и off-target эффектам. 2. Обучение моделей: учитывается использование различных глубоких нейронных сетей, таких как рекуррентные сети (RNN), конволюционные сети (CNN) и трансформеры, для предсказания on-target activity и off-target risk. 3. Хорошая поддержка XAI-техниками, которые предоставляют понятные для человека объяснения для каждого предсказания, выявляя ключевые факторы, влияющие на производительность gRNA. Архитектура моделей включает слои для фичи-экстракции, attention-механизмы для выявления важных подпоследовательностей в gRNA, и оптимизационные слои для совместимости с ограничениями клинических применений. ################################# ## Результаты ################################# Оп

Annotation:

CRISPR-based genome editing has revolutionized biotechnology, yet optimizing guide RNA (gRNA) design for efficiency and safety remains a critical challenge. Recent advances (2020--2025, updated to reflect current year if needed) demonstrate that artificial intelligence (AI), especially deep learning, can markedly improve the prediction of gRNA on-target activity and identify off-target risks. In parallel, emerging explainable AI (XAI) techniques are beginning to illuminate the black-box nature o...

ID: 2508.20130v1 q-bio.QM, cs.AI, cs.LG

arXiv PDF

📄 The Next Layer: Augmenting Foundation Models with Structure-Preserving and Attention-Guided Learning for Local Patches to Global Context Awareness in Computational Pathology

2025-08-29

Авторы:

Muhammad Waqas, Rukhmini Bandyopadhyay, Eman Showkatian, Amgad Muneer, Anas Zafar, Frank Rojas Alvarez, Maricel Corredor Marin, Wentao Li, David Jaffray, Cara Haymaker, John Heymach, Natalie I Vokes, Luisa Maren Solis Soto, Jianjun Zhang, Jia Wu

#### Контекст Фондовые модели стали мощными инструментами в компьютерной патологии, позволяя извлекать функции из импедансных данных, но часто не учитывают глобальную структуру тканей и локальные контекстуальные отношения важных для диагноза регионов. Эти элементы критически важны для понимания микроокружения опухолей. Для решения этих проблем вводится Multiple Instance Learning (MIL), которая строит рамку для сводки патчей на уровне слайдов. Недостаток таких подходов в том, что они часто лишаются возможности учитывать локальные отношения и взаимодействия между патчами. #### Метод EAGLE-Net, представленная в этой статье, — это MIL-архитектура, которая использует многомерное представление местного контекста и учитывает глобальную структуру ткани. Она включает в себя: многомасштабное пространственное кодирование для понимания тканей на уровне целого слайда, top-K loss для увеличения внимания к местным микроокружениям и background suppression loss для минимизации ложных срабатываний. Эти компоненты работают совместно, чтобы улучшить прогностическую модель и читаемость. #### Результаты На трех паналкотических наборах данных, включающих 10 260 слайдов для классификации и 4 172 слайдов для прогноза выживаемости, EAGLE-Net показала преимущество по сравнению с основными моделями. Модель повысила точность классификации до 3% и добилась лучших индексов согласованности (concordance) в 6 из 7 задач прогноза выживаемости. Она формирует четкие и биологически смысленные карты внимания, что позволяет выделить ключевые области, такие как борьба между тканями и иммунными клетками, или зоны гниение. #### Значимость EAGLE-Net может быть использована в области биомаркерного обнаружения, прогноза выживаемости и поддержки клинических решений. Она предоставляет более точные инструменты для анализа тканей и может стать надежной основой для разработки новых методов в патологии. Её важность заключается в том, что она предлагает новый взгляд на интеграцию локальных и глобальных признаков в моделировании. #### Выводы EAGLE-Net доказывает свою эффективность как инструмент для лучшего понимания микроокружения тканей и возможности прогнозировать заболевания. Будущие исследования будут фокусироваться на расширении модели для работы с более широкими классами заболеваний и улучшении её возможностей для персонализированной медицины.

Annotation:

Foundation models have recently emerged as powerful feature extractors in computational pathology, yet they typically omit mechanisms for leveraging the global spatial structure of tissues and the local contextual relationships among diagnostically relevant regions - key elements for understanding the tumor microenvironment. Multiple instance learning (MIL) remains an essential next step following foundation model, designing a framework to aggregate patch-level features into slide-level predicti...

ID: 2508.19914v1 q-bio.QM, cs.AI, stat.ML

arXiv PDF

📄 Neural Proteomics Fields for Super-resolved Spatial Proteomics Prediction

2025-08-27

Авторы:

Bokai Zhao, Weiyang Shi, Hanqing Chao, Zijiang Yang, Yiyang Zhang, Ming Song, Tianzi Jiang

## Контекст Спектральная протеомика является важной областью исследований, предоставляющей преобразующие знания в области жизненных наук, особенно в части изучения распределения белков в тканях. Однако существующие технологии, основанные на последовательном последовательном секвенировании, обладают низкой спектральной разрешающей способностью. Это приводит к ограниченной точности в определении расположения белков внутри ткани. Более того, выражение белков в различных тканях может значительно отличаться, что далее усложняет прогнозирование распределения белков с использованием существующих методов. Наша мотивация заключается в разработке модели, которая могла бы улучшить разрешающую способность существующих секвенирований-подобных методов и учесть индивидуальные особенности распределения белков в различных тканях. ## Метод Мы предлагаем **Neural Proteomics Fields (NPF)**, первую модель глубокого обучения, призванную решать задачу супер-разрешения в последовательном секвенировании протеомики. Модель состоит из двух основных модулей: **Spatial Modeling Module** и **Morphology Modeling Module**. **Spatial Modeling Module** обучается на задаче изучения и предсказания свойств распределения белков внутри каждой отдельной ткани. **Morphology Modeling Module** извлекает специфичные для каждой ткани морфологические признаки, которые также включаются в процесс предсказания. Для каждой ткани разрабатывается отдельная модель, что позволяет учитывать индивидуальные особенности распределения белков в разной тканевой среде. Мы также определили новую задачу — **Pseudo-Visium SP** — и создали открытый бенчмарк для этой задачи, чтобы обеспечить тщательную оценку моделей. ## Результаты Мы проводили эксперименты на нашем открытом датасете Pseudo-Visium SP, который позволил нам сравнить NPF с другими методами. Результаты показали, что NPF не только достигает лучшей точности в предсказании распределения белков, но и делает это с меньшим числом параметров для обучения. Это не только снижает нагрузку на вычислительные ресурсы, но и позволяет более эффективно использовать модель для различных типов тканей. Наши результаты подтверждают, что NPF — это подход, который может значительно улучшить текущие подходы к предсказанию распределения белков в тканях. ## Значимость NPF имеет широкое применение в различных областях жизненных наук, включая биомедицинские исследований, разработку новых лекарств, а также исследования особенностей развития раковых тканей. Высокая точность и специфичность модели делают ее ценным инструментом для повышения точности прогнозов в спектральной протеомике. Благодаря своей способности работать с

Annotation:

Spatial proteomics maps protein distributions in tissues, providing transformative insights for life sciences. However, current sequencing-based technologies suffer from low spatial resolution, and substantial inter-tissue variability in protein expression further compromises the performance of existing molecular data prediction methods. In this work, we introduce the novel task of spatial super-resolution for sequencing-based spatial proteomics (seq-SP) and, to the best of our knowledge, propos...

ID: 2508.17389v1 q-bio.QM, cs.AI, cs.CV

arXiv PDF

📄 Fusing Structural Phenotypes with Functional Data for Early Prediction of Primary Angle Closure Glaucoma Progression

2025-08-23

Авторы:

Swati Sharma, Thanadet Chuangsuwanich, Royston K. Y. Tan, Shimna C. Prasad, Tin A. Tun, Shamira A. Perera, Martin L. Buist, Tin Aung, Monisha E. Nongpiur, Michaël J. A. Girard

#### Контекст При поражении глаза нарушением венозного кровотока (венозная ишемия глаза, VI) возникает недостаточность кровообращения в сетчатке, что приводит к повреждению клеток этой области. Характеризуется частотой и тяжестью заболевания, необходимостью в прогностических критериях для преждевременного выявления прогрессирования, чтобы предотвратить развитие тяжелых последствий. Однако наличие эффективных методов для прогноза и мониторинга VI еще недостаточно изучено, что создает мотивацию для разработки новых подходов. #### Метод Для прогноза VI используется многомодельный подход, комбинирующий структурные и функциональные параметры. Обработка структурных данных включает разделение полей зрения на сектора, рассчитывающие плотность пика сенсорного поля в каждом регионе. Для функциональных параметров используется метод сегментации ОНН с помощью машинного обучения, выделяющий 31 структурных параметров ОНН. Для классификации прогноза VI используются модели машинного обучения (например, Random Forest). Кроме того, используется метод SHAP для определения важных признаков. Эксперименты проводятся на 451 глазах из 299 пациентов. #### Результаты Проанализированы данные о 451 глазах, из которых 369 относятся к медленному прогрессированию (VFI индекса -0.92% в год), 82 к быстрому (VFI -2.0% в год). Random Forest-модель, использующая комбинированные структурные и функциональные признаки, демонстрирует наилучшую производительность (AUC = 0.87) в тестировании на 2000 итераций Monte Carlo. SHAP выделяет 6 ключевых признаков: нижние слои MRW и RNFL, горизонтальные и вертикальные LC, носовый глубинный VF, нижние слои GCL+IPL. Другие модели, использующие только структурные или функциональные признаки, показали значительно нижую производительность (AUC = 0.82 и 0.78). #### Значимость Предложенный подход оказался эффективным для прогноза прогрессирования VI, объединяя структурные и функциональные данные. Обнаружено, что нижние слои MRW и RNFL ОНН являются наиболее важными предикторами, что подтверждает значимость ОНН-морфологии в мониторинге VI. Эти результаты могут быть применены в клинической практике для преждевременного выявления риска прогрессирования и раннего назначения терапии. #### Выводы Результаты указывают на эффективность комбинированного использования структурных и функциональных данных для прогноза VI. Обнаруженные ключевые признаки могут стать основой для разработки новых критериев прогноза и мониторинга VI. Будущие исследования будут фокусироваться на уточнении моделей и расширении данных для улучшения прог

Annotation:

Purpose: To classify eyes as slow or fast glaucoma progressors in patients with primary angle closure glaucoma (PACG) using an integrated approach combining optic nerve head (ONH) structural features and sector-based visual field (VF) functional parameters. Methods: PACG patients with >5 reliable VF tests over >5 years were included. Progression was assessed in Zeiss Forum, with baseline VF within six months of OCT. Fast progression was VFI decline <-2.0% per year; slow progression >-2.0% per ye...

ID: 2508.14922v1 q-bio.QM, cs.AI, cs.CV, eess.IV

arXiv PDF

📄 Can synthetic data reproduce real-world findings in epidemiology? A replication study using tree-based generative AI

2025-08-23

Авторы:

Jan Kapar, Kathrin Günther, Lori Ann Vallis, Klaus Berger, Nadine Binder, Hermann Brenner, Stefanie Castell, Beate Fischer, Volker Harth, Bernd Holleczek, Timm Intemann, Till Ittermann, André Karch, Thomas Keil, Lilian Krist, Berit Lange, Michael F. Leitzmann, Katharina Nimptsch, Nadia Obi, Iris Pigeot, Tobias Pischon, Tamara Schikowski, Börge Schmidt, Carsten Oliver Schmidt, Anja M. Sedlmair, Justine Tanoey, Harm Wienbergen, Andreas Wienke, Claudia Wigmann, Marvin N. Wright

#### Контекст Генерируемые с помощью искусственного интеллекта модели данных играют важную роль в решении практических проблем в области эпидемиологии, таких как защита конфиденциальности, увеличение размера выборки и уменьшение затрат на сбор данных. Несмотря на эти преимущества, многие нынешние методы генерации синтетических данных страдают недостатками качества, высокими затратами ресурсов вычислений и высокой сложностью для неэкспертных пользователей. Кроме того, существующие стратегии оценки синтетических данных не всегда напрямую отражают их статистическую полезность. Одним из ключевых вопросов является: могут ли синтетические данные верифицировать основные выводы эпидемиологического исследования? Мы предлагаем использовать алгоритм `adversarial random forests` (ARF), чтобы эффективно и просто генерировать синтетические данные в рамках эпидемиологических исследований. #### Метод Мы разработали `adversarial random forests` (ARF), алгоритм, который эффективно генерирует синтетические данные, используя решающие деревья. Этот подход характеризуется высокой скоростью и простотой использования. Мы применяем алгоритм ARF для синтеза данных эпидемиологических исследований, основываясь на данных из публикаций, рассматривающих такие показатели как антропометрия, сердечно-сосудистые заболевания, акселерометрия, одиночество, диабет и кровяное давление. Данные взяты из немецкого национального эпидемиологического исследования (NAKO), Bremen STEMI Registry U45 и Guelph Family Health Study. Для оценки качества синтеза мы сравнивали оригинальные выводы эпидемиологических исследований с результатами анализов, проведенных с использованием синтетических данных. Для дальнейшей оценки влияния того, как изменяется размер выборки и сложность данных, мы ограничивали данные только теми переменными, которые использовались в оригинальных эпидемиологических анализах. #### Результаты Мы провели кросс-валидацию синтетических данных с помощью различных эпидемиологических методов, включая описательные анализы, регрессионные модели и множественные кросс-валидации. В результате, результаты синтетических данных отражают оригинальные выводы всех первичных исследований, которые мы проверили. Даже при небольших размерах выборок и высокой сложности данных, результаты синтеза были стабильными и совпадали с результатами оригинальных исследований. Например, удалось воспроизвести результаты по изучению уровня кровяного давления, клинических показателей диабета и сердечно-сосудистых заболеваний. Мы также обнаружили, что сокращение размера выборки и предварительно разработанные перем

Annotation:

Generative artificial intelligence for synthetic data generation holds substantial potential to address practical challenges in epidemiology. However, many current methods suffer from limited quality, high computational demands, and complexity for non-experts. Furthermore, common evaluation strategies for synthetic data often fail to directly reflect statistical utility. Against this background, a critical underexplored question is whether synthetic data can reliably reproduce key findings from ...

ID: 2508.14936v1 q-bio.QM, cs.AI, cs.LG, stat.AP, stat.ML

arXiv PDF

📄 Equi-mRNA: Protein Translation Equivariant Encoding for mRNA Language Models

2025-08-23

Авторы:

Mehdi Yazdani-Jahromi, Ali Khodabandeh Yalabadi, Ozlem Ozmen Garibay

#### ##Контекст В последние годы возрастает важность mRNA-терапевтических технологий и синтетической биологии. Эти области требуют моделей, которые могли бы правильно интерпретировать структуры между сонами — различными тройками нуклеотидов, кодирующими один и тот же аминокислоты. Эти симметрии влияют на эффективность трансляции и генное выражение. Несмотря на некоторые успехи в интеграции кодонных биаса в модели, текущие подходы либо недостаточно эффективны, либо не учитывают выразительные симметрии, встроенные в генетический код. Это ограничивает возможности моделей для точного предсказания генетических свойств и поддержки инновационных технологий в области медицины и биотехнологий. #### ##Метод Equi-mRNA представляет собой первую модель mRNA-языковых моделей, которая учитывает кодонные симметрии как циклические подгруппы 2D Special Orthogonal matrix (SO(2)). Эти симметрии реализуются с помощью соответствующих преобразований матриц, обеспечивающих групповые свойства. Также в модель включен ауксиллиарный механизм "equivariance loss", который заставляет модель прислушиваться к этим симметриям. Для точного вывода и рассуждений включена "symmetry-aware pooling", обеспечивающая синтез информации с разных уровней модели. Эта архитектура позволяет Equi-mRNA учитывать биологические свойства, которые важны для предсказания атрибутов генов. #### ##Результаты Запуск Equi-mRNA проводился на нескольких датасетах, включая задачи предсказания генной эффективности, устойчивости мRNA и функциональных свойств riboswitches. На этих задачах Equi-mRNA показала эффективность с улучшениями до 10% в точности предсказания по сравнению с базовыми моделями. Также была проведена задача генного синтеза, где модель выдавала значительно более реалистичные mRNA-конструкты по метрикам Frechet BioDistance, а также повышала точность сохранения функциональных свойств до 28%. Интерпретативные анализы Equi-mRNA указали на воспроизведение биологически известных закономерностей, таких как связь между группами GC-содержания и абундантом тРНК, что дает новый взгляд на кодонную эволюцию. #### ##Значимость Equi-mRNA открывает новую парадигму для mRNA-моделей, имеющую практические приложения в синтетической биологии и терапевтических разработках. Она позволяет строить модели, близкие к биологическим процессам, что повышает точность и эффективность предсказаний. Эти достижения могут повлиять на создание более точных терапевтических методов, а также на понимание сложного взаимодействия между генами и средой. Эта модель также имеет по

Annotation:

The growing importance of mRNA therapeutics and synthetic biology highlights the need for models that capture the latent structure of synonymous codon (different triplets encoding the same amino acid) usage, which subtly modulates translation efficiency and gene expression. While recent efforts incorporate codon-level inductive biases through auxiliary objectives, they often fall short of explicitly modeling the structured relationships that arise from the genetic code's inherent symmetries. We ...

ID: 2508.15103v1 q-bio.QM, cs.AI

arXiv PDF

📄 High-Throughput Low-Cost Segmentation of Brightfield Microscopy Live Cell Images

2025-08-22

Авторы:

Surajit Das, Gourav Roy, Pavel Zun

#### Контекст Проблемы сегментации живых клеток в bright-field микроскопии остаются значительной трудностью в биомедицинских исследованиях. Эти клетки обычно неоклеточны и имеют невысокий контраст, что усложняет их формальное разделение от фона. До Top-Down сегментации, основывающейся на зеркальном синтезе новых изображений, попытки решить эту задачу либо требуют обширных данных, либо ограничены в производительности. Многие существующие подходы не учитывают конкретные проблемы bright-field микроскопии, такие как небольшой контраст, шум, мобильность клеток и их воздействие на разрешение. Задача авторов заключается в создании подхода, обеспечивающего высокую точность в тестировании, адаптивность к различным объемам данных и эффективность в вычислительных ресурсах. #### Метод Высокопроизводительный, низкозатратный подход к сегментации живых клеток в bright-field микроскопии основывается на создании архитектуры U-Net с применением модифицированных кодировщиков (frozen encoders), включающих в себя универсальный набор методик. Авторы использовали адаптивные функции потерь, включающие в себя системы внимательности (attention mechanisms), инстанс-аура (instance-aware systems), встроенные в алгоритмы обучения. Для того чтобы уменьшить риск переобучения, использовались такие механизмы, как динамическая установка learning rates, progressive mechanisms. Также был применен ensemble-подход для повышения точности. Использовалась модель тренировочного тестирования на различные варианты клеток, включая широкий диапазон контрастных изображений. #### Результаты В результате использования предложенной модели была достигнута высокая точность сегментации — 93%. Авторы проверили работу модели на датасете LIVECell, чтобы проверить ее мобильность и производительность в условиях с низким контрастом и шумом. Модель показала F1-score в 89% (стандартное отклонение 0.07) при сегментации живых клеток, даже при очень низком контрасте и шумном виде. Для улучшения модели в течение обучения были применены механизмы retraining с помощью hard instance. Модель также была протестирована на данных bright-field, и ее результаты были сопоставимы с современными методами, но с более высокой эффективностью учета ресурсов. #### Значимость Предложенный подход может применяться в различных биологических исследованиях, вроде cell-based assays и выявления динамики клеток. Особенно он полезен для высокопроизводительных и низкозатратных вычислительных установок. Он позволяет достичь высокой точности в сегментации живых клеток, не требуя особых вычислительных мощностей. Благодаря универсальности модели, она может быть использована для различных видов клеток и

Annotation:

Live cell culture is crucial in biomedical studies for analyzing cell properties and dynamics in vitro. This study focuses on segmenting unstained live cells imaged with bright-field microscopy. While many segmentation approaches exist for microscopic images, none consistently address the challenges of bright-field live-cell imaging with high throughput, where temporal phenotype changes, low contrast, noise, and motion-induced blur from cellular movement remain major obstacles. We developed a lo...

ID: 2508.14106v1 q-bio.QM, cs.AI, cs.CV, eess.IV

arXiv PDF

1
2
3
4
5

Показано 31 - 40 из 48 записей