📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 BioArc: Discovering Optimal Neural Architectures for Biological Foundation Models

2025-12-02

Авторы:

Yi Fang, Haoran Xu, Jiaxin Han, Sirui Ding, Yizhi Wang, Yue Wang, Xuan Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Foundation models have revolutionized various fields such as natural language processing (NLP) and computer vision (CV). While efforts have been made to transfer the success of the foundation models in general AI domains to biology, existing works focus on directly adopting the existing foundation model architectures from general machine learning domains without a systematic design considering the unique physicochemical and structural properties of each biological data modality. This leads to su...

ID: 2512.00283v1 cs.LG, cs.AI, q-bio.QM

arXiv PDF

📄 BiPETE: A Bi-Positional Embedding Transformer Encoder for Risk Assessment of Alcohol and Substance Use Disorder with Electronic Health Records

2025-11-11

Авторы:

Daniel S. Lee, Mayra S. Haedo-Cruz, Chen Jiang, Oshin Miranda, LiRong Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Transformer-based deep learning models have shown promise for disease risk prediction using electronic health records(EHRs), but modeling temporal dependencies remains a key challenge due to irregular visit intervals and lack of uniform structure. We propose a Bi-Positional Embedding Transformer Encoder or BiPETE for single-disease prediction, which integrates rotary positional embeddings to encode relative visit timing and sinusoidal embeddings to preserve visit order. Without relying on large-...

ID: 2511.04998v1 cs.LG, cs.AI, q-bio.QM

arXiv PDF

📄 FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dynamics through the Underlying Fokker-Planck Equation

2025-11-07

Авторы:

Jiameng Chen, Yida Xiong, Kun Li, Hongzhi Zhang, Xiantao Cai, Wenbin Hu, Jia Wu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Computational antibody design holds immense promise for therapeutic discovery, yet existing generative models are fundamentally limited by two core challenges: (i) a lack of dynamical consistency, which yields physically implausible structures, and (ii) poor generalization due to data scarcity and structural bias. We introduce FP-AbDiff, the first antibody generator to enforce Fokker-Planck Equation (FPE) physics along the entire generative trajectory. Our method minimizes a novel FPE residual l...

ID: 2511.03113v1 cs.LG, cs.AI, q-bio.QM

arXiv PDF

📄 A Novel Framework for Multi-Modal Protein Representation Learning

2025-10-29

Авторы:

Runjie Zheng, Zhen Wang, Anjie Qiao, Jiancong Xie, Jiahua Rao, Yuedong Yang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Accurate protein function prediction requires integrating heterogeneous intrinsic signals (e.g., sequence and structure) with noisy extrinsic contexts (e.g., protein-protein interactions and GO term annotations). However, two key challenges hinder effective fusion: (i) cross-modal distributional mismatch among embeddings produced by pre-trained intrinsic encoders, and (ii) noisy relational graphs of extrinsic data that degrade GNN-based information aggregation. We propose Diffused and Aligned Mu...

ID: 2510.23273v1 cs.LG, cs.AI, q-bio.QM

arXiv PDF

📄 Enhancing mortality prediction in cardiac arrest ICU patients through meta-modeling of structured clinical data from MIMIC-IV

2025-10-23

Авторы:

Nursultan Mamatov, Philipp Kellmeyer

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Accurate early prediction of in-hospital mortality in intensive care units (ICUs) is essential for timely clinical intervention and efficient resource allocation. This study develops and evaluates machine learning models that integrate both structured clinical data and unstructured textual information, specifically discharge summaries and radiology reports, from the MIMIC-IV database. We used LASSO and XGBoost for feature selection, followed by a multivariate logistic regression trained on the t...

ID: 2510.18103v1 cs.LG, cs.AI, q-bio.QM, 68T07, 92C50, I.2.6; I.5.1; J.3

arXiv PDF

📄 Physics-Informed Machine Learning in Biomedical Science and Engineering

2025-10-09

Авторы:

Nazanin Ahmadi, Qianying Cao, Jay D. Humphrey, George Em Karniadakis

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Physics-informed machine learning (PIML) is emerging as a potentially transformative paradigm for modeling complex biomedical systems by integrating parameterized physical laws with data-driven methods. Here, we review three main classes of PIML frameworks: physics-informed neural networks (PINNs), neural ordinary differential equations (NODEs), and neural operators (NOs), highlighting their growing role in biomedical science and engineering. We begin with PINNs, which embed governing equations ...

ID: 2510.05433v1 cs.LG, cs.AI, q-bio.QM

arXiv PDF

📄 Neural Diffusion Processes for Physically Interpretable Survival Prediction

2025-10-04

Авторы:

Alessio Cristofoletto, Cesare Rollo, Giovanni Birolo, Piero Fariselli

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce DeepFHT, a survival-analysis framework that couples deep neural networks with first hitting time (FHT) distributions from stochastic process theory. Time to event is represented as the first passage of a latent diffusion process to an absorbing boundary. A neural network maps input variables to physically meaningful parameters including initial condition, drift, and diffusion, within a chosen FHT process such as Brownian motion, both with drift and driftless. This yields closed-form...

ID: 2510.00733v2 cs.LG, cs.AI, q-bio.QM

arXiv PDF

📄 PGCLODA: Prompt-Guided Graph Contrastive Learning for Oligopeptide-Infectious Disease Association Prediction

2025-09-26

Авторы:

Dayu Tan, Jing Chen, Xiaoping Zhou, Yansen Su, Chunhou Zheng

## Контекст Инфекционные заболевания остаются серьезной угрозой для общественного здоровья, требуя эффективных вычислительных подходов к обнаружению новых противомикробных средств. Олигопептиды приобрели признание как перспективные кандидаты в антимикробной резистентности. Однако существуют ограничения в использовании вычислительных моделей для предсказания их ассоциации с инфекционными болезнями. Данное исследование предлагает прототип PGCLODA, основанный на графовой контрастирующей обучении с подсказками, для поиска потенциальных ассоциаций. ## Метод Для моделирования ассоциаций построен трипартитный граф, состоящий из узлов: олигопептидов, микробов и заболеваний. Использованы структурные и семантические данные. Выделены фичи с применением графовой сверточной сети (GCN) и модели трансформера. Для поддержания значимых регионов во время обучения применен стратегия продвижения с помощью специальных масках. Объединенные векторы подавались на вход классификатору на основе MLP. ## Результаты Модель протестирована на бенчмарк-датасете. Результаты показали, что PGCLODA превышает современные модели по значениям AUROC, AUPRC и долевой точности. Анализ модулей и гиперпараметров подтвердил качество отдельных компонент. Также проводились случайные исследования, подтверждающие широкую общеизвестную важность модели. ## Значимость PGCLODA может использоваться в антимикробной оптимизации и новых лекарственных средств. Оно предлагает простой, универсальный подход к моделированию ассоциаций, который может быть применен в других генетических и клинических задачах. ## Выводы PGCLODA зарекомендовала себя как продвинутая модель для предсказания ассоциаций между олигопептидами и инфекционными болезнями. Будущие исследования будут сосредоточены на улучшении модели, оценке её стойкости и её применении в других областях.

Annotation:

Infectious diseases continue to pose a serious threat to public health, underscoring the urgent need for effective computational approaches to screen novel anti-infective agents. Oligopeptides have emerged as promising candidates in antimicrobial research due to their structural simplicity, high bioavailability, and low susceptibility to resistance. Despite their potential, computational models specifically designed to predict associations between oligopeptides and infectious diseases remain sca...

ID: 2509.20290v1 cs.LG, cs.AI, q-bio.QM

arXiv PDF

📄 A Multimodal Foundation Model to Enhance Generalizability and Data Efficiency for Pan-cancer Prognosis Prediction

2025-09-18

Авторы:

Huajun Zhou, Fengtao Zhou, Jiabo Ma, Yingxue Xu, Xi Wang, Xiuming Zhang, Li Liang, Zhenhui Li, Hao Chen

#### Контекст Область исследования заключается в развитии многомодальных моделей для прогноза показателей рака. Несмотря на выгодные свойства многомодальных данных, таких как патологические изображения, клинические отчеты и геномические данные, существующие модели часто сталкиваются с проблемами понимания такого типа данных и эффективного извлечения универсальных представлений. Эти ограничения приводят к узкому фокусу моделей и снижают их общий потенциал. Таким образом, возникает потребность в моделях, которые могут эффективно интегрировать различные модальности данных и обеспечивать широкое применение в разных сценариях клинического предсказания. #### Метод Предлагаемая модель, названная MICE (Multimodal data Integration via Collaborative Experts), представляет собой многомодальную фундаментальную модель, которая использует несколько функционально разнородных экспертов для извлечения кросс-канцеровых и канцеро-специфических представлений. В отличие от традиционных многоэкспертных моделей, MICE применяет контрастное обучение и супервизированное обучение, чтобы улучшить общие показатели модели. Данные, использованные для обучения, включают более 11 799 пациентов, покрывающих 30 различных типов рака. Эта структура позволяет модели стать более универсальной и эффективной в использовании данных. #### Результаты Experiments were conducted using internal and independent validation cohorts. MICE demonstrated outstanding performance by achieving substantial improvements in C-index, ranging from 3.8% to 11.2% across internal cohorts and 5.8% to 8.8% on independent cohorts. Эти результаты показывают высокую точность и стабильность модели в прогнозировании прогноза рака. Более того, MICE продемонстрировала высокую данность при работе с различными клиническими сценариями, что делает ее применимой для различных пациентских групп. #### Значимость MICE может применяться в различных клинических сценариях, таких как определение риска рака, персонализация терапии и мониторинг течения заболевания. Она предлагает значительные преимущества, такие как улучшение точности прогноза, уменьшение потребности в больших объемах данных и увеличение эффективности в клиническом применении. Это модель может иметь сильное влияние на рак-релевантные исследования и клиническую практику, помогая в разработке новых терапий и улучшении результатов лечения. #### Выводы MICE подтверждает свою эффективность в области многомодальных моделей для прогноза рака. Она устанавливает новый стандарт для общей ценности и эффективности в обработке многомодальных данных. Будущие исследования будут сконцентрированы на расширении MICE для других типов рака, а также на улучшении ее точности и терапевтического потенциала.

Annotation:

Multimodal data provides heterogeneous information for a holistic understanding of the tumor microenvironment. However, existing AI models often struggle to harness the rich information within multimodal data and extract poorly generalizable representations. Here we present MICE (Multimodal data Integration via Collaborative Experts), a multimodal foundation model that effectively integrates pathology images, clinical reports, and genomics data for precise pan-cancer prognosis prediction. Instea...

ID: 2509.12600v1 cs.LG, cs.AI, q-bio.QM

arXiv PDF

📄 Why Pool When You Can Flow? Active Learning with GFlowNets

2025-09-05

Авторы:

Renfei Zhang, Mohit Pandey, Artem Cherkasov, Martin Ester

#### Контекст В области виртуального скрининга для наук о лекарствах столкнуться с ограничениями по вычислительной стоимости оценивания больших немаркированных наборов данных — это чрезвычайно актуальная проблема. Традиционные подходы, такие как Bayesian Active Learning by Disagreement (BALD), стремятся оптимизировать этот процесс, но все еще сталкиваются с проблемами масштабируемости при работе со многомиллионными или биллионными объектами. Мотивация для данного исследования заключается в развитии методов, которые могут эффективно использоваться для виртуального скрининга, особенно в сфере фармацевтики, где быстродействие и точность критичны. #### Метод Для решения скалярных проблем, связанных с подходом BALD, предлагается BALD-GFlowNet — новый подход, основанный на Generative Flow Networks (GFlowNets). Эти сети генерируют объекты в соответствии с их BALD-рейтингом, благодаря чему избавляются от необходимости проходить по всему немаркированному набору. Архитектура GFlowNet состоит из нескольких модулей, включая сети для оценки вероятностей и функций для управления динамической структурой генерируемых данных. Это генерирующий подход, который упрощает выбор информативных объектов и позволяет масштабировать систему без увеличения вычислительных затрат. #### Результаты В экспериментах была проведена сравнительная оценка BALD-GFlowNet с традиционным BALD на наборе данных, содержащих миллионы молекул. Был показан тот факт, что BALD-GFlowNet выбирает более разнообразные молекулы, при этом сохраняя высокую информативность выбора. Оценка показывает, что этот подход эффективно работает в пределах вычислительных ограничений, не теряя в качестве, что делает его привлекательным для применения в фармацевтической отрасли. #### Значимость Выделяется широкая область применения BALD-GFlowNet, включая не только виртуальный скрининг, но также другие задачи, требующие выбора информативных объектов из больших наборов данных. Особенно применимо для ситуаций, когда требуется быстрая и эффективная оценка многочисленных вариантов, таких как в сфере генетического проектирования. Преимущества BALD-GFlowNet заключаются в масштабируемости, более точном выборе объектов и экономии ресурсов, что может способствовать прогрессу в науке о лекарствах. #### Выводы BALD-GFlowNet достигает сравнительной эффективности с BALD, при этом предлагая новый подход к активному обучению в области виртуального скрининга. Это открывает новые возможности для более эффективного использования ресурсов в высокомасштабных задачах моделирования и выбора. Будущие исследования будут сфокусированы на расширении этого подхода для других

Annotation:

The scalability of pool-based active learning is limited by the computational cost of evaluating large unlabeled datasets, a challenge that is particularly acute in virtual screening for drug discovery. While active learning strategies such as Bayesian Active Learning by Disagreement (BALD) prioritize informative samples, it remains computationally intensive when scaled to libraries containing billions samples. In this work, we introduce BALD-GFlowNet, a generative active learning framework that...

ID: 2509.00704v1 cs.LG, cs.AI, q-bio.QM

arXiv PDF

Показано 1 - 10 из 15 записей