📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Genomic Next-Token Predictors are In-Context Learners

2025-11-19

Авторы:

Nathan Breslow, Aayush Mishra, Mahler Revsine, Michael C. Schatz, Anqi Liu, Daniel Khashabi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In-context learning (ICL) -- the capacity of a model to infer and apply abstract patterns from examples provided within its input -- has been extensively studied in large language models trained for next-token prediction on human text. In fact, prior work often attributes this emergent behavior to distinctive statistical properties in human language. This raises a fundamental question: can ICL arise organically in other sequence domains purely through large-scale predictive training? To explor...

ID: 2511.12797v1 cs.LG, cs.AI, q-bio.GN

arXiv PDF

📄 PETRA: Pretrained Evolutionary Transformer for SARS-CoV-2 Mutation Prediction

2025-11-08

Авторы:

Xu Zou

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Since its emergence, SARS-CoV-2 has demonstrated a rapid and unpredictable evolutionary trajectory, characterized by the continual emergence of immune-evasive variants. This poses persistent challenges to public health and vaccine development. While large-scale generative pre-trained transformers (GPTs) have revolutionized the modeling of sequential data, their direct applications to noisy viral genomic sequences are limited. In this paper, we introduce PETRA(Pretrained Evolutionary TRAnsforme...

ID: 2511.03976v1 cs.LG, cs.AI, q-bio.GN

arXiv PDF

📄 Knowledge Graph Sparsification for GNN-based Rare Disease Diagnosis

2025-10-14

Авторы:

Premt Cara, Kamilia Zaripova, David Bani-Harouni, Nassir Navab, Azade Farshad

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Rare genetic disease diagnosis faces critical challenges: insufficient patient data, inaccessible full genome sequencing, and the immense number of possible causative genes. These limitations cause prolonged diagnostic journeys, inappropriate treatments, and critical delays, disproportionately affecting patients in resource-limited settings where diagnostic tools are scarce. We propose RareNet, a subgraph-based Graph Neural Network that requires only patient phenotypes to identify the most likel...

ID: 2510.08655v1 cs.LG, cs.AI, q-bio.GN

arXiv PDF

📄 Fusing Sequence Motifs and Pan-Genomic Features: Antimicrobial Resistance Prediction using an Explainable Lightweight 1D CNN-XGBoost Ensemble

2025-10-01

Авторы:

Md. Saiful Bari Siddiqui, Nowshin Tarannum

#### Контекст Antimicrobial Resistance (AMR) является одной из наиболее серьезных мировых глобальных угрозой здравоохранения. Несмотря на то что геномическое секвенирование позволяет быстро определять резистентность к антибиотикам, общедоступные методы не всегда эффективны. Ранее использованные методы трактуют геном как неупорядоченный набор признаков, не учитывая последовательный контекст Single Nucleotide Polymorphisms (SNPs). Однако последние построения, такие как Transformers, требуют больших объемов данных и являются ресурсоемкими. #### Метод Мы предлагаем AMR-EnsembleNet — комбинацию 1D CNN и XGBoost, которая эффективно захватывает последовательный контекст SNPs и комплексные взаимодействия признаков. 1D CNN использует грамотно подобранные ядра для выделения последовательных мотивов, в то время как XGBoost анализирует глобальные взаимосвязи признаков. Для обработки количественных и категориальных данных, мы использовали адаптированные методы весов и трансформаций. Обучаясь на датасете 809 стрептококковых штаммов, мы проверяли подход на предсказании резистентности к четырём антибиотикам. #### Результаты Наши модели демонстрируют высокую точность и сбалансированность. Максимальный MCC для Ciprofloxacin (CIP) составил 0.926, а Macro F1-score для Gentamicin (GEN) достиг 0.691. Модель показала значимую акцентуацию на SNPs в классических AMR-генах, таких как fusA и parC, что подтверждает корректное обучение модели на генетических сигналах. #### Значимость Предложенная модель предлагает практические выгоды в быстром и точном предсказании резистентности к антибиотикам. Она легко применяется в реальных условиях, не требуя ресурсоемких вычислений. Это решение может повлиять на быстрое определение резистентности в клинических ситуациях, улучшая терапевтические решения. #### Выводы Мы продемонстрировали, что комбинация 1D CNN и XGBoost эффективно решает проблему предсказания резистентности. Наше исследование открывает пути для будущих разработок в области explainable AI для AMR, в том числе использования глубинных моделей для других биологических задач.

Annotation:

Antimicrobial Resistance (AMR) is a rapidly escalating global health crisis. While genomic sequencing enables rapid prediction of resistance phenotypes, current computational methods have limitations. Standard machine learning models treat the genome as an unordered collection of features, ignoring the sequential context of Single Nucleotide Polymorphisms (SNPs). State-of-the-art sequence models like Transformers are often too data-hungry and computationally expensive for the moderately-sized da...

ID: 2509.23552v1 cs.LG, cs.AI, q-bio.GN, q-bio.QM

arXiv PDF

📄 Quantum-Boosted High-Fidelity Deep Learning

2025-08-19

Авторы:

Feng-ao Wang, Shaobo Chen, Yao Xuan, Junwei Liu, Qi Gao, Hongdong Zhu, Junjie Hou, Lixin Yuan, Jinyu Cheng, Chenxin Yi, Hai Wei, Yin Ma, Tao Xu, Kai Wen, Yixue Li

## Контекст В области проблем, связанных с обработкой больших объемов данных и их анализа, возникает необходимость в моделях, которые могут эффективно обрабатывать и анализировать такие данные. Одним из ключевых проблемах является ограниченная способность традиционных моделей, основанных на гауссовых предположениях, понять и предсказать сложные структуры данных, особенно в области биологии и других научных сфер. Это приводит к необходимости использовать более сложные модели, которые могут лучше представлять данные и позволяют выполнять более точные исследования. Это увеличивает требования к мощности вычислений и требует эффективного способа обработки и анализа таких данных. ## Метод В данной работе предлагается использовать гибридную модель, объединяющую квантовый принцип с традиционной архитектурой глубокого обучения. Базовым методом является Quantum Boltzmann Machine-Variational Autoencoder (QBM-VAE), который состоит из квантового процессора для эффективного сэмплирования из Больцмановского распределения и вариационного автокодировщика (VAE) для построения модели. Эта модель использует гибридную архитектуру, где квантовый процессор предоставляет более точное сэмплирование, а классическая архитектура VAE обеспечивает адекватную интерпретацию данных. Данная методология позволяет получить более высокую точность при обработке больших научных данных, включая микроскопические данные и данные биологической природы. ## Результаты В ходе экспериментов были получены результаты, показывающие высокую эффективность QBM-VAE в обработке микроскопических данных и их интеграции. На примере миллионных данных с использованием квантового сэмплирования и VAE было доказано, что модель превосходит традиционные методы в задачах, таких как классификация клетки, синтез данных и интерпретация биологических траекторий. Эти результаты подтверждают, что Quantum Boltzmann Machine-Variational Autoencoder может преодолеть ограничения традиционных глубоких моделей, предоставляя более точные и научно значимые результаты. ## Значимость QBM-VAE оказался эффективным в области биологических исследований, где необходимо анализировать данные, содержащие сложные структуры. Он может использоваться в различных приложениях, включая классификацию клеток, интеграцию генома и траектории в клетках. Эта модель предоставляет новый подход к обработке научных данных и может помочь в развитии новых научных открытий. Благодаря использованию квантовых принципов, модель обеспечивает новый уровень точности и эффективности в обработке больших научных данных. ## Выводы В результате данных ис

Annotation:

A fundamental limitation of probabilistic deep learning is its predominant reliance on Gaussian priors. This simplistic assumption prevents models from accurately capturing the complex, non-Gaussian landscapes of natural data, particularly in demanding domains like complex biological data, severely hindering the fidelity of the model for scientific discovery. The physically-grounded Boltzmann distribution offers a more expressive alternative, but it is computationally intractable on classical co...

ID: 2508.11190v1 cs.LG, cs.AI, q-bio.GN

arXiv PDF