📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Nathan Breslow, Aayush Mishra, Mahler Revsine, Michael C. Schatz, Anqi Liu, Daniel Khashabi
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In-context learning (ICL) -- the capacity of a model to infer and apply abstract patterns from examples provided within its input -- has been extensively studied in large language models trained for next-token prediction on human text. In fact, prior work often attributes this emergent behavior to distinctive statistical properties in human language. This raises a fundamental question: can ICL arise organically in other sequence domains purely through large-scale predictive training?
To explor...
Авторы:
Xu Zou
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Since its emergence, SARS-CoV-2 has demonstrated a rapid and unpredictable
evolutionary trajectory, characterized by the continual emergence of
immune-evasive variants. This poses persistent challenges to public health and
vaccine development.
While large-scale generative pre-trained transformers (GPTs) have
revolutionized the modeling of sequential data, their direct applications to
noisy viral genomic sequences are limited. In this paper, we introduce
PETRA(Pretrained Evolutionary TRAnsforme...
Авторы:
Premt Cara, Kamilia Zaripova, David Bani-Harouni, Nassir Navab, Azade Farshad
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Rare genetic disease diagnosis faces critical challenges: insufficient
patient data, inaccessible full genome sequencing, and the immense number of
possible causative genes. These limitations cause prolonged diagnostic
journeys, inappropriate treatments, and critical delays, disproportionately
affecting patients in resource-limited settings where diagnostic tools are
scarce. We propose RareNet, a subgraph-based Graph Neural Network that requires
only patient phenotypes to identify the most likel...
Авторы:
Md. Saiful Bari Siddiqui, Nowshin Tarannum
#### Контекст
Antimicrobial Resistance (AMR) является одной из наиболее серьезных мировых глобальных угрозой здравоохранения. Несмотря на то что геномическое секвенирование позволяет быстро определять резистентность к антибиотикам, общедоступные методы не всегда эффективны. Ранее использованные методы трактуют геном как неупорядоченный набор признаков, не учитывая последовательный контекст Single Nucleotide Polymorphisms (SNPs). Однако последние построения, такие как Transformers, требуют больших объемов данных и являются ресурсоемкими.
#### Метод
Мы предлагаем AMR-EnsembleNet — комбинацию 1D CNN и XGBoost, которая эффективно захватывает последовательный контекст SNPs и комплексные взаимодействия признаков. 1D CNN использует грамотно подобранные ядра для выделения последовательных мотивов, в то время как XGBoost анализирует глобальные взаимосвязи признаков. Для обработки количественных и категориальных данных, мы использовали адаптированные методы весов и трансформаций. Обучаясь на датасете 809 стрептококковых штаммов, мы проверяли подход на предсказании резистентности к четырём антибиотикам.
#### Результаты
Наши модели демонстрируют высокую точность и сбалансированность. Максимальный MCC для Ciprofloxacin (CIP) составил 0.926, а Macro F1-score для Gentamicin (GEN) достиг 0.691. Модель показала значимую акцентуацию на SNPs в классических AMR-генах, таких как fusA и parC, что подтверждает корректное обучение модели на генетических сигналах.
#### Значимость
Предложенная модель предлагает практические выгоды в быстром и точном предсказании резистентности к антибиотикам. Она легко применяется в реальных условиях, не требуя ресурсоемких вычислений. Это решение может повлиять на быстрое определение резистентности в клинических ситуациях, улучшая терапевтические решения.
#### Выводы
Мы продемонстрировали, что комбинация 1D CNN и XGBoost эффективно решает проблему предсказания резистентности. Наше исследование открывает пути для будущих разработок в области explainable AI для AMR, в том числе использования глубинных моделей для других биологических задач.
Annotation:
Antimicrobial Resistance (AMR) is a rapidly escalating global health crisis.
While genomic sequencing enables rapid prediction of resistance phenotypes,
current computational methods have limitations. Standard machine learning
models treat the genome as an unordered collection of features, ignoring the
sequential context of Single Nucleotide Polymorphisms (SNPs). State-of-the-art
sequence models like Transformers are often too data-hungry and computationally
expensive for the moderately-sized da...
Авторы:
Feng-ao Wang, Shaobo Chen, Yao Xuan, Junwei Liu, Qi Gao, Hongdong Zhu, Junjie Hou, Lixin Yuan, Jinyu Cheng, Chenxin Yi, Hai Wei, Yin Ma, Tao Xu, Kai Wen, Yixue Li
## Контекст
В области проблем, связанных с обработкой больших объемов данных и их анализа, возникает необходимость в моделях, которые могут эффективно обрабатывать и анализировать такие данные. Одним из ключевых проблемах является ограниченная способность традиционных моделей, основанных на гауссовых предположениях, понять и предсказать сложные структуры данных, особенно в области биологии и других научных сфер. Это приводит к необходимости использовать более сложные модели, которые могут лучше представлять данные и позволяют выполнять более точные исследования. Это увеличивает требования к мощности вычислений и требует эффективного способа обработки и анализа таких данных.
## Метод
В данной работе предлагается использовать гибридную модель, объединяющую квантовый принцип с традиционной архитектурой глубокого обучения. Базовым методом является Quantum Boltzmann Machine-Variational Autoencoder (QBM-VAE), который состоит из квантового процессора для эффективного сэмплирования из Больцмановского распределения и вариационного автокодировщика (VAE) для построения модели. Эта модель использует гибридную архитектуру, где квантовый процессор предоставляет более точное сэмплирование, а классическая архитектура VAE обеспечивает адекватную интерпретацию данных. Данная методология позволяет получить более высокую точность при обработке больших научных данных, включая микроскопические данные и данные биологической природы.
## Результаты
В ходе экспериментов были получены результаты, показывающие высокую эффективность QBM-VAE в обработке микроскопических данных и их интеграции. На примере миллионных данных с использованием квантового сэмплирования и VAE было доказано, что модель превосходит традиционные методы в задачах, таких как классификация клетки, синтез данных и интерпретация биологических траекторий. Эти результаты подтверждают, что Quantum Boltzmann Machine-Variational Autoencoder может преодолеть ограничения традиционных глубоких моделей, предоставляя более точные и научно значимые результаты.
## Значимость
QBM-VAE оказался эффективным в области биологических исследований, где необходимо анализировать данные, содержащие сложные структуры. Он может использоваться в различных приложениях, включая классификацию клеток, интеграцию генома и траектории в клетках. Эта модель предоставляет новый подход к обработке научных данных и может помочь в развитии новых научных открытий. Благодаря использованию квантовых принципов, модель обеспечивает новый уровень точности и эффективности в обработке больших научных данных.
## Выводы
В результате данных ис
Annotation:
A fundamental limitation of probabilistic deep learning is its predominant
reliance on Gaussian priors. This simplistic assumption prevents models from
accurately capturing the complex, non-Gaussian landscapes of natural data,
particularly in demanding domains like complex biological data, severely
hindering the fidelity of the model for scientific discovery. The
physically-grounded Boltzmann distribution offers a more expressive
alternative, but it is computationally intractable on classical co...