📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 CASPER: Cross-modal Alignment of Spatial and single-cell Profiles for Expression Recovery

2025-11-21

Авторы:

Amit Kumar, Maninder Kaur, Raghvendra Mall, Sukrit Gupta

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Spatial Transcriptomics enables mapping of gene expression within its native tissue context, but current platforms measure only a limited set of genes due to experimental constraints and excessive costs. To overcome this, computational models integrate Single-Cell RNA Sequencing data with Spatial Transcriptomics to predict unmeasured genes. We propose CASPER, a cross-attention based framework that predicts unmeasured gene expression in Spatial Transcriptomics by leveraging centroid-level represe...

ID: 2511.15139v1 q-bio.GN, cs.AI, cs.LG

arXiv PDF

📄 MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging

2025-11-20

Авторы:

Siyuan Li, Kai Yu, Anna Wang, Zicheng Liu, Chang Yu, Jingbo Zhou, Qirong Yang, Yucheng Guo, Xiaoming Zhang, Stan Z. Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Modeling genomic sequences faces two unsolved challenges: the information density varies widely across different regions, while there is no clearly defined minimum vocabulary unit. Relying on either four primitive bases or independently designed DNA tokenizers, existing approaches with naive masked language modeling pre-training often fail to adapt to the varying complexities of genomic sequences. Leveraging Token Merging techniques, this paper introduces a hierarchical architecture that jointly...

ID: 2511.14806v1 q-bio.GN, cs.AI, cs.LG

arXiv PDF

📄 Near-Lossless Model Compression Enables Longer Context Inference in DNA Large Language Models

2025-11-20

Авторы:

Rui Zhu, Xiaopu Zhou, Haixu Tang, Stephen W. Scherer, Lucila Ohno-Machado

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Trained on massive cross-species DNA corpora, DNA large language models (LLMs) learn the fundamental "grammar" and evolutionary patterns of genomic sequences. This makes them powerful priors for DNA sequence modeling, particularly over long ranges. However, two major constraints hinder their use in practice: the quadratic computational cost of self-attention and the growing memory required for key-value (KV) caches during autoregressive decoding. These constraints force the use of heuristics suc...

ID: 2511.14694v1 q-bio.GN, cs.AI, cs.LG, q-bio.PE

arXiv PDF

📄 DeepVRegulome: DNABERT-based deep-learning framework for predicting the functional impact of short genomic variants on the human regulome

2025-11-15

Авторы:

Pratik Dutta, Matthew Obusan, Rekha Sathian, Max Chao, Pallavi Surana, Nimisha Papineni, Yanrong Ji, Zhihan Zhou, Han Liu, Alisa Yurovsky, Ramana V Davuluri

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Whole-genome sequencing (WGS) has revealed numerous non-coding short variants whose functional impacts remain poorly understood. Despite recent advances in deep-learning genomic approaches, accurately predicting and prioritizing clinically relevant mutations in gene regulatory regions remains a major challenge. Here we introduce Deep VRegulome, a deep-learning method for prediction and interpretation of functionally disruptive variants in the human regulome, which combines 700 DNABERT fine-tuned...

ID: 2511.09026v1 q-bio.GN, cs.AI, cs.LG

arXiv PDF

📄 Soft-Evidence Fused Graph Neural Network for Cancer Driver Gene Identification across Multi-View Biological Graphs

2025-10-10

Авторы:

Bang Chen, Lijun Guo, Houli Fan, Wentao He, Rong Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Identifying cancer driver genes (CDGs) is essential for understanding cancer mechanisms and developing targeted therapies. Graph neural networks (GNNs) have recently been employed to identify CDGs by capturing patterns in biological interaction networks. However, most GNN-based approaches rely on a single protein-protein interaction (PPI) network, ignoring complementary information from other biological networks. Some studies integrate multiple networks by aligning features with consistency cons...

ID: 2510.06290v1 q-bio.GN, cs.AI, cs.LG

arXiv PDF

📄 PhenoGnet: A Graph-Based Contrastive Learning Framework for Disease Similarity Prediction

2025-09-19

Авторы:

Ranga Baminiwatte, Kazi Jewel Rana, Aaron J. Masino

#### Контекст Понимание сходства заболеваний является ключевым аспектом в развитии процедур диагностики, разработки новых лекарств и создания персонализированных стратегий лечения. Однако существующие методы часто ограничиваются в той или иной мере в своих возможностях, не полностью учтены латентные биологические отношения. Эта проблема мотивирует разработку систем, которые могут лучше учитывать генетические, фенотипические и сетевые связи. #### Метод PhenoGnet — это новый фреймворк, основанный на графах и методах противоположности, разработанный для прогнозирования сходства заболеваний. Он состоит из двух основных компонентов: модели внутреннего и кросс-вида. Модель внутреннего вида использует Graph Convolutional Networks (GCNs) и Graph Attention Networks (GATs) для энкодинга генов и фенотипов. Модель кросс-вида, в свою очередь, представлена сверточной нейросетью с общими весами, которая вырабатывает закономерности между генами и фенотипами с помощью контрастного обучения. Тренировочные данные состоят из положительных пар (векторов генов и фенотипов, связанных с одним заболеванием) и отрицательных пар (случайно подобранных невзаимосвязанных векторов). Размерность векторов — 256. Оценка происходит с помощью метрик AUCPR и AUROC по сравнению с существующими методами. #### Результаты Использовались данные из Human Phenotype Ontology (HPO) и gene-phenotype associations. Модель была тренирована и протестирована на базе около 1100 пар сходных и 866 пар несходных заболеваний. Генно-ориентированные эмбеддинги показали AUCPR в 0.9012 и AUROC в 0.8764, превосходя существующие алгоритмы. Этот результат достигнут благодаря способности PhenoGnet кластеризовать биологически связанные гены и фенотипы, даже если они не являются прямыми соседями в сети. #### Значимость PhenoGnet может быть применен в различных областях, включая раннее диагностирование редких заболеваний, разработку новых лекарств и прогнозирование реакций на них. Он предлагает сценарий, где модель работает с интерпретируемыми векторами, что повышает его привлекательность для практического применения. Этот подход может способствовать улучшению здравоохранения, облегчению научных исследований и ускорению выявления лекарств. #### Выводы PhenoGnet доказал свою эффективность в предсказании сходства заболеваний, предлагая новый подход к решению этой задачи. Будущие исследования будут сфокусированы на улучшении модели, расширении набора данных и исследовании его применения в реальных клинических случаях.

Annotation:

Understanding disease similarity is critical for advancing diagnostics, drug discovery, and personalized treatment strategies. We present PhenoGnet, a novel graph-based contrastive learning framework designed to predict disease similarity by integrating gene functional interaction networks with the Human Phenotype Ontology (HPO). PhenoGnet comprises two key components: an intra-view model that separately encodes gene and phenotype graphs using Graph Convolutional Networks (GCNs) and Graph Attent...

ID: 2509.14037v1 q-bio.GN, cs.AI, cs.LG

arXiv PDF

📄 scI2CL: Effectively Integrating Single-cell Multi-omics by Intra- and Inter-omics Contrastive Learning

2025-08-28

Авторы:

Wuchao Liu, Han Peng, Wengen Li, Yichao Zhang, Jihong Guan, Shuigeng Zhou

#### Контекст Одним из ключевых аспектов современных исследований в области биологии и медицины является анализ single-cell multi-omics данных, которые содержат богатый объем информации о состояниях клеток. Эти данные позволяют изучить гетерогенность клеток, развитие заболеваний и основные биологические процессы. Однако анализ таких данных сталкивается с рядом затруднений, включая нехватку эффективных методов для моделирования и интерпретации сложных взаимосвязей между различными омосом данных. Такие проблемы становятся особенно актуальными при изучении динамического процесса развития клеток, где необходимы точные приемлемые решения для оптимальной интеграции и анализа многоомных данных. #### Метод scI2CL — это новая фреймворк, основанная на принципах **intra- и inter-omics contrastive learning**, предназначенная для эффективной интеграции multi-omics данных. Метод использует контрастирующее обучение для выявления интересных зависимостей внутри и между различными омосом данных. Технически, scI2CL включает в себя нейросетевую архитектуру, которая способствует обучению высококачественных многоомных представлений клеток. Эти представления используются для различных задач, таких как кластеризация клеток, определение подтипов клеток и построение траекторий развития клеток. Основной целью фреймворка является повышение точности и детализации анализа сложных multi-omics данных. #### Результаты С помощью scI2CL проведены ряд экспериментов на четырьмя различными наборами данных. Эти эксперименты доказали, что фреймворк превосходит существующие методы в задачах кластеризации клеток, субтипизации клеток и построения траекторий развития. Например, в задаче кластеризации, scI2CL показал лучшие результаты по сравнению с восьми современными подходами на нескольких реальных наборах данных. В задаче подтипизации, scI2CL удалось выделить три новых подпроцесса развития моноцитов, которые не были выявлены ранее. Кроме того, scI2CL удалось точно построить траекторию развития клеток из гемопоэтических стволовых клеток до зрелых Memory B-клеток, что не достигалось ни одним из предыдущих методов. Эти результаты указывают на высокую точность и способность scI2CL работать с самыми сложными задачами. #### Значимость scI2CL может применяться в различных областях, включая геномику, гетогенность клеток и исследования биологических процессов. Его основное преимущество заключается в том, что он позволяет эффективно объединять и анализировать разнообразные multi-omics данные, обнаруживая зависимости и характеристики, которые были бы недоступны при использовании отдельных омосов. Этот подход может привести

Annotation:

Single-cell multi-omics data contain huge information of cellular states, and analyzing these data can reveal valuable insights into cellular heterogeneity, diseases, and biological processes. However, as cell differentiation \& development is a continuous and dynamic process, it remains challenging to computationally model and infer cell interaction patterns based on single-cell multi-omics data. This paper presents scI2CL, a new single-cell multi-omics fusion framework based on intra- and inte...

ID: 2508.18304v1 q-bio.GN, cs.AI, cs.LG, q-bio.CB

arXiv PDF

📄 A U-Statistic-based random forest approach for genetic interaction study

2025-08-23

Авторы:

Ming Li, Ruo-Sin Peng, Changshuai Wei, Qing Lu

## Контекст В последние годы резко вырос роль генетических факторов в исследовании сложных траекторий развития болезней. Одним из основных заданий генетических исследований является идентификация генов, которые взаимодействуют друг с другом и с внешними факторами окружающей среды, воздействуя на развитие различных характеристик. Традиционные методы, ориентированные на идентификацию одной или нескольких синергических пар генов, были ограничены в своих возможностях, несмотря на развитие информационных технологий. Особенно сложной является задача рассмотрения множественных генов и внешних факторов в контексте их взаимодействия. Ранние работы по идентификации гено-генных и гено-окружающих взаимодействий сталкивались с проблемами, связанными с высокой динамичностью генетических данных, вычислительной сложностью и ограниченностью мощности компьютерных систем. В этой статье предлагается новый подход, основанный на U-статистике, для улучшения эффективности методов идентификации взаимодействий. ## Метод Предложенный подход, названный Forest U-Test, основывается на использовании U-статистики, которая предназначена для оценки взаимодействий генов и внешних факторов в ходе идентификации кластеров и ассоциаций. Метод использует случайные лесы (random forests) для распределения данных и использования информации о взаимодействиях в каждом кластере. В разных этапах взаимодействия используется функция U-статистики, которая оценивает значимость каждого изменения в кластере. Это позволяет сократить количество вычислений и избежать проблемы экспоненциального роста количества возможностей, которая обычно связана с генетическими исследованиями. Данный подход предлагается для использования в случаях, когда имеется большое количество данных, включая не только генетические, но и внешние факторы. ## Результаты Для проверки эффективности метода были проведены симуляционные эксперименты и исследования на реальных данных. В результате проведенных экспериментов была продемонстрирована значительная преуспетьность Forest U-Test по сравнению с другими существующими методами. Например, в симуляционных исследованиях, проведенных на генетических данных, метод показал значительно более высокую точность в идентификации взаимодействий, чем уже существующие методы. Также, в приложении к исследованию зависимости от каннабиса (CD) на основе данных из трех независимых исследований из Study of Addiction: Genetics and Environment, была выявлена значимая комбинированная ассоциация с p-value меньше 0.001. Эти результаты были подтверждены в двух других независи

Annotation:

Variations in complex traits are influenced by multiple genetic variants, environmental risk factors, and their interactions. Though substantial progress has been made in identifying single genetic variants associated with complex traits, detecting the gene-gene and gene-environment interactions remains a great challenge. When a large number of genetic variants and environmental risk factors are involved, searching for interactions is limited to pair-wise interactions due to the exponentially in...

ID: 2508.14924v1 q-bio.GN, cs.AI, cs.LG, stat.ME

arXiv PDF

📄 Deep Generative Models for Discrete Genotype Simulation

2025-08-16

Авторы:

Sihan Xie, Thierry Tribout, Didier Boichard, Blaise Hanczar, Julien Chiquet, Eric Barrey

#### Контекст Генетические данные являются ключевым ресурсом для понимания наследственных факторов в отношении здоровья и заболеваний. Однако доступ к таким данным часто ограничен из-за конфиденциальности и прав собственности, что ограничивает возможности исследователей. Дополнительно, создание моделей, которые могут эффективно использовать эти данные, представляет сложность из-за их большого объема и сложности. Глубокие генерирующие модели (deep generative models) предлагают новые возможности для создания реалистичных генотипов, сохраняя при этом конфиденциальность и обогащая доступ к данным. Несмотря на то, что ранее были разработаны модели для генезирования данных о выражении генов и хаплотипов, работы по генотипам, воспроизводящимся в условном и неусловном виде, по-прежнему остаются недостаточно развиты. Целью данного исследования является разработка и оценка генерирующих моделей, приспособленных для генотипа в обоих условиях, что является более сложной задачей из-за дискретной природы генотипных данных. #### Метод Мы развили и оценили три основных генерирующих модели: Variational Autoencoders (VAEs), Diffusion Models и Generative Adversarial Networks (GANs). Для приспособления этих моделей к дискретной природе генотипа были внесены специальные поправки. Модели были обучены на больших наборах данных, включая все хромосомы у коров и несколько хромосом у человека. Чтобы оценить эффективность, мы использовали многообразие метрик, взятых из глубокого обучения и квантитативных исследований генетики. Наши эксперименты были разработаны для изучения того, насколько эти модели воспроизводят генетические шаблоны и сохраняют ассоциацию между генотипом и фенотипом. #### Результаты Модели, которые мы исследовали, продемонстрировали высокую эффективность в понимании и воспроизведению генетических шаблонов. Они демонстрируют хорошие результаты в сохранении ассоциации между генотипом и фенотипом. Мы провели подробный анализ, сравнивая полученные результаты с другими подходами в области генетической моделирования. Это позволило нам выделить сильные и слабые стороны каждой модели. Наши результаты показывают, что VAE, Diffusion Models и GANs могут эффективно воспроизводить генотипы, но с разными успехами в зависимости от конкретной ситуации. #### Значимость Наши находки имеют большое значение для различных областей, включая исследования генетики, разработку новых лекарств и понимание наследственных заболеваний. Модели, разработанные в этом исследовании, открывают новые пути для эффективного использования данных о генотипе без необходимости пр

Annotation:

Deep generative models open new avenues for simulating realistic genomic data while preserving privacy and addressing data accessibility constraints. While previous studies have primarily focused on generating gene expression or haplotype data, this study explores generating genotype data in both unconditioned and phenotype-conditioned settings, which is inherently more challenging due to the discrete nature of genotype data. In this work, we developed and evaluated commonly used generative mode...

ID: 2508.09212v1 q-bio.GN, cs.AI, cs.LG

arXiv PDF