📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня

📄 ShortListing Model: A Streamlined SimplexDiffusion for Discrete Variable Generation

2025-08-27

Авторы:

Yuxuan Song, Zhe Zhang, Yu Pei, Jingjing Gong, Qiying Yu, Zheng Zhang, Mingxuan Wang, Hao Zhou, Jingjing Liu, Wei-Ying Ma

#### Контекст Генерирование дискретных переменных является важной задачей в области естественных языков и биологического дизайна. Однако оно оказывается сложным и неэффективным из-за высокой размерности пространства возможных решений. Эта проблема становится еще более важной при работе с биологическими последовательностями и текстовыми данными. Обычные модели часто не могут обрабатывать такие задачи с высокой производительностью и точностью. Модель Shortlisting Model (SLM) предлагается как более эффективное решение для таких задач, основываясь на простой структуре и прогрессивной оптимизации. #### Метод SLM основывается на простой структуре пространства простых и применяет прогрессивные техники уменьшения исследовательской области. Она использует простые центроиды для эффективного вычисления и построения решений. На основе этой модели внедрена гибкая реализация classifier-free guidance, что позволяет улучшать производительность модели без указания какого-либо конкретного класса. Архитектура SLM включает простую, но мощную структуру, которая позволяет легко масштабироваться и адаптироваться к различным задачам. #### Результаты За счет использования простых пространств и прогрессивных техник, SLM показывает высокую эффективность и точность при генерировании дискретных переменных. Модель показала себя благоприятно в задачах генерирования последовательностей DNA, биологических последовательностей и текстов. На экспериментальных данных, в том числе жестких тестовых наборах, SLM показала высокую точность и быстродействие. Результаты показывают, что модель может эффективно решать задачи дизайна последовательностей и текстов, даже при высокой размерности. #### Значимость SLM открывает новые перспективы в области генерирования дискретных переменных, особенно в задачах биологического и текстового дизайна. Она обеспечивает более эффективное и точное решение, чем остальные существующие модели. Эта модель может быть применена в различных приложениях, таких как биологический дизайн, генерирование текстов и даже в области машинного обучения, где требуется генерирование дискретных переменных. #### Выводы SLM доказала свою эффективность в генерировании дискретных переменных, особенно в задачах биологического и текстового дизайна. Будущие исследования будут сконцентрированы на улучшении модели, а также на расширении ее применений в различных областях. Это может привести к новым возможностям в области искусственного интеллекта и биоинформатики.

Annotation:

Generative modeling of discrete variables is challenging yet crucial for applications in natural language processing and biological sequence design. We introduce the Shortlisting Model (SLM), a novel simplex-based diffusion model inspired by progressive candidate pruning. SLM operates on simplex centroids, reducing generation complexity and enhancing scalability. Additionally, SLM incorporates a flexible implementation of classifier-free guidance, enhancing unconditional generation performance. ...

ID: 2508.17345v1 cs.LG, q-bio.GN

arXiv PDF

📄 How Effectively Can Large Language Models Connect SNP Variants and ECG Phenotypes for Cardiovascular Risk Prediction?

2025-08-13

Авторы:

Niranjana Arun Menon, Iqra Farooq, Yulong Li, Sara Ahmed, Yutong Xie, Muhammad Awais, Imran Razzak

#### Контекст Кардиоваскулярные заболевания (CVD) являются одной из наиболее распространенных причин смерти и инвалидности по всему миру. Их многофакторный характер, комбинированный с обширной дисперсией в генетических и электрофизиологических данных, делает прогнозирование возможных CVD очень сложным. Несмотря на продвижение технологий в области высокопроизводительного секвенирования и электрокардиографии, определение биологически значимых связей между генетическими маркерами и электрокардиографическими явлениями остается нерешенной проблемой. Недавно, большие языковые модели (LLMs) показали свою эффективность в предсказании структурных изменений в биологических последовательностях. В данном исследовании мы исследуем возможности файн-тюнинга LLMs для прогнозирования CVD и потенциальных генетических маркеров, связанных с риском CVD, используя генетические маркеры, полученные из высокопроизводительного генотипирования. #### Метод Мы применяем файн-тюнинг к LLMs, чтобы они могли обучаться на геномных данных, связанных с клиническими данными, включая электрокардиограммы и паттерны генетических вариантов (SNPs). Обучаемая модель использует Chain of Thought (CoT) реакцию, чтобы сформировать логические выводы по данным. Мы проводим эксперименты на выборках, содержащих генетические маркеры и клинические симптомы, связанные с CVD. Кросс-валидация и оценка метрик точности и значимости позволят определить эффективность модели в прогнозировании CVD. Мы также исследуем разные модели LLM, включая RoBERTa и BERT, чтобы выявить лучшие практики в работе с генетическими данными. #### Результаты Мы проводим ряд экспериментов, используя широкий набор генетических данных и клинических факторов, связанных с риском CVD. Модель LLM демонстрирует высокую точность в прогнозировании CVD и связанных с ней генетических маркеров, в том числе SNPs. Мы обнаруживаем, что модели, использующие логическое Chain of Thought мышления, показывают значительное улучшение в прогнозировании сравниваясь с базовыми моделями. Особое внимание уделяется тому, как модель может выявлять потенциальные генетические маркеры, связанные с ранним прогнозированием CVD и давать клинически значимые выводы. #### Значимость Результаты данного исследования открывают новые перспективы в области прогнозирования CVD и раннего выявления риска. Модели LLM могут быть применены для помощи в клинических решениях, особенно в области персонализированной медицины. Их можно использовать для раннего выявления CVD, помочь в определении потенциальных ген

Annotation:

Cardiovascular disease (CVD) prediction remains a tremendous challenge due to its multifactorial etiology and global burden of morbidity and mortality. Despite the growing availability of genomic and electrophysiological data, extracting biologically meaningful insights from such high-dimensional, noisy, and sparsely annotated datasets remains a non-trivial task. Recently, LLMs has been applied effectively to predict structural variations in biological sequences. In this work, we explore the pot...

ID: 2508.07127v1 cs.LG, q-bio.GN

arXiv PDF

📄 MOTGNN: Interpretable Graph Neural Networks for Multi-Omics Disease Classification

2025-08-13

Авторы:

Tiantian Yang, Zhiqian Chen

#### Контекст Область развития методов анализа мультимоисовых данных является ключевой для понимания механизмов развития заболеваний. Несмотря на то, что интеграция данных микроRNA, мРНК и меток ДНК может дать полное представление о биологических процессах, существуют значительные трудности в моделировании. Эти трудности включают высокую размерность данных, сложные взаимосвязи между модальностями и необходимость высокой точности классификации. Настоящая работа предлагает новую модель Multi-Omics Integration with Tree-generated Graph Neural Network (MOTGNN), которая предназначена для решения этих проблем и предоставляет интерпретируемые результаты. #### Метод Модель MOTGNN основывается на комбинации взвешенных графов, созданных с помощью eXtreme Gradient Boosting (XGBoost), и Graph Neural Networks (GNNs) для каждого из мультимоисовых слоев. На первой стадии XGBoost выделяет важные признаки в каждой модальности и строит ориентированные графы, где вершины представляют гены или микроРНК, а рёбра — их взаимосвязи. Затем, эти графы подаются в GNNs для построения модальности-специфических представлений. Наконец, все представления объединяются в конечный классификатор, основанный на пространственных сетях. Архитектура MOTGNN строится таким образом, чтобы обеспечить эффективность вычислений и понимание результатов. #### Результаты На трёх наборах реальных данных о заболеваниях MOTGNN показала существенное улучшение в сравнении с состоянием технологий в области классификации заболеваний. Результаты показали точность, ROC-AUC и F1-меру, превосходящие соревнующиеся модели на 5-10%. Особое внимание было уделено ситуациям с сильным несбалансированностью классов, где MOTGNN демонстрировала F1-меру в 87,2% против 33,4% у конкурентов. Благодаря спарсе графам (2,1-2,8 ребер на вершину) и встроенной интерпретируемости, MOTGNN эффективно использует ресурсы и обеспечивает понимание выбора биомаркеров и вклада каждой модальности в прогноз. #### Значимость МОТГНН предлагает новую подходящую модель для области интеграции мультимоисовых данных. Она может быть применена в медицинской практике для диагностики заболеваний, раннего выявления рисков и поиска биомаркеров. Её высокая точность и интерпретируемость делают её привлекательной для решения проблем, связанных с необходимостью точных моделей в сложных медицинских задачах. #### Выводы МОТГНН достигла высокой точности и интерпретируемости в моделировании заболеваний на основе мультимоисовых данных. Будущие исследования будут сконцентрированы на расширении модели для многоклассовой классификации и е

Annotation:

Integrating multi-omics data, such as DNA methylation, mRNA expression, and microRNA (miRNA) expression, offers a comprehensive view of the biological mechanisms underlying disease. However, the high dimensionality and complex interactions among omics layers present major challenges for predictive modeling. We propose Multi-Omics integration with Tree-generated Graph Neural Network (MOTGNN), a novel and interpretable framework for binary disease classification. MOTGNN employs eXtreme Gradient Bo...

ID: 2508.07465v1 cs.LG, q-bio.GN, stat.ML, 62R07

arXiv PDF

📄 On the (In)Significance of Feature Selection in High-Dimensional Datasets

2025-08-09

Авторы:

Bhavesh Neekhra, Debayan Gupta, Partha Pratim Chakravarti

## Контекст Область исследования связана с применением методов feature selection (FS) в высокомерностных данных, особенно в области геноматики. Фундаментальными мотивациями являются улучшение точности моделей, экономия ресурсов вычислений и выявление значимых признаков. Несмотря на широкое исследование FS-алгоритмов, несколько вопросов остаются открытыми, включая потенциальную значимость лишь случайных выборок признаков в контексте высокомерностных данных. ## Метод Методология основывалась на сравнении результатов моделей машинного обучения, обученных на случайных подмножествах признаков, с результатами моделей, обученных на признаках, выбранных фильтрующими алгоритмами FS. Использовались данные из геномных исследований, направленных на классификацию. Описываемые эксперименты проводились для исследования влияния размера подмножества признаков и степени выбора признаков на модельный показатель. ## Результаты Наблюдалось, что модели, обученные на случайных подмножествах признаков размером от 0,02% до 1% от всех признаков, не только вели себя подобно моделям, обученным на всех признаках, но и часто показывали более высокую точность. Также было замечено, что "типичные" случайные подмножества признаков выдавали показатели, которые не уступали, и в некоторых случаях превосходили, результаты признаков, выделенных в результатах проведенных ранее исследований. ## Значимость Полученные результаты имеют значимые последствия для геномики и других областей, требующих оптимизации выбора признаков. Они становятся важными для широкого круга научных и практических задач, включая дизайн лекарств, выявление значимых признаков в данных и процессы моделирования. Также они вызывают вопросы о надежности исследований, основывающихся на выборе признаков в высокомерностных данных, без дополнительных подтверждений в экспериментальных условиях. ## Выводы Основные достижения исследования заключаются в том, что (1) выбор признаков в высокомерностных данных может быть лишен значимости для улучшения моделей и (2) случайные подмножества признаков могут предоставить конкурентные или лучшие результаты по сравнению с выбранными FS-алгоритмами. Будущие исследования будут фокусироваться на детальном анализе характера влияния FS в различных контекстах и развитии более надежных алгоритмов выбора признаков.

Annotation:

Extensive research has been done on feature selection (FS) algorithms for high-dimensional datasets aiming to improve model performance, reduce computational cost and identify features of interest. We test the null hypothesis of using randomly selected features to compare against features selected by FS algorithms to validate the performance of the latter. Our results show that FS on high-dimensional datasets (in particular gene expression) in classification tasks is not useful. We find that (1)...

ID: 2508.03593v1 cs.LG, q-bio.GN, stat.ML

arXiv PDF

📄 Alz-QNet: A Quantum Regression Network for Studying Alzheimer's Gene Interactions

2025-08-09

Авторы:

Debanjan Konar, Neerav Sreekumar, Richard Jiang, Vaneet Aggarwal

## Контекст Alzheimer's disease (AD) является одной из наиболее распространенных и сложных форм деменции, приводящих к серьезным неизлечимым осложнениям. Эта болезнь характеризуется многообразными факторами, включая генетические и эпигенетические процессы. Несмотря на значительные усилия в области исследований, полное понимание генетических механизмов, влияющих на формирование AD, до сих пор остается недостижимым. Особенно важно разобраться в интеракциях между ключевыми генами, которые могут способствовать развитию заболевания или способствовать лечению. Недавние исследования показали, что выявление интеракций между генами $APP$, $FGF14$, $YY1$, $PLD3$ и другими может выделить регуляторные механизмы, которые могут привести к разработке новых терапевтических методов. Однако существующие методы не могут полностью раскрыть эти интеракции, что подчеркивает необходимость разработки новых подходов. ## Метод В настоящей работе предлагается методология, основанная на применении квантовых регрессионных сетей (Quantum Regression Networks, QRN), сочетающихся с технологиями Quantum Gene Regulatory Networks (QGRN). Алгоритм Alz-QNet использует компьютерные модели, основанные на квантовых вычислениях, для точного моделирования интеракций между генами. Наша модель оптимизирует входные данные, содержащиеся в базе данных $GSE138852$, используя квантовые характеристики, такие как свертки и суперпозиции. Математический подход включает в себя методы глубокого обучения и квантовые сети, чтобы выявить взаимодействия между $APP$, $FGF14$, $YY1$, $EGR1$, $GAS7$, $AKT3$, $SREBF2$ и $PLD3$. Мы разрабатываем модель, которая может интерпретировать генетические механизмы, связанные с развитием заболевания в хвойной лобной зоны. ## Результаты Мы применяем Alz-QNet к реальным данным из базы $GSE138852$, отражающим изменения генной активности во время развития AD. Наши эксперименты показали, что Alz-QNet может выявить сильные интеракции между ключевыми генами, такими как $APP$ и $PLD3$, которые влияют на процессы развития заболевания. Кроме того, Alz-QNet позволяет выделить потенциальные регуляторы, которые могут быть использованы в терапии. Мы проверяем эффективность модели, сравнивая результаты с другими методами и показывая значительное повышение точности. Наши результаты показали, что модель способна выявить такие регуляторы, как $SREBF2$ и $AKT3$, которые могут быть использованы в качестве целей для новых лекарств. ## Значимость Результаты Alz-QNet могут иметь большое значение в области исследований по AD, так как о

Annotation:

Understanding the molecular-level mechanisms underpinning Alzheimer's disease (AD) by studying crucial genes associated with the disease remains a challenge. Alzheimer's, being a multifactorial disease, requires understanding the gene-gene interactions underlying it for theranostics and progress. In this article, a novel attempt has been made using a quantum regression to decode how some crucial genes in the AD Amyloid Beta Precursor Protein ($APP$), Sterol regulatory element binding transcripti...

ID: 2508.04743v1 q-bio.MN, cs.LG, q-bio.GN, quant-ph

arXiv PDF

Показано 11 - 15 из 15 записей