📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Interpreting GFlowNets for Drug Discovery: Extracting Actionable Insights for Medicinal Chemistry

2025-11-26

Авторы:

Amirtha Varshini A S, Duminda S. Ranasinghe, Hok Hei Tam

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Generative Flow Networks, or GFlowNets, offer a promising framework for molecular design, but their internal decision policies remain opaque. This limits adoption in drug discovery, where chemists require clear and interpretable rationales for proposed structures. We present an interpretability framework for SynFlowNet, a GFlowNet trained on documented chemical reactions and purchasable starting materials that generates both molecules and the synthetic routes that produce them. Our approach inte...

ID: 2511.19264v1 cs.LG, cs.AI, q-bio.BM

arXiv PDF

📄 A Standardized Benchmark for Multilabel Antimicrobial Peptide Classification

2025-11-11

Авторы:

Sebastian Ojeda, Rafael Velasquez, Nicolás Aparicio, Juanita Puentes, Paula Cárdenas, Nicolás Andrade, Gabriel González, Sergio Rincón, Carolina Muñoz-Camargo, Pablo Arbeláez

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Antimicrobial peptides have emerged as promising molecules to combat antimicrobial resistance. However, fragmented datasets, inconsistent annotations, and the lack of standardized benchmarks hinder computational approaches and slow down the discovery of new candidates. To address these challenges, we present the Expanded Standardized Collection for Antimicrobial Peptide Evaluation (ESCAPE), an experimental framework integrating over 80.000 peptides from 27 validated repositories. Our dataset sep...

ID: 2511.04814v1 cs.LG, cs.AI, q-bio.BM, 68T07, 62H30, 62P10, I.2.6; I.2.1; I.5.1; I.5.2

arXiv PDF

📄 STAR-VAE: Latent Variable Transformers for Scalable and Controllable Molecular Generation

2025-11-06

Авторы:

Bum Chul Kwon, Ben Shapira, Moshiko Raboh, Shreyans Sethi, Shruti Murarka, Joseph A Morrone, Jianying Hu, Parthasarathy Suryanarayanan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The chemical space of drug-like molecules is vast, motivating the development of generative models that must learn broad chemical distributions, enable conditional generation by capturing structure-property representations, and provide fast molecular generation. Meeting the objectives depends on modeling choices, including the probabilistic modeling approach, the conditional generative formulation, the architecture, and the molecular input representation. To address the challenges, we present ST...

ID: 2511.02769v1 cs.LG, cs.AI, q-bio.BM

arXiv PDF

📄 Protein Folding with Neural Ordinary Differential Equations

2025-10-22

Авторы:

Arielle Sanford, Shuo Sun, Christian B. Mendl

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in protein structure prediction, such as AlphaFold, have demonstrated the power of deep neural architectures like the Evoformer for capturing complex spatial and evolutionary constraints on protein conformation. However, the depth of the Evoformer, comprising 48 stacked blocks, introduces high computational costs and rigid layerwise discretization. Inspired by Neural Ordinary Differential Equations (Neural ODEs), we propose a continuous-depth formulation of the Evoformer, replaci...

ID: 2510.16253v1 cs.LG, cs.AI, q-bio.BM, q-bio.QM, stat.ML, I.2.1; J.3

arXiv PDF

📄 Atom-anchored LLMs speak Chemistry: A Retrosynthesis Demonstration

2025-10-22

Авторы:

Alan Kai Hassen, Andrius Bernatavicius, Antonius P. A. Janssen, Mike Preuss, Gerard J. P. van Westen, Djork-Arné Clevert

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Applications of machine learning in chemistry are often limited by the scarcity and expense of labeled data, restricting traditional supervised methods. In this work, we introduce a framework for molecular reasoning using general-purpose Large Language Models (LLMs) that operates without requiring labeled training data. Our method anchors chain-of-thought reasoning to the molecular structure by using unique atomic identifiers. First, the LLM performs a one-shot task to identify relevant fragment...

ID: 2510.16590v1 cs.LG, cs.AI, q-bio.BM

arXiv PDF

📄 Protein as a Second Language for LLMs

2025-10-15

Авторы:

Xinhui Chen, Zuchao Li, Mengqi Gao, Yufeng Zhang, Chak Tou Leong, Haoyang Li, Jiaqi Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Deciphering the function of unseen protein sequences is a fundamental challenge with broad scientific impact, yet most existing methods depend on task-specific adapters or large-scale supervised fine-tuning. We introduce the "Protein-as-Second-Language" framework, which reformulates amino-acid sequences as sentences in a novel symbolic language that large language models can interpret through contextual exemplars. Our approach adaptively constructs sequence-question-answer triples that reveal fu...

ID: 2510.11188v1 cs.LG, cs.AI, q-bio.BM

arXiv PDF

📄 Evolutionary Profiles for Protein Fitness Prediction

2025-10-10

Авторы:

Jigang Fan, Xiaoran Jiao, Shengdong Lin, Zhanming Liang, Weian Mao, Chenchen Jing, Hao Chen, Chunhua Shen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Predicting the fitness impact of mutations is central to protein engineering but constrained by limited assays relative to the size of sequence space. Protein language models (pLMs) trained with masked language modeling (MLM) exhibit strong zero-shot fitness prediction; we provide a unifying view by interpreting natural evolution as implicit reward maximization and MLM as inverse reinforcement learning (IRL), in which extant sequences act as expert demonstrations and pLM log-odds serve as fitnes...

ID: 2510.07286v1 cs.LG, cs.AI, q-bio.BM, q-bio.QM

arXiv PDF

📄 From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning?

2025-10-04

Авторы:

Hanqun Cao, Hongrui Zhang, Junde Xu, Zhou Zhang, Lingdong Shen, Minghao Sun, Ge Liu, Jinbo Xu, Wu-Jun Li, Jinren Ni, Cesar de la Fuente-Nunez, Tianfan Fu, Yejin Choi, Pheng-Ann Heng, Fang Wu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Protein language models (PLMs) have advanced computational protein science through large-scale pretraining and scalable architectures. In parallel, reinforcement learning (RL) has broadened exploration and enabled precise multi-objective optimization in protein design. Yet whether RL can push PLMs beyond their pretraining priors to uncover latent sequence-structure-function rules remains unclear. We address this by pairing RL with PLMs across four domains: antimicrobial peptide design, kinase va...

ID: 2510.01571v1 cs.LG, cs.AI, q-bio.BM

arXiv PDF

📄 A Foundation Chemical Language Model for Comprehensive Fragment-Based Drug Discovery

2025-09-26

Авторы:

Alexander Ho, Sukyeong Lee, Francis T. F. Tsai

#### Контекст Одна из основных задач в современной биологии и химии — разработка новых лекарственных препаратов. Одним из подходов является **фрагментно-ориентированная стратегия**, где основным элементом становятся молекулярные фрагменты, которые могут быть соединены в более сложные структуры. Однако существует значительная проблема: большая часть существующих моделей не может генерировать фрагменты с большой точностью и широким покрытием химического пространства. Это затрудняет выявление потенциальных лекарственных структур. #### Метод Разработана модель FragAtlas-62M, основанная на **GPT-2** с 42,7 миллионами параметров. Модель обучалась на самой большой доступной базе данных — **ZINC-22 fragment subset**, содержащей более 62 миллионов молекул. Использовалась архитектура с генеративным моделированием, позволяющая генерировать молекулы с высокой точностью. Эталонная метрика — 99,9% достоверности в генерировании валидных фрагментов. Алгоритм проверялся на 12 различных химических описаниях и тремя различными методами хеширования, что подтвердило высокую точность и корректность полученных результатов. #### Результаты Использовались 12 химических описаний и три различных метода проверки, чтобы оценить качество генерируемых фрагментов. Было получено, что 99,9% фрагментов являются валидными. Было выявлено, что 53,6% из них совпадают с уже существующими фрагментами, а 22% — новые, но уже имеющие практическую значимость. Это указывает на успешное покрытие химического пространства и подтверждение модели как эффективного инструмента для разработки новых лекарств. #### Значимость FragAtlas-62M может применяться в **фармацевтических исследованиях, фрагментно-ориентированной генерации новых лекарств и изучении химических связей**. Он обеспечивает широкое покрытие химического пространства, что позволяет повысить точность найденных решений. Его могут использовать исследователи для быстрого генерирования новых молекул, что ускорит процесс решения важных задач в области лекарственного производства. #### Выводы Разработанная модель FragAtlas-62M достигла рекордных показателей в генерировании молекул с высокой точностью и покрытием химического пространства. Ее успех подтверждает значимость применения фундаментальных моделей в химических исследованиях. Дальнейшим направлением будет расширение модели для добавления новых функций и ее применение в реальных проектах разработки новых лекарств.

Annotation:

We introduce FragAtlas-62M, a specialized foundation model trained on the largest fragment dataset to date. Built on the complete ZINC-22 fragment subset comprising over 62 million molecules, it achieves unprecedented coverage of fragment chemical space. Our GPT-2 based model (42.7M parameters) generates 99.90% chemically valid fragments. Validation across 12 descriptors and three fingerprint methods shows generated fragments closely match the training distribution (all effect sizes < 0.4). The ...

ID: 2509.19586v1 cs.LG, cs.AI, q-bio.BM

arXiv PDF

📄 Monte Carlo Tree Diffusion with Multiple Experts for Protein Design

2025-09-23

Авторы:

Xuefeng Liu, Mingxuan Cao, Songhao Jiang, Xiao Luo, Xiaotian Duan, Mengdi Wang, Tobin R. Sosnick, Jinbo Xu, Rick Stevens

#### Контекст Проектирование белков — задача генерировать аминокислотные последовательности, которые сворачиваются в функциональные структуры с заданными свойствами. Она является ключевым заданием в биоинформатике и молекулярном дизайне. Традиционные подходы, такие как autoregressive language models с Monte Carlo Tree Search (MCTS), сталкиваются с трудностями при обработке длинных зависимостей и количественным ростом поискового пространства. Эти ограничения снижают эффективность и точность решения. Наша работа адресует эти проблемы, предлагая новый подход, который интегрирует маскованную диффузию с моделями многоэкспертного графического поиска. #### Метод Мы предлагаем **Monte Carlo Tree Diffusion with Multiple Experts (MCTD-ME)**, который сочетает диффузионные модели с многоэкспертным графическим поиском, чтобы обеспечить эффективность и точность. Маскированная диффузия служит моделью порождения последовательности, в то время как MCTS существенно расширяет поисковое пространство. В отличие от стандартных подходов, MCTD-ME использует biophysical-fidelity-enhanced diffusion для более точного роллаута. Многоэкспертный подход включает экспертов с разными способностями, которые совместно работают для более глубокой эксплорации пространства решений. Маскирование pLDDT-приоритетные регионы для расширения экспертных возможностей. Мы также предлагаем новый выбор экспертов (PH-UCT-ME), расширяющий predictive-entropy UCT для совместной работы экспертов. #### Результаты Мы проверили MCTD-ME на задаче inverse folding с помощью бенчмарков CAMEO и PDB. Наши результаты показывают, что MCTD-ME превосходит одиночные эксперты и неуправляемые базовые модели по аминокислотной аккуратности (AAR) и структурной схожести (scTM). Результаты улучшаются при увеличении длины белка и использовании нескольких экспертов. Этот подход показал себя эффективно на задачах de novo protein engineering и multi-objective molecular generation, точность и скорость в тестовых сценариях. #### Значимость Модель MCTD-ME применяется в различных областях: биоинформатическом дизайне белков, синтезе молекулярных структур, многоцелевом генерировании биологически активных молекул. Она имеет преимущества в том, что обеспечивает точность, эффективность и масштабируемость благодаря интеграции диффузионной модели и экспертных стратегий. Мы утверждаем, что наш подход является модель-агностичным и может быть применен к другим задачам, требующим высокоточного планирования в области биоинформатики. #### Выводы Мы доказали, что MCTD-ME — эффективный подход для проектирования белков, который превосходит существующие методы. Будущие исследования будут фокусиро

Annotation:

The goal of protein design is to generate amino acid sequences that fold into functional structures with desired properties. Prior methods combining autoregressive language models with Monte Carlo Tree Search (MCTS) struggle with long-range dependencies and suffer from an impractically large search space. We propose MCTD-ME, Monte Carlo Tree Diffusion with Multiple Experts, which integrates masked diffusion models with tree search to enable multi-token planning and efficient exploration. Unlike ...

ID: 2509.15796v1 cs.LG, cs.AI, q-bio.BM

arXiv PDF

Показано 1 - 10 из 14 записей