📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 TR2-D2: Tree Search Guided Trajectory-Aware Fine-Tuning for Discrete Diffusion

2025-10-03

Авторы:

Sophia Tang, Yuchen Zhu, Molei Tao, Pranam Chatterjee

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Reinforcement learning with stochastic optimal control offers a promising framework for diffusion fine-tuning, where a pre-trained diffusion model is optimized to generate paths that lead to a reward-tilted distribution. While these approaches enable optimization without access to explicit samples from the optimal distribution, they require training on rollouts under the current fine-tuned model, making them susceptible to reinforcing sub-optimal trajectories that yield poor rewards. To overcome...

ID: 2509.25171v1 cs.LG, q-bio.BM

arXiv PDF

📄 MarS-FM: Generative Modeling of Molecular Dynamics via Markov State Models

2025-10-01

Авторы:

Kacper Kapuśniak, Cristian Gabellini, Michael Bronstein, Prudencio Tossou, Francesco Di Giovanni

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Molecular Dynamics (MD) is a powerful computational microscope for probing protein functions. However, the need for fine-grained integration and the long timescales of biomolecular events make MD computationally expensive. To address this, several generative models have been proposed to generate surrogate trajectories at lower cost. Yet, these models typically learn a fixed-lag transition density, causing the training signal to be dominated by frequent but uninformative transitions. We introduce...

ID: 2509.24779v2 cs.LG, q-bio.BM

arXiv PDF

📄 Hybrid Quantum Neural Networks for Efficient Protein-Ligand Binding Affinity Prediction

2025-09-17

Авторы:

Seon-Geun Jeong, Kyeong-Hwan Moon, Won-Joo Hwang

## Контекст Проблематика принятия решений в сфере лекарственных средств часто возникает в связи с трудностями в определении процесса связывания белка с лигандом. Этот показатель является ключевым при оценке потенциала лекарственных препаратов. Определение связывающей аффинитетической величины, как правило, требует долгих экспериментов в лаборатории, что затратно в силу ресурсоемкости и продолжительности. Машинное обучение (ML) используется для упрощения этого процесса, но требует крупных моделей и высокой скорости вычислений. Тенденция к увеличению размеров моделей существенно влияет на производительность и экономичность. Здесь вступают в силу гибридные модели, объединяющие квантовые и классические подходы, чтобы уменьшить накладные расходы на вычисления без ущерба для точности. ## Метод Для решения данной задачи разработана модель гибридного квантового нейронного сети (Hybrid Quantum Neural Network, HQNN). HQNN объединяет квантовые и классические элементы, используя квантовые нейронные сети (QNNs) для обработки высокого размерности и классические методы для эффективного управления работой. Метод заключается в предварительной обработке данных, чтобы представить входные данные в виде векторов функций, подходящих для квантовых вычислений. QNN используется для оптимизации нелинейных функций, в то время как классическая сеть решает задачи регрессии для предсказания связывающей аффинитетической величины. ## Результаты Эксперименты проводились на основе реальных данных о связывании белков с лигандами. Модель HQNN была подготовлена для построения нелинейных функций в пространстве функций, построенных на классических эмбеддингах. Результаты показали, что HQNN показывает похожую или лучшую точность и эффективность параметров по сравнению с классической моделью. Это означает, что HQNN может значительно уменьшить накладные расходы на вычисления без потери точности. ## Значимость Модель HQNN может применяться в области лекарственного производства, где определение связывания белка с лигандом является ключевым элементом выбора препаратов. HQNN может существенно уменьшить затраты на вычисления, улучшить эффективность работы и сделать модели более доступными для использования на носителях с ограниченными вычислительными ресурсами. ## Выводы Результаты работы показывают, что модель HQNN может быть эффективно применена в процессе предсказания связывающей аффинитетической величины белка и лиганда. Это открывает путь к более эффективному использованию квантовых вычислений в дальнейшем. Будущие исследования будут сфокусированы на улучшении модели, увели

Annotation:

Protein-ligand binding affinity is critical in drug discovery, but experimentally determining it is time-consuming and expensive. Artificial intelligence (AI) has been used to predict binding affinity, significantly accelerating this process. However, the high-performance requirements and vast datasets involved in affinity prediction demand increasingly large AI models, requiring substantial computational resources and training time. Quantum machine learning has emerged as a promising solution t...

ID: 2509.11046v1 cs.ET, cs.LG, q-bio.BM

arXiv PDF

📄 Multimodal Regression for Enzyme Turnover Rates Prediction

2025-09-17

Авторы:

Bozhen Hu, Cheng Tan, Siyuan Li, Jiangbin Zheng, Sizhe Qiu, Jun Xia, Stan Z. Li

## Контекст Область исследования — кинетика энзимов, которая является ключевой для понимания биологических процессов. Одним из ключевых параметров является **оборотная скорость** энзима (turnover rate), отражающая его каталитическую эффективность. Несмотря на важность этого параметра, его измерение затруднено сильными затратами и сложностями экспериментальных методов. Это приводит к тому, что оборотные скорости остаются неизвестными для большинства энзимов, особенно в мелких организмах. Мы предлагаем развить метод, который мог бы предсказать эту важную величину на основе многомерных данных, включая последовательности белков, структуры веществ и внешних факторов окружения. ## Метод Мы предлагаем **многомодальный подход**, который объединяет несколько моделей и архитектур машинного обучения: 1. **Предобученная модель для белков**: Мы используем предобученную модель для извлечения фич из последовательностей белков. 2. **Модель для веществ (substrates)**: Из структур веществ мы извлекаем фичи с помощью **графных нейронных сетей (GNN)**. 3. **Аттенционные механизмы**: Чтобы улучшить взаимодействие между представлениями энзима и вещества, мы применяем механизм агрегирования важности. 4. **Символьная регрессия**: Используя **Kolmogorov-Arnold Networks**, мы научимся выражать свойства катализатора через математические формулы, что обеспечит интерпретируемость результатов. ## Результаты Мы провели эксперименты на выборке данных, содержащей последовательности белков, структуры веществ и известные оборотные скорости. Наша модель демонстрирует существенное превосходство по сравнению с традиционными методами и современными сверточными моделями. Мы достигли **высокой точности** в предсказании оборотных скоростей, также показали, что модель предоставляет **интерпретируемые формулы**, что позволяет понять, какие факторы влияют на оборотную скорость. ## Значимость Наша модель может быть применена в различных областях: 1. **Биотехнологии**: Улучшение производства биологически активных веществ. 2. **Индустрия биокатализаторов**: Новые подходы для оптимизации процессов. 3. **Клиническое применение**: Исследование новых белков с целью улучшения лечения. Этот подход обеспечивает не только точность, но и новые возможности в понимании биологических систем. ## Выводы Мы предложили успешный кросс-модальный подход для предсказания оборотных скоростей энзимов. Модель показала свою эффективность, за счет комбинации нескольких моделей и методов. Этот подход не только улучшает точность предсказания, но и дает интерпретиру

Annotation:

The enzyme turnover rate is a fundamental parameter in enzyme kinetics, reflecting the catalytic efficiency of enzymes. However, enzyme turnover rates remain scarce across most organisms due to the high cost and complexity of experimental measurements. To address this gap, we propose a multimodal framework for predicting the enzyme turnover rate by integrating enzyme sequences, substrate structures, and environmental factors. Our model combines a pre-trained language model and a convolutional ne...

ID: 2509.11782v1 cs.LG, q-bio.BM

arXiv PDF

📄 Directed Evolution of Proteins via Bayesian Optimization in Embedding Space

2025-09-09

Авторы:

Matouš Soldát, Jiří Kléma

#### Контекст Директивная эволюция — это интерактивный лабораторный процесс разработки протеинов с улучшенными свойствами. Он включает в себя последовательную синтезирования новых вариантов белков и оценку их полезных свойств с помощью дорогостоящих и временно требующих экспериментов. Несмотря на высокую эффективность, данный подход имеет ограниченную скорость и сложность. Машинное обучение (ML) может помочь оптимизировать этот процесс, выбирая наиболее важные варианты для экспериментов, чтобы увеличить качество результатов и уменьшить количество необходимых экспериментов. На практике, существующие методы ML затрудняют достижение этих целей по причине недостаточного представления протеинов. #### Метод Мы предлагаем новый подход к директивной эволюции белков, основанный на комбинации байесовского оптимизатора (Bayesian Optimization) с информативными представлениями белков, полученными из предварительно обученного модели языка последовательностей белков (protein language model). Метод использует последовательность белка в виде входных данных, которая преобразуется в векторное представление. Затем, оптимизатор использует эти представления для выбора вариантов, которые будут протестированы в реальном мире. Это представление лучше захватывает сложные зависимости в последовательности белков, чем предшествующие методы. Мы также выделяем, что наш подход можно интегрировать с другими методами ML для дальнейшего улучшения. #### Результаты Мы проверяли наш подход на двух реальных примерах директивной эволюции белков. Наши эксперименты показали, что использование представлений в виде последовательностей в Байесовском оптимизаторе дает значительное улучшение в выборе наиболее ценных вариантов белков для экспериментов. Это привело к лучшим результатам с той же суммой выполненных экспериментов в общем. Также, мы сравнили наш подход с другими ML-методами, которые используют регрессионные модели, и продемонстрировали, что наш метод показывает лучший результат. #### Значимость Наш подход может быть использован в различных областях, включая биотехнологии, фармацевтику и биоинженерию. Он позволяет ускорить эволюцию белков, увеличивая эффективность и экономию времени и ресурсов. Это предлагает новый плацдарм для ML-методов в лабораторных экспериментах, позволяя более точно выбирать варианты для будущих экспериментов. Также, наш подход может иметь потенциал для расширения применения машинного обучения в других областях, где требуется оптимизация сложных лабораторных процессов. #### Выводы Мы представили новый подход к директивной эволюции

Annotation:

Directed evolution is an iterative laboratory process of designing proteins with improved function by iteratively synthesizing new protein variants and evaluating their desired property with expensive and time-consuming biochemical screening. Machine learning methods can help select informative or promising variants for screening to increase their quality and reduce the amount of necessary screening. In this paper, we present a novel method for machine-learning-assisted directed evolution of pro...

ID: 2509.04998v1 cs.LG, q-bio.BM

arXiv PDF

📄 Multi-domain Distribution Learning for De Novo Drug Design

2025-08-27

Авторы:

Arne Schneuing, Ilia Igashov, Adrian W. Dobbelstein, Thomas Castiglione, Michael Bronstein, Bruno Correia

#### Контекст Одной из наиболее сложных задач в современной фармакологии является разработка новых лекарственных средств, называемых де-ново. Эта задача включает в себя выявление новых молекул, удовлетворяющих требованиям взаимодействия с целевыми белками, а также соответствующих физико-химическим и технологическим требованиям. Традиционные подходы часто ограничиваются использованием предварительно сформированных баз данных, что затрудняет обнаружение новых решений. Текущие исследования направлены на развитие методов, позволяющих генерировать новые молекулы с помощью глубокого обучения. Однако существуют проблемы, связанные с ограниченностью моделей в учете трехмерных структур, характеристик взаимодействия, а также с отсутствием надежной оценки неопределенности. #### Метод Предложенная модель DrugFlow основывается на комбинации двух различных подходов: поточного соответствия (continuous flow matching) и марковских бриджей (Markov bridges). Эти подходы позволяют лучше учитывать трехмерные структуры и взаимодействия молекул с белками. Модель также включает в себя механизм оценки неопределенности, который может выявлять примеры, лежащие вне рассматриваемого распределения (out-of-distribution). Для улучшения сэмплинга в поиске регионов с желательными метрическими характеристиками, предлагается схема совместного выравнивания предпочтений (joint preference alignment). Это позволяет модели сосредоточиться на поиске молекул, удовлетворяющих конкретным критериям. Более того, DrugFlow расширяется для совместного сэмплинга свободных групп белков и атомов молекул, чтобы эксплуатировать совместную структуру трехмерного пространства. #### Результаты На основе многочисленных экспериментов продемонстрирована высокая эффективность DrugFlow в задачах de novo drug design. Использовались различные данные, включая большие наборы трехмерных молекул и белков. Модель демонстрирует способность генерировать молекулы с высоким уровнем соответствия требуемым характеристикам, таким как лекарственная активность и физико-химические свойства. Оценка неопределенности продемонстрировала высокую точность в определении примеров, лежащих вне распределения. Также была продемонстрирована улучшенная способность модели находить регионы с высокой метрической активностью в пространстве возможных лекарственных средств. #### Значимость Предложенный подход имеет широкие возможности применения в фармацевтической и биотехнологической отраслях. Он позволяет сократить время и стоимость разработки новых лекарственных средств, улучшить точность и эффективность се

Annotation:

We introduce DrugFlow, a generative model for structure-based drug design that integrates continuous flow matching with discrete Markov bridges, demonstrating state-of-the-art performance in learning chemical, geometric, and physical aspects of three-dimensional protein-ligand data. We endow DrugFlow with an uncertainty estimate that is able to detect out-of-distribution samples. To further enhance the sampling process towards distribution regions with desirable metric values, we propose a joint...

ID: 2508.17815v1 cs.LG, q-bio.BM

arXiv PDF

📄 FlowMol3: Flow Matching for 3D De Novo Small-Molecule Generation

2025-08-20

Авторы:

Ian Dunn, David R. Koes

#### Контекст Разработка моделей для генерации реалистичных молекул с желаемыми свойствами является ключевым направлением в синтетической химии. Это позволяет ускорить научные исследования в области новых лекарств, материалов и химических реакций. Однако достижение высокой точности и стабильности в генерации молекул остается сложной задачей. Многие нынешние модели сталкиваются с проблемами, такими как неточность в формировании геометрии молекул и распределения функциональных групп. В свете этого, FlowMol3 предлагает эффективное решение для генерации трехмерных молекул на основе метода "Flow Matching", который демонстрирует значительный прогресс в этой области. #### Метод FlowMol3 — это расширенная модель Flow Matching, основанная на методах генеративной моделирования с использованием трансформеров. Она обладает трехмерной архитектурой, которая одновременно учитывает топологию молекул и их трехмерное распределение. Основными техническими приемами являются: 1. **Self-Conditioning** — добавление информации о самой модели в процесс обучения, что позволяет улучшить стабильность и точность. 2. **Fake Atoms** — ввод фиктивных атомов для улучшения распределения геометрии. 3. **Train-Time Geometry Distortion** — динамическое изменение геометрии молекул во время обучения для более точного совпадения с данными. Эти приемы не требуют дополнительных ресурсов и могут быть легко реализованы в рамках существующих архитектур. #### Результаты FlowMol3 показала выдающиеся результаты в генерации трехмерных молекул. Она достигла близкого к 100% точности в генерации молекул с высокой лекарственной релевантностью. Также, модель показала значительные улучшения в учете функциональных групп и геометрии в сравнении с предыдущими моделями. Ключевой выгодой является ее эффективность — FlowMol3 работает с меньшим числом параметров, что делает ее более производительной и экономичной. #### Значимость Модель FlowMol3 может применяться в различных областях, включая синтез лекарств, новые материалы и экологически безопасные компоненты. Основные преимущества заключаются в высокой точности, небольшом количестве параметров и гибкости в применении. Ее развитие может повлиять на технологический прогресс в химии и науках о жизни, позволив создавать новые молекулы с желаемыми характеристиками быстрее и эффективнее. #### Выводы FlowMol3 продемонстрировала значительные достижения в области генерации трехмерных молекул. Ее удачное использование простых, но эффективных методик является примером того, как модели могут быть улучшены без глубоких изменений архитекту

Annotation:

A generative model capable of sampling realistic molecules with desired properties could accelerate chemical discovery across a wide range of applications. Toward this goal, significant effort has focused on developing models that jointly sample molecular topology and 3D structure. We present FlowMol3, an open-source, multi-modal flow matching model that advances the state of the art for all-atom, small-molecule generation. Its substantial performance gains over previous FlowMol versions are ach...

ID: 2508.12629v1 cs.LG, q-bio.BM

arXiv PDF

📄 IBEX: Information-Bottleneck-EXplored Coarse-to-Fine Molecular Generation under Limited Data

2025-08-16

Авторы:

Dong Xu, Zhangfan Yang, Jenna Xinyi Yao, Shuangbao Song, Zexuan Zhu, Junkai Ji

#### Контекст Структура-ориентированное синтезирование лекарств зачастую ограничивается скромным количеством доступных для обучения протеин-лигандных комплексов. Это ограничение приводит к ограниченной способности моделей обобщаться за его пределы, что является ключевым проблемой в структурно-базированном синтезе лекарств. Направленность исследования: развитие более значимых моделей генерирования лекарственных веществ на основе конечных данных. Объяснение значимости: повышение точности генерирования лекарственных веществ может улучшить качество предложенных вариантов и увеличить скорость синтеза. #### Метод IBEX — это подход к генерированию лекарственных веществ, основанный на теории PAC-Байеса информационного буттлнекта. Он применяется для тонкого детализации модели посредством двух этапов: 1) **Coarse Generation** — генерирование молекул с помощью TargetDiff; 2) **Fine Generation** — оптимизация места связывания в соответствии с биндингом в канал. Эта оптимизация включает в себя L-BFGS алгоритм, который учитывает физические свойства молекул, такие как геометрия, энергия и другие. Архитектура и технические решения: TargetDiff и L-BFGS алгоритм. #### Результаты На экспериментальных параметрах модель IBEX показала: - Увеличение до 64% в успехе в нулевых дроблениях на CBGBench CrossDocked2020-based. - Улучшение среднего Vina-скора с $-7.41 kcal mol^{-1}$ до $-8.07 kcal mol^{-1}$. - Более высокую доли удачных операций в 57 из 100 каналов, в отличие от 3 на 100 в исходной модели. - Увеличение QED на 25%. - Импровизацию среднего показателя лекарственности. #### Значимость IBEX имеет широкие перспективы в структурно-базированном синтезе лекарственных веществ. Он может применяться в процессе разработки новых лекарств, апробирования новых терапевтических возможностей и улучшения скорости и эффективности генерирования новых лекарственных веществ. Ключевые преимущества: улучшение точности генерирования, более значимые модели и уменьшение ошибок в генерировании выбросных значений. #### Выводы IBEX достигает существенных улучшений в синтезировании лекарственных веществ, особенно в условиях ограниченных данных. На основе этих результатов, будущие исследования будут направлены на совершенствование методов генерирования лекарственных веществ и их применение в реальных задачах синтеза.

Annotation:

Three-dimensional generative models increasingly drive structure-based drug discovery, yet it remains constrained by the scarce publicly available protein-ligand complexes. Under such data scarcity, almost all existing pipelines struggle to learn transferable geometric priors and consequently overfit to training-set biases. As such, we present IBEX, an Information-Bottleneck-EXplored coarse-to-fine pipeline to tackle the chronic shortage of protein-ligand complex data in structure-based drug des...

ID: 2508.10775v1 cs.LG, q-bio.BM

arXiv PDF

Показано 11 - 18 из 18 записей