Why Pool When You Can Flow? Active Learning with GFlowNets

2509.00704v1 cs.LG, cs.AI, q-bio.QM 2025-09-05

Авторы:

Renfei Zhang, Mohit Pandey, Artem Cherkasov, Martin Ester

Резюме на русском

#### Контекст В области виртуального скрининга для наук о лекарствах столкнуться с ограничениями по вычислительной стоимости оценивания больших немаркированных наборов данных — это чрезвычайно актуальная проблема. Традиционные подходы, такие как Bayesian Active Learning by Disagreement (BALD), стремятся оптимизировать этот процесс, но все еще сталкиваются с проблемами масштабируемости при работе со многомиллионными или биллионными объектами. Мотивация для данного исследования заключается в развитии методов, которые могут эффективно использоваться для виртуального скрининга, особенно в сфере фармацевтики, где быстродействие и точность критичны. #### Метод Для решения скалярных проблем, связанных с подходом BALD, предлагается BALD-GFlowNet — новый подход, основанный на Generative Flow Networks (GFlowNets). Эти сети генерируют объекты в соответствии с их BALD-рейтингом, благодаря чему избавляются от необходимости проходить по всему немаркированному набору. Архитектура GFlowNet состоит из нескольких модулей, включая сети для оценки вероятностей и функций для управления динамической структурой генерируемых данных. Это генерирующий подход, который упрощает выбор информативных объектов и позволяет масштабировать систему без увеличения вычислительных затрат. #### Результаты В экспериментах была проведена сравнительная оценка BALD-GFlowNet с традиционным BALD на наборе данных, содержащих миллионы молекул. Был показан тот факт, что BALD-GFlowNet выбирает более разнообразные молекулы, при этом сохраняя высокую информативность выбора. Оценка показывает, что этот подход эффективно работает в пределах вычислительных ограничений, не теряя в качестве, что делает его привлекательным для применения в фармацевтической отрасли. #### Значимость Выделяется широкая область применения BALD-GFlowNet, включая не только виртуальный скрининг, но также другие задачи, требующие выбора информативных объектов из больших наборов данных. Особенно применимо для ситуаций, когда требуется быстрая и эффективная оценка многочисленных вариантов, таких как в сфере генетического проектирования. Преимущества BALD-GFlowNet заключаются в масштабируемости, более точном выборе объектов и экономии ресурсов, что может способствовать прогрессу в науке о лекарствах. #### Выводы BALD-GFlowNet достигает сравнительной эффективности с BALD, при этом предлагая новый подход к активному обучению в области виртуального скрининга. Это открывает новые возможности для более эффективного использования ресурсов в высокомасштабных задачах моделирования и выбора. Будущие исследования будут сфокусированы на расширении этого подхода для других

Abstract

The scalability of pool-based active learning is limited by the computational cost of evaluating large unlabeled datasets, a challenge that is particularly acute in virtual screening for drug discovery. While active learning strategies such as Bayesian Active Learning by Disagreement (BALD) prioritize informative samples, it remains computationally intensive when scaled to libraries containing billions samples. In this work, we introduce BALD-GFlowNet, a generative active learning framework that circumvents this issue. Our method leverages Generative Flow Networks (GFlowNets) to directly sample objects in proportion to the BALD reward. By replacing traditional pool-based acquisition with generative sampling, BALD-GFlowNet achieves scalability that is independent of the size of the unlabeled pool. In our virtual screening experiment, we show that BALD-GFlowNet achieves a performance comparable to that of standard BALD baseline while generating more structurally diverse molecules, offering a promising direction for efficient and scalable molecular discovery.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Why Pool When You Can Flow? Active Learning with GFlowNets

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

BioArc: Discovering Optimal Neural Architectures for Biological Foundation Model...

BiPETE: A Bi-Positional Embedding Transformer Encoder for Risk Assessment of Alc...

FP-AbDiff: Improving Score-based Antibody Design by Capturing Nonequilibrium Dyn...

A Novel Framework for Multi-Modal Protein Representation Learning

Physics-Informed Machine Learning in Biomedical Science and Engineering

Навигация