Why Pool When You Can Flow? Active Learning with GFlowNets
2509.00704v1
cs.LG, cs.AI, q-bio.QM
2025-09-05
Авторы:
Renfei Zhang, Mohit Pandey, Artem Cherkasov, Martin Ester
Резюме на русском
#### Контекст
В области виртуального скрининга для наук о лекарствах столкнуться с ограничениями по вычислительной стоимости оценивания больших немаркированных наборов данных — это чрезвычайно актуальная проблема. Традиционные подходы, такие как Bayesian Active Learning by Disagreement (BALD), стремятся оптимизировать этот процесс, но все еще сталкиваются с проблемами масштабируемости при работе со многомиллионными или биллионными объектами. Мотивация для данного исследования заключается в развитии методов, которые могут эффективно использоваться для виртуального скрининга, особенно в сфере фармацевтики, где быстродействие и точность критичны.
#### Метод
Для решения скалярных проблем, связанных с подходом BALD, предлагается BALD-GFlowNet — новый подход, основанный на Generative Flow Networks (GFlowNets). Эти сети генерируют объекты в соответствии с их BALD-рейтингом, благодаря чему избавляются от необходимости проходить по всему немаркированному набору. Архитектура GFlowNet состоит из нескольких модулей, включая сети для оценки вероятностей и функций для управления динамической структурой генерируемых данных. Это генерирующий подход, который упрощает выбор информативных объектов и позволяет масштабировать систему без увеличения вычислительных затрат.
#### Результаты
В экспериментах была проведена сравнительная оценка BALD-GFlowNet с традиционным BALD на наборе данных, содержащих миллионы молекул. Был показан тот факт, что BALD-GFlowNet выбирает более разнообразные молекулы, при этом сохраняя высокую информативность выбора. Оценка показывает, что этот подход эффективно работает в пределах вычислительных ограничений, не теряя в качестве, что делает его привлекательным для применения в фармацевтической отрасли.
#### Значимость
Выделяется широкая область применения BALD-GFlowNet, включая не только виртуальный скрининг, но также другие задачи, требующие выбора информативных объектов из больших наборов данных. Особенно применимо для ситуаций, когда требуется быстрая и эффективная оценка многочисленных вариантов, таких как в сфере генетического проектирования. Преимущества BALD-GFlowNet заключаются в масштабируемости, более точном выборе объектов и экономии ресурсов, что может способствовать прогрессу в науке о лекарствах.
#### Выводы
BALD-GFlowNet достигает сравнительной эффективности с BALD, при этом предлагая новый подход к активному обучению в области виртуального скрининга. Это открывает новые возможности для более эффективного использования ресурсов в высокомасштабных задачах моделирования и выбора. Будущие исследования будут сфокусированы на расширении этого подхода для других
Abstract
The scalability of pool-based active learning is limited by the computational
cost of evaluating large unlabeled datasets, a challenge that is particularly
acute in virtual screening for drug discovery. While active learning strategies
such as Bayesian Active Learning by Disagreement (BALD) prioritize informative
samples, it remains computationally intensive when scaled to libraries
containing billions samples. In this work, we introduce BALD-GFlowNet, a
generative active learning framework that circumvents this issue. Our method
leverages Generative Flow Networks (GFlowNets) to directly sample objects in
proportion to the BALD reward. By replacing traditional pool-based acquisition
with generative sampling, BALD-GFlowNet achieves scalability that is
independent of the size of the unlabeled pool. In our virtual screening
experiment, we show that BALD-GFlowNet achieves a performance comparable to
that of standard BALD baseline while generating more structurally diverse
molecules, offering a promising direction for efficient and scalable molecular
discovery.
Ссылки и действия
Дополнительные ресурсы: