Property-Isometric Variational Autoencoders for Sequence Modeling and Design
2509.14287v1
q-bio.QM, cs.AI, cs.LG
2025-09-20
Авторы:
Elham Sadeghi, Xianqi Deng, I-Hsin Lin, Stacy M. Copp, Petko Bogdanov
Резюме на русском
## Контекст
Моделирование и дизайн последовательностей биологических материалов, таких как DNA, RNA и белки, играет ключевую роль в разработке новых наноматериалов, биосенсоров, антимикробных средств и других технологий. Однако оптимизация сложных высокомерных свойств, таких как эмиссионные спектры фотопроводящих наночастиц, сопротивляемость к фото- и химическим воздействиям, и антимикробная активность пептидов, является высокосложной задачей. Традиционные модели, оперирующие простыми бинарными метками (например, привязка/непривязка), не могут корректно учитывать такие сложности. Существует необходимость в развитии моделей, которые бы гарантированно учитывали геометрическую структуру пространств свойств во время обучения и использования.
## Метод
Разработанная модель, **Property-Isometric Variational Autoencoder (PrIVAE)**, представляет собой новую архитектуру вариационного автоэнкодера, которая сохраняет геометрию пространства свойств во время обучения и использования. Мы определяем пространство свойств как высокомерный манифест, локально приближаемый к графу ближайших соседей, восстановленному на основе определенного расстояния. Для того чтобы гарантировать то, что полученные представления последовательностей сохраняют геометрические свойства пространства свойств, мы используем (1) слои графных нейронных сетей в качестве кодировщика и (2) изометрический регуляризатор для управления геометрическими свойствами в пространстве представлений. Это позволяет гарантировать, что разброс последовательностей в генерируемом пространстве будет соответствовать геометрии пространства свойств, что в свою очередь позволяет ориентироваться на выполнение сложных целей в дизайне последовательностей.
## Результаты
Мы проверили PrIVAE на двух задачах генерирующего моделирования: (1) дизайне DNA-последовательностей, шаблонирующих фотопроводящие металловые наночастицы, и (2) дизайне антимикробных пептидов. В двух экспериментах показано, что PrIVAE обеспечивает высокую точность воспроизведения последовательностей и эффективно организует генерируемое пространство по свойствам. На практической стадии мы провели влаговые эксперименты, в которых использовались полученные последовательности для создания фотопроводящих наночастиц. Это привело к 16.1-кратному увеличению концентрации наночастиц с редкими свойствами в сравнении с их содержанием в обучающей выборке. Эти результаты подтверждают эффективность PrIVAE в решении задач генерирующего дизайна с биологическими последовательностями.
## Значимость
PrIVAE представляет собой
Abstract
Biological sequence design (DNA, RNA, or peptides) with desired functional
properties has applications in discovering novel nanomaterials, biosensors,
antimicrobial drugs, and beyond. One common challenge is the ability to
optimize complex high-dimensional properties such as target emission spectra of
DNA-mediated fluorescent nanoparticles, photo and chemical stability, and
antimicrobial activity of peptides across target microbes. Existing models rely
on simple binary labels (e.g., binding/non-binding) rather than
high-dimensional complex properties. To address this gap, we propose a
geometry-preserving variational autoencoder framework, called PrIVAE, which
learns latent sequence embeddings that respect the geometry of their property
space. Specifically, we model the property space as a high-dimensional manifold
that can be locally approximated by a nearest neighbor graph, given an
appropriately defined distance measure. We employ the property graph to guide
the sequence latent representations using (1) graph neural network encoder
layers and (2) an isometric regularizer. PrIVAE learns a property-organized
latent space that enables rational design of new sequences with desired
properties by employing the trained decoder. We evaluate the utility of our
framework for two generative tasks: (1) design of DNA sequences that template
fluorescent metal nanoclusters and (2) design of antimicrobial peptides. The
trained models retain high reconstruction accuracy while organizing the latent
space according to properties. Beyond in silico experiments, we also employ
sampled sequences for wet lab design of DNA nanoclusters, resulting in up to
16.1-fold enrichment of rare-property nanoclusters compared to their abundance
in training data, demonstrating the practical utility of our framework.
Ссылки и действия
Дополнительные ресурсы: