Property-Isometric Variational Autoencoders for Sequence Modeling and Design

2509.14287v1 q-bio.QM, cs.AI, cs.LG 2025-09-20
Авторы:

Elham Sadeghi, Xianqi Deng, I-Hsin Lin, Stacy M. Copp, Petko Bogdanov

Резюме на русском

## Контекст Моделирование и дизайн последовательностей биологических материалов, таких как DNA, RNA и белки, играет ключевую роль в разработке новых наноматериалов, биосенсоров, антимикробных средств и других технологий. Однако оптимизация сложных высокомерных свойств, таких как эмиссионные спектры фотопроводящих наночастиц, сопротивляемость к фото- и химическим воздействиям, и антимикробная активность пептидов, является высокосложной задачей. Традиционные модели, оперирующие простыми бинарными метками (например, привязка/непривязка), не могут корректно учитывать такие сложности. Существует необходимость в развитии моделей, которые бы гарантированно учитывали геометрическую структуру пространств свойств во время обучения и использования. ## Метод Разработанная модель, **Property-Isometric Variational Autoencoder (PrIVAE)**, представляет собой новую архитектуру вариационного автоэнкодера, которая сохраняет геометрию пространства свойств во время обучения и использования. Мы определяем пространство свойств как высокомерный манифест, локально приближаемый к графу ближайших соседей, восстановленному на основе определенного расстояния. Для того чтобы гарантировать то, что полученные представления последовательностей сохраняют геометрические свойства пространства свойств, мы используем (1) слои графных нейронных сетей в качестве кодировщика и (2) изометрический регуляризатор для управления геометрическими свойствами в пространстве представлений. Это позволяет гарантировать, что разброс последовательностей в генерируемом пространстве будет соответствовать геометрии пространства свойств, что в свою очередь позволяет ориентироваться на выполнение сложных целей в дизайне последовательностей. ## Результаты Мы проверили PrIVAE на двух задачах генерирующего моделирования: (1) дизайне DNA-последовательностей, шаблонирующих фотопроводящие металловые наночастицы, и (2) дизайне антимикробных пептидов. В двух экспериментах показано, что PrIVAE обеспечивает высокую точность воспроизведения последовательностей и эффективно организует генерируемое пространство по свойствам. На практической стадии мы провели влаговые эксперименты, в которых использовались полученные последовательности для создания фотопроводящих наночастиц. Это привело к 16.1-кратному увеличению концентрации наночастиц с редкими свойствами в сравнении с их содержанием в обучающей выборке. Эти результаты подтверждают эффективность PrIVAE в решении задач генерирующего дизайна с биологическими последовательностями. ## Значимость PrIVAE представляет собой

Abstract

Biological sequence design (DNA, RNA, or peptides) with desired functional properties has applications in discovering novel nanomaterials, biosensors, antimicrobial drugs, and beyond. One common challenge is the ability to optimize complex high-dimensional properties such as target emission spectra of DNA-mediated fluorescent nanoparticles, photo and chemical stability, and antimicrobial activity of peptides across target microbes. Existing models rely on simple binary labels (e.g., binding/non-binding) rather than high-dimensional complex properties. To address this gap, we propose a geometry-preserving variational autoencoder framework, called PrIVAE, which learns latent sequence embeddings that respect the geometry of their property space. Specifically, we model the property space as a high-dimensional manifold that can be locally approximated by a nearest neighbor graph, given an appropriately defined distance measure. We employ the property graph to guide the sequence latent representations using (1) graph neural network encoder layers and (2) an isometric regularizer. PrIVAE learns a property-organized latent space that enables rational design of new sequences with desired properties by employing the trained decoder. We evaluate the utility of our framework for two generative tasks: (1) design of DNA sequences that template fluorescent metal nanoclusters and (2) design of antimicrobial peptides. The trained models retain high reconstruction accuracy while organizing the latent space according to properties. Beyond in silico experiments, we also employ sampled sequences for wet lab design of DNA nanoclusters, resulting in up to 16.1-fold enrichment of rare-property nanoclusters compared to their abundance in training data, demonstrating the practical utility of our framework.

Ссылки и действия