Structure-Aware Contrastive Learning with Fine-Grained Binding Representations for Drug Discovery
2509.14788v1
cs.LG, cs.AI, q-bio.BM
2025-09-20
Авторы:
Jing Lan, Hexiao Ding, Hongzhao Chen, Yufeng Jiang, Nga-Chun Ng, Gwing Kei Yip, Gerald W. Y. Cheng, Yunlin Mao, Jing Cai, Liang-ting Lin, Jung Sun Yoo
Резюме на русском
## Контекст
Проблема идентификации взаимодействий лекарств с белками (drug-target interactions, DTI) является ключевым заданием в компьютерной фармакологии. Несмотря на развитие секвенсо-ориентированных методов, которые обеспечивают высокую скорость и масштабируемость, они часто лишаются информации о структуре белка, что существенно снижает точность. Белки, являющиеся основными целями взаимодействий, обладают сложной структурой, включая форму и биндинговые площадки, которые не учитываются такими подходами. Таким образом, есть необходимость в развитии подходов, которые учитывали бы эту структуру для повышения точности и интерпретируемости результатов. Исследование предлагает новую модель, которая интегрирует структурные представления белка с высокомасштабируемыми методами взаимодействий с целью решения данной проблемы.
## Метод
Модель "Structure-Aware Contrastive Learning with Fine-Grained Binding Representations" (SACL-FGBR) предлагает инновационный подход к DTI, используя структурно-ориентированные представления белков. Основная идея заключается в использовании контрастирующего обучения для получения тонко выраженных представлений биндинговых площадок белка. Эта модель состоит из нескольких модулей:
1. **Предобработка данных**: Белки и лекарства представляются с помощью последовательностей аминокислот и молекулярных фрагментов.
2. **Структурно-ориентированное учитывание**: Используется bilinear attention mechanism для получения тонких представлений биндинговых площадок.
3. **Контрастное обучение**: Модель учитывает не только положительные примеры взаимодействий, но и отрицательные, что позволяет улучшить многочленность решения.
4. **Аггрегация и вывод**: Данные аггрегируются с помощью learnable aggregation модуля, чтобы объединить все описания в одно общее представление.
## Результаты
Модель была проверена на нескольких стандартных бенчмарках, включая Human, BioSNAP и BindingDB. Она показала лучший результат на Human и BioSNAP датасетах, стабильно соревнуясь с текущими методами на BindingDB. Также, в задаче виртуального скрининга на LIT-PCBA датасете, SACL-FGBR достигла существенного увеличения метрик AUROC и BEDROC, что демонстрирует ее высокую точность и эффективность. Анализ аблационных моделей показал, что ключевым фактором успеха является интеграция структурных представлений, bilinear attention и контрастирующего обучения. Также визуализация векторных представлений показала лучшую специфичность в обнаружении биндинговых площадок и повышение интерпретируемости модели.
## Значимость
Этот подход имеет широкое применение в области компьютерной фармакологии, в частности в задачах DTI, вир
Abstract
Accurate identification of drug-target interactions (DTI) remains a central
challenge in computational pharmacology, where sequence-based methods offer
scalability. This work introduces a sequence-based drug-target interaction
framework that integrates structural priors into protein representations while
maintaining high-throughput screening capability. Evaluated across multiple
benchmarks, the model achieves state-of-the-art performance on Human and
BioSNAP datasets and remains competitive on BindingDB. In virtual screening
tasks, it surpasses prior methods on LIT-PCBA, yielding substantial gains in
AUROC and BEDROC. Ablation studies confirm the critical role of learned
aggregation, bilinear attention, and contrastive alignment in enhancing
predictive robustness. Embedding visualizations reveal improved spatial
correspondence with known binding pockets and highlight interpretable attention
patterns over ligand-residue contacts. These results validate the framework's
utility for scalable and structure-aware DTI prediction.
Ссылки и действия
Дополнительные ресурсы: