Structure-Aware Contrastive Learning with Fine-Grained Binding Representations for Drug Discovery

2509.14788v1 cs.LG, cs.AI, q-bio.BM 2025-09-20
Авторы:

Jing Lan, Hexiao Ding, Hongzhao Chen, Yufeng Jiang, Nga-Chun Ng, Gwing Kei Yip, Gerald W. Y. Cheng, Yunlin Mao, Jing Cai, Liang-ting Lin, Jung Sun Yoo

Резюме на русском

## Контекст Проблема идентификации взаимодействий лекарств с белками (drug-target interactions, DTI) является ключевым заданием в компьютерной фармакологии. Несмотря на развитие секвенсо-ориентированных методов, которые обеспечивают высокую скорость и масштабируемость, они часто лишаются информации о структуре белка, что существенно снижает точность. Белки, являющиеся основными целями взаимодействий, обладают сложной структурой, включая форму и биндинговые площадки, которые не учитываются такими подходами. Таким образом, есть необходимость в развитии подходов, которые учитывали бы эту структуру для повышения точности и интерпретируемости результатов. Исследование предлагает новую модель, которая интегрирует структурные представления белка с высокомасштабируемыми методами взаимодействий с целью решения данной проблемы. ## Метод Модель "Structure-Aware Contrastive Learning with Fine-Grained Binding Representations" (SACL-FGBR) предлагает инновационный подход к DTI, используя структурно-ориентированные представления белков. Основная идея заключается в использовании контрастирующего обучения для получения тонко выраженных представлений биндинговых площадок белка. Эта модель состоит из нескольких модулей: 1. **Предобработка данных**: Белки и лекарства представляются с помощью последовательностей аминокислот и молекулярных фрагментов. 2. **Структурно-ориентированное учитывание**: Используется bilinear attention mechanism для получения тонких представлений биндинговых площадок. 3. **Контрастное обучение**: Модель учитывает не только положительные примеры взаимодействий, но и отрицательные, что позволяет улучшить многочленность решения. 4. **Аггрегация и вывод**: Данные аггрегируются с помощью learnable aggregation модуля, чтобы объединить все описания в одно общее представление. ## Результаты Модель была проверена на нескольких стандартных бенчмарках, включая Human, BioSNAP и BindingDB. Она показала лучший результат на Human и BioSNAP датасетах, стабильно соревнуясь с текущими методами на BindingDB. Также, в задаче виртуального скрининга на LIT-PCBA датасете, SACL-FGBR достигла существенного увеличения метрик AUROC и BEDROC, что демонстрирует ее высокую точность и эффективность. Анализ аблационных моделей показал, что ключевым фактором успеха является интеграция структурных представлений, bilinear attention и контрастирующего обучения. Также визуализация векторных представлений показала лучшую специфичность в обнаружении биндинговых площадок и повышение интерпретируемости модели. ## Значимость Этот подход имеет широкое применение в области компьютерной фармакологии, в частности в задачах DTI, вир

Abstract

Accurate identification of drug-target interactions (DTI) remains a central challenge in computational pharmacology, where sequence-based methods offer scalability. This work introduces a sequence-based drug-target interaction framework that integrates structural priors into protein representations while maintaining high-throughput screening capability. Evaluated across multiple benchmarks, the model achieves state-of-the-art performance on Human and BioSNAP datasets and remains competitive on BindingDB. In virtual screening tasks, it surpasses prior methods on LIT-PCBA, yielding substantial gains in AUROC and BEDROC. Ablation studies confirm the critical role of learned aggregation, bilinear attention, and contrastive alignment in enhancing predictive robustness. Embedding visualizations reveal improved spatial correspondence with known binding pockets and highlight interpretable attention patterns over ligand-residue contacts. These results validate the framework's utility for scalable and structure-aware DTI prediction.

Ссылки и действия