科学家利用“数据+知识+AI”实现新靶标药物虚拟筛选
| 来源: 【字号:大 中 小】
6月6日,中国科学院上海药物研究所郑明月课题组在《自然-机器智能》(Nature Machine Intelligence)上发表了题为Generic protein–ligand interaction scoring by integrating physical prior knowledge and data augmentation modelling的研究论文。该团队利用等变图神经网络来整合蛋白质-配体相互作用相关的物理先验知识,并使用多种数据增强、数据去冗余策略来避免模型过拟合潜在的数据分布偏差,构建了通用蛋白质-配体相互作用评分方法——EquiScore。在药物虚拟筛选场景和先导化合物优化场景中,EquiScore对训练未见的新靶标表现出良好的泛化性能。此外,EquiScore的可解释性分析为基于结构的药物设计提供了有价值的线索。
精准评估蛋白质-配体相互作用对药物发现至关重要。然而,开发可靠的评估方法是学术界和工业界的挑战。近年来,人工智能技术在这一领域已取得进展。以AlphaFold为代表的深度学习方法在蛋白质三维结构、蛋白质-配体复合物结构预测方面表现优异。然而,在新靶标的药物虚拟筛选场景中,高精度的活性预测评分方法仍然匮乏。研究表明,深度学习模型倾向学习数据中的分布偏差,对分布内的数据可以给出较好的性能指标。而在实际应用中,尤其面对训练集未见的新靶标和化学多样性空间,深度学习模型却无法展现出良好的泛化效果。
该研究从两方面来提高深度学习评分函数对新蛋白的预测能力。科研人员收集更多的阳性样本,并使用重对接来生成更多样的阳性样本。同时,该研究使用交叉蛋白对接、分子生成模型来生成更多具有欺骗性和多样性的诱饵分子,以减少构建训练数据集时可能出现的类似物偏差、数据分布偏差及人工富集偏差。该团队提出了异质图构建流程,可以通过引入新的节点和边来整合分子间相互作用的物理先验信息。该团队提出了信息感知注意力机制,用于整合不同信息中的相互作用。这些信息包括等变几何信息、化学结构信息、经验相互作用信息。该研究通过使用新构建的数据集和等变异质图网络来训练最终的评分模型EquiScore。
在训练集中未见过的蛋白质上的虚拟筛选能力能够更好地反映评分方法在实际应用中的泛化性能。为了进行充分比较,科研人员选择了21种不同的评分方法作为基准。近来报道的所有方法均是基于PDBbind数据集训练得到的,而该数据集与外部测试集具有高度的“软重叠”,即很多蛋白均是在训练过程中模型已见过的。为了进一步检查这种数据泄漏是否导致性能高估,该研究将外部测试集涉及“软重叠”的数据进行去重,并对所有方法的结果进行重新评估。DEKOIS2.0测试集上的分析结果显示,EquiScore的排序能力和富集能力均位于第一位或者第二位。当只考虑训练过程中未见过的蛋白时,EquiScore在所有结果上均位于第一位。上述研究表明,在严格的测试下,EquiScore的综合排序能力超过了现有方法。此外,EquiScore对新蛋白的富集能力超过了传统评分方法和深度学习方法。
进一步,科研人员在外部的先导化合物优化数据集上比较了EquiScore与其他方法对结构类似物的活性排序能力;使用不同的对接方法生成蛋白-配体复合物结合构象,评价了EquiScore作为评分方法的鲁棒性。此外,研究人员分析了模型的可解释性。
研究工作得到国家自然科学基金、国家重点研发计划、中国科学院青年创新促进会会员项目、上海市科技重大专项、上海药物所与上海中医药大学中医药创新团队联合研究项目的支持。
EquiScore架构图