图 1. Nature 旗下的 Communications Chemistry 发表的文章标题。
图 2. Nature 官网的 Research Data Community 报道 MdrDB 耐药性数据库。
01 背景介绍
蛋白质是细胞内行使生物学功能的一类大分子,不同蛋白的三维结构决定了其不同的功能。因此,由蛋白质序列变化引起的结构突变可能会影响蛋白质的稳定性1、功能2以及与其他生物分子的相互作用3,4。在某些情况下,这可能会导致蛋白质功能的显着变化,甚至完全丧失,从而导致相关疾病的发生5。小分子药物对许多快速进化的系统(包括癌细胞、病毒和细菌)施加的进化压力会促使靶点蛋白质突变,从而影响其与小分子药物的结合亲和力,减弱或消除药物的治疗效果,导致耐药性的发生6。虽然高通量测序技术的快速发展以及测序成本的不断降低可使在大量人群中鉴定蛋白质突变成为可能,但新颖的多态性往往需要大量的实验确定其影响和特征,过程耗时且昂贵7。蛋白质-配体结合亲和力数据对于了解多态性对疾病的影响和识别导致耐药性的突变具有重要价值。广泛和方便地获取野生型和突变型蛋白与配体小分子的结合亲和力数据将有助于我们理解突变诱导的耐药性作用机制,提高对全新突变的推断能力,并为耐药性预测提供更有效的计算方法。
02 MdrDB 概况
腾讯量子实验室构建的 MdrDB 耐药性数据库致力于提供用于研究蛋白质三维结构突变诱导的耐药性相关的大量数据,包括野生型蛋白质-配体复合物、突变型蛋白质-配体复合物、突变前后的结合亲和力变化(ΔΔG)以及复合物的生化特征等。这些信息将有助于突变诱导耐药性的预测、联合治疗策略的开发以及创新药物的研发。
当前版本 MdrDB 包含 100537 个样本,由 240 种蛋白质(总共 5119 个 PDB 结构)、2503 个突变和 440 种药物组合而成。除了单点替换突变和多点替换突变外,MdrDB 还包含复杂的突变,包括删除突变、插入突变和删除插入突变,多位点混合突变等复杂突变。
图 3. MdrDB 突变统计、ΔΔG 分布以及蛋白质和药物注释。(A) 每种突变类型对应的样本数;(B)蛋白质突变诱导的配体结合亲和力变化直方图;(C) 替换突变前后的氨基酸变化;(D) 每一蛋白质域对应的样本数;(E) 每一药理机制对应的样本数。
03 MdrDB 优势
与现有公开的耐药性数据库相比,MdrDB 具有以下几大优势:
● 多样性:MdrDB 包含多种突变类型。除了单点突变外,还包含多种突变类型,如删除突变、插入突变、删除插入突变、多位点混合突变等复杂突变。这些突变类型可能会在某些疾病进展中发挥重要作用。
04 MdrDB 提升耐药性预测
由于数据少、数据不平衡和缺乏结构信息等原因的限制,实现耐药性的精准预测对机器学习而言是一个巨大的挑战。在我们之前的相关工作中,提出了一种基于多样性自步学习的极端随机回归树模型(SPLDExtraTrees),尝试融合蛋白质家族多样性先验信息和药物靶点相互作用信息等来进行耐药性预测8。但基于小样本数据训练出来的模型在准确率和泛化性上都有较大的提升空间。
因此,在建立 MdrDB 数据库后,我们进一步评估了使用 MdrDB 数据库和其他公开耐药数据库作为训练数据分别对 10 种经典机器学习模型在酪氨酸激酶抑制剂耐药性预测问题上的效果。实验结果表明,使用 MdrDB 作为训练集,几乎所有的机器学习模型都可以获得显着的性能提升。此外,本项工作还在十多种场景下测评了上述 10 种经典机器学习模型在 MdrDB 数据库上的基准结果。我们希望更多的研究人员能够使用 MdrDB 数据库进行全新的机器学习算法开发和更全面的预测效果评估,从而促进耐药性研究。
图 4. 10 种经典机器学习模型性能评估。三种训练场景下机器学习方法对酪氨酸激酶抑制剂亲和力变化( ΔΔG)的预测性能(RMSE、Pearson,AUPRC)。ΔΔG = 1.36 kcal mol−1 将耐药突变与易感突变进行划分。
05 结语
MdrDB 耐药性数据库的发布对生物医药领域具有重要意义,它有助于在药物耐药性细胞出现之前开展新一代药物的前瞻性研究,加快抗耐药性药物研发的进程,为应对临床耐药性突变做好药物储备。随着未来有更多可用的耐药性数据,MdrDB 将持续定期更新。
MdrDB 耐药性数据库采用 Academic Public License 发布,可免费用于学术研究。如有商业使用需求,欢迎扫描如下二维码联系我们,共同探讨合作可能性。
相关论文
-
论文:A mutation-induced drug resistance database (MdrDB). Commun Chem 6, 123 (2023).
https://doi.org/10.1038/s42004-023-00920-7
点击底部“阅读原文”可进入下载
-
网站:https://quantum.tencent.com/mdrdb/
-
教程:https://quantum.tencent.com/mdrdb/tutorial
[1] Ode, H. et al. Computational characterization of structural role of the nonactive site mutation m36i of human immunodeficiency virus type 1 protease. J. Mol. Biol. 370, 598–607 (2007).
[2] Teng, S., Madej, T., Panchenko, A. & Alexov, E. Modeling effects of human single nucleotide polymorphisms on protein-protein interactions. Biophys. J. 96, 2178–2188 (2009).
[3] Hashimoto, K. & Panchenko, A. R. Mechanisms of protein oligomerization, the critical role of insertions and deletions in maintaining different oligomeric states. Proc. Natl Acad. Sci. USA 107, 20352–20357 (2010).
[4] Nishi, H. et al. Cancer missense mutations alter binding properties of proteins and their interaction networks. PLoS One 8, e66273 (2013).
[5] Li, M., Petukh, M., Alexov, E. & Panchenko, A. R. Predicting the impact of missense mutations on protein–protein binding affinity. J. Chem. Theory Comput. 10, 1770–1780 (2014).
[6] Cohen, M. L. Epidemiology of drug resistance: implications for a postantimicrobial era. Science 257, 1050–1055 (1992).
[7] Pires, D. E., Blundell, T. L. & Ascher, D. B. Platinum: a database of experimentally measured effects of mutations on structurally defined protein–ligand complexes. Nucleic Acids Res. 43, D387–D391 (2015).
[8] Yang, Z.-Y., Ye, Z.-F., Xiao, Y.-J., Hsieh, C.-Y. & Zhang, S.-Y. Spldextratrees: robust machine learning approach for predicting kinase inhibitor resistance. Brief. Bioinform. 23, bbac050 (2022).