新闻动态 动态详情

腾讯量子实验室发布大规模耐药性数据库,助力 AI for science 科技发展

2023-07-05 20:45 发表自 腾讯量子实验室
2023 年 6 月 14 日,腾讯量子实验室在 Nature 旗下的 Communications Chemistry 期刊上发表了题为 “A mutation-induced drug resistance database (MdrDB)” 的研究论文,详述了团队在基于结构的蛋白质突变诱导耐药性数据库方面所取得的阶段性进展。此外,Nature 官方网站的 Research Data Community 也对该项成果进行了报道。基于 MdrDB 提供的大量数据和丰富的特征,在基准实验上,经典机器学习模型在耐药性问题上的预测性能取得了显著的提升。通过发布 MdrDB 耐药性数据库,我们期望能够推动更多的科学研究人员来共同开展耐药性研究,从而促进对突变诱导耐药性的理解、联合疗法的开发和全新药物的发现。

图 1. Nature 旗下的 Communications Chemistry 发表的文章标题。

图 2. Nature 官网的 Research Data Community 报道 MdrDB 耐药性数据库。


01   背景介绍


蛋白质是细胞内行使生物学功能的一类大分子,不同蛋白的三维结构决定了其不同的功能。因此,由蛋白质序列变化引起的结构突变可能会影响蛋白质的稳定性1、功能2以及与其他生物分子的相互作用3,4。在某些情况下,这可能会导致蛋白质功能的显着变化,甚至完全丧失,从而导致相关疾病的发生5。小分子药物对许多快速进化的系统(包括癌细胞、病毒和细菌)施加的进化压力会促使靶点蛋白质突变,从而影响其与小分子药物的结合亲和力,减弱或消除药物的治疗效果,导致耐药性的发生6。虽然高通量测序技术的快速发展以及测序成本的不断降低可使在大量人群中鉴定蛋白质突变成为可能,但新颖的多态性往往需要大量的实验确定其影响和特征,过程耗时且昂贵7。蛋白质-配体结合亲和力数据对于了解多态性对疾病的影响和识别导致耐药性的突变具有重要价值。广泛和方便地获取野生型和突变型蛋白与配体小分子的结合亲和力数据将有助于我们理解突变诱导的耐药性作用机制,提高对全新突变的推断能力,并为耐药性预测提供更有效的计算方法。


02 MdrDB 概况


腾讯量子实验室构建的 MdrDB 耐药性数据库致力于提供用于研究蛋白质三维结构突变诱导的耐药性相关的大量数据,包括野生型蛋白质-配体复合物、突变型蛋白质-配体复合物、突变前后的结合亲和力变化(ΔΔG)以及复合物的生化特征等。这些信息将有助于突变诱导耐药性的预测、联合治疗策略的开发以及创新药物的研发。

当前版本 MdrDB 包含 100537 个样本,由 240 种蛋白质(总共 5119 个 PDB 结构)、2503 个突变和 440 种药物组合而成。除了单点替换突变和多点替换突变外,MdrDB 还包含复杂的突变,包括删除突变、插入突变和删除插入突变,多位点混合突变等复杂突变。

用户可通过网站链接浏览和搜索 MdrDB 数据:https://quantum.tencent.com/mdrdb/

图 3. MdrDB 突变统计、ΔΔG 分布以及蛋白质和药物注释。(A) 每种突变类型对应的样本数;(B)蛋白质突变诱导的配体结合亲和力变化直方图;(C) 替换突变前后的氨基酸变化;(D) 每一蛋白质域对应的样本数;(E) 每一药理机制对应的样本数。


03 ‍MdrDB 优势


与现有公开的耐药性数据库相比,MdrDB 具有以下几大优势:

● 全面性:MdrDB 是目前最大的蛋白突变诱导耐药数据库。整合了多种来源的突变诱导耐药性相关信息,涵盖了各种蛋白质家族的突变信息,有助于开发有效的基于数据驱动的计算方法预测耐药性。
● 结构化:MdrDB 提供野生型蛋白质结构信息、突变型蛋白质结构信息、野生型蛋白质-配体复合物结构信息和突变型蛋白质-配体复合物结构信息,其可用于蛋白质突变研究和耐药性建模。

● 多样性:MdrDB 包含多种突变类型。除了单点突变外,还包含多种突变类型,如删除突变、插入突变、删除插入突变、多位点混合突变等复杂突变。这些突变类型可能会在某些疾病进展中发挥重要作用。


04 ‍‍MdrDB 提升耐药性预测


由于数据少、数据不平衡和缺乏结构信息等原因的限制,实现耐药性的精准预测对机器学习而言是一个巨大的挑战。在我们之前的相关工作中,提出了一种基于多样性自步学习的极端随机回归树模型(SPLDExtraTrees),尝试融合蛋白质家族多样性先验信息和药物靶点相互作用信息等来进行耐药性预测8。但基于小样本数据训练出来的模型在准确率和泛化性上都有较大的提升空间。

因此,在建立 MdrDB 数据库后,我们进一步评估了使用 MdrDB 数据库和其他公开耐药数据库作为训练数据分别对 10 种经典机器学习模型在酪氨酸激酶抑制剂耐药性预测问题上的效果。实验结果表明,使用 MdrDB 作为训练集,几乎所有的机器学习模型都可以获得显着的性能提升。此外,本项工作还在十多种场景下测评了上述 10 种经典机器学习模型在 MdrDB 数据库上的基准结果。我们希望更多的研究人员能够使用 MdrDB 数据库进行全新的机器学习算法开发和更全面的预测效果评估,从而促进耐药性研究。

图 4. 10 种经典机器学习模型性能评估。三种训练场景下机器学习方法对酪氨酸激酶抑制剂亲和力变化( ΔΔG)的预测性能(RMSE、Pearson,AUPRC)。ΔΔG = 1.36 kcal mol−1 将耐药突变与易感突变进行划分。


05 ‍结语


MdrDB 耐药性数据库的发布对生物医药领域具有重要意义,它有助于在药物耐药性细胞出现之前开展新一代药物的前瞻性研究,加快抗耐药性药物研发的进程,为应对临床耐药性突变做好药物储备。随着未来有更多可用的耐药性数据,MdrDB 将持续定期更新。

MdrDB 耐药性数据库采用 Academic Public License 发布,可免费用于学术研究。如有商业使用需求,欢迎扫描如下二维码联系我们,共同探讨合作可能性。

相关论文

  • 论文:A mutation-induced drug resistance database (MdrDB). Commun Chem 6, 123 (2023). 

    https://doi.org/10.1038/s42004-023-00920-7

    点击底部“阅读原文”可进入下载

  • 网站:https://quantum.tencent.com/mdrdb/

  • 教程:https://quantum.tencent.com/mdrdb/tutorial

参考文献

[1] Ode, H. et al. Computational characterization of structural role of the nonactive site mutation m36i of human immunodeficiency virus type 1 protease. J. Mol. Biol. 370, 598–607 (2007).

[2] Teng, S., Madej, T., Panchenko, A. & Alexov, E. Modeling effects of human single nucleotide polymorphisms on protein-protein interactions. Biophys. J. 96, 2178–2188 (2009).

[3] Hashimoto, K. & Panchenko, A. R. Mechanisms of protein oligomerization, the critical role of insertions and deletions in maintaining different oligomeric states. Proc. Natl Acad. Sci. USA 107, 20352–20357 (2010).

[4] Nishi, H. et al. Cancer missense mutations alter binding properties of proteins and their interaction networks. PLoS One 8, e66273 (2013).

[5] Li, M., Petukh, M., Alexov, E. & Panchenko, A. R. Predicting the impact of missense mutations on protein–protein binding affinity. J. Chem. Theory Comput. 10, 1770–1780 (2014).

[6] Cohen, M. L. Epidemiology of drug resistance: implications for a postantimicrobial era. Science 257, 1050–1055 (1992).

[7] Pires, D. E., Blundell, T. L. & Ascher, D. B. Platinum: a database of experimentally measured effects of mutations on structurally defined protein–ligand complexes. Nucleic Acids Res. 43, D387–D391 (2015).

[8] Yang, Z.-Y., Ye, Z.-F., Xiao, Y.-J., Hsieh, C.-Y. & Zhang, S.-Y. Spldextratrees: robust machine learning approach for predicting kinase inhibitor resistance. Brief. Bioinform. 23, bbac050 (2022).