小分子药物的细胞色素P450代谢位点预测方法转让专利

申请号 : CN201910631539.X

文献号 : CN110428875B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陈萍李远鹏张佩宇马健温书豪赖力鹏

申请人 : 深圳晶泰科技有限公司

摘要 :

本发明提供一种小分子药物的细胞色素P450代谢位点预测方法,采用基于支持向量机分类器的机器学习模型WhichCyp,对小分子属于细胞色素P450酶亚型1A2,2C9,2C19,2D6及3A4中一种或几种亚型的底物进行预测;利用基于卷积神经网络的机器学习模型对相应亚型的细胞色素P450酶对小分子药物的代谢位点进行预测排序;对完整的细胞色素P450酶体系与完整的分子的热力学及动力学相互作用进行计算评估;对各个构象进行较高精度的MMGBSA计算,得到不同的小分子构象与细胞色素P450酶的结合能;利用收集到的小分子训练集对流程进行训练,直到预测准确率>80%为止。本发明提高了预测的准确性。

权利要求 :

1.小分子药物的细胞色素P450代谢位点预测方法,其特征在于,包括以下步骤:(1)采用基于支持向量机分类器的机器学习模型WhichCyp,对小分子属于细胞色素P450酶亚型1A2, 2C9, 2C19, 2D6及3A4中一种或几种亚型的底物进行判断;

(2)利用基于卷积神经网络的机器学习模型对相应亚型的细胞色素P450酶对小分子药物的代谢位点进行预测,得到各原子被代谢的可能性排序;

(3)对完整的细胞色素P450酶体系与完整的分子的热力学及动力学相互作用进行计算评估;

从Protein Data Bank网站中下载第一步WhichCyp预测的细胞色素P450酶亚型的晶体结构,利用分子对接工具Autodock进行小分子药物与细胞色素P450酶的对接,并得到小分子药物与细胞色素P450酶结合的不同的构象;

(4)对各个构象进行较高精度的MMGBSA计算,得到不同的小分子构象与细胞色素P450酶的结合能;

同时对这些不同的结合构象进行计算,得到小分子中不同的位点与细胞色素P450酶反应中心的反应能垒;

(5)利用从文献中收集到的小分子训练集对流程进行训练,并测试流程的预测准确度是否>80%,如果是,则该流程可以用于预测小分子的代谢位点,否则需要对机器学习判断P450酶亚型,机器学习预测代谢位点以及量子化学/分子动力学进行进一步的优化,直到预测准确率>80%为止。

2.根据权利要求1所述的小分子药物的细胞色素P450代谢位点预测方法,其特征在于,步骤(4)中对这些不同的结合构象进行计算,考虑整体的小分子及完整的细胞色素P450体系,反应中心用高精度的量子化学计算方法,其余部分则利用分子动力学方法以保证计算的速度。

说明书 :

小分子药物的细胞色素P450代谢位点预测方法

技术领域

[0001] 本发明属于药物代谢技术领域,具体涉及小分子药物的细胞色素P450代谢位点预测方法。

背景技术

[0002] WhichCyp是以PubChem Bioassay 1851作为数据集开发的基于支持向量机分类器的机器学习模型。该模型可以预测小分子属于细胞色素P450酶亚型1A2, 2C9, 2C19, 2D6
及3A4中的某一种或某几种亚型的底物。
[0003] SMARTCyp是计算了139个小分子片段与细胞色素P450酶催化反应中心的能垒,形成一个小型数据库。预测小分子代谢位点时,按照对应的片段,计算小分子各位点的能垒排

序。该方法对细胞色素P450酶2D6, 2C亚型进行预测,主要是根据小分子中原子与COO 和NH3
+
的距离对能垒排序进行调整。
[0004] WhichCyp仅能预测小分子属于哪一种细胞色素P450酶亚型的底物,而不能预测具体的小分子的代谢位点。
[0005] SMARTCyp仅计算了139个小分子片段与细胞色素P450酶催化反应中心的能垒,能够覆盖到的化学空间非常有限,不一定能够覆盖到需要预测的小分子,因此预测过程中将
存在较大近似。对于细胞色素P450酶2D6, 2C亚型的代谢位点的预测也存在较大近似,其他
亚型则无法进行区分。
[0006] SMARTCyp对于包含超过40个非氢原子的小分子,通常预测的结果与实验结果不一致,可能是由于较大的小分子的代谢位点受小分子与细胞色素P450酶的结合模式影响较
大。
[0007] 现有的预测方法都存在较多近似,且预测不同的细胞色素P450酶亚型对小分子的代谢位点时,仅基于小分子的结构进行预测,没有考虑不同亚型的P450酶催化反应中心附
近的残基对代谢位点的影响。

发明内容

[0008] 药物分子进入人体后可能被细胞色素P450酶代谢而失活,本发明提供小分子药物的细胞色素P450代谢位点预测方法,可以预测小分子药物可能被细胞色素P450代谢的位
点,从而可以对该位点进行修饰,例如氘代,氟代及其他的取代基修饰,延长药物作用的时
间,维持较好的药效。
[0009] 所采用的技术方案为:
[0010] 小分子药物的细胞色素P450代谢位点预测方法,包括以下步骤:
[0011] (1)采用基于支持向量机分类器的机器学习模型WhichCyp,对小分子属于细胞色素P450酶亚型1A2, 2C9, 2C19, 2D6及3A4中一种或几种亚型的底物进行预测;
[0012] (2)利用基于卷积神经网络的机器学习模型对相应亚型的细胞色素P450酶对小分子药物的代谢位点进行预测排序;
[0013] (3)对完整的细胞色素P450酶体系与完整的分子的热力学及动力学相互作用进行计算评估;
[0014] 从Protein Data Bank网站中下载第一步WhichCyp预测的细胞色素P450酶亚型的晶体结构,利用分子对接工具Autodock进行小分子药物与细胞色素P450酶的对接,并得到
小分子药物与细胞色素P450酶结合的不同的构象;
[0015] (4)对各个构象进行较高精度的MMGBSA计算,得到不同的小分子构象与细胞色素P450酶的结合能;
[0016] 同时对这些不同的结合构象进行量子化学/分子动力学计算,得到小分子中不同的位点与细胞色素P450酶反应中心的反应能垒;
[0017] 该计算考虑了整体的小分子及完整的细胞色素P450体系,反应中心用高精度的量子化学计算方法,其余部分则利用分子动力学方法以保证计算的速度。
[0018] (5)利用从文献中收集到的小分子训练集对流程进行训练,并测试流程的预测准确度是否>80%,如果是,则该流程可以用于预测小分子的代谢位点,否则需要对机器学习判
断P450酶亚型,机器学习预测代谢位点以及量子化学/分子动力学(QM/MM)进行进一步的优
化,直到预测准确率>80%为止。
[0019] 本发明提供的小分子药物的细胞色素P450代谢位点预测方法,具有的技术效果有:
[0020] (1)本发明创造性的结合了WhichCyp和机器学习预测不同亚型的细胞色素P450酶的代谢位点,首先确定小分子是哪种细胞色素P450酶的亚型,再利用分亚型的机器学习预
测模型对小分子的代谢位点进行排序预测。
[0021] (2)本发明中机器学习预测代谢位点的模型构建,使用量子化学方法对小分子片段与细胞色素P450酶催化反应中心的能垒进行计算,作为模型构建的特征之一。与
SMARTCyp相比,本发明构建的能垒数据库将大大超过SMARTCyp。对于没有被数据库覆盖的
小分子片段,可以补充计算,加入到数据库中,大大提高了预测的准确性。
[0022] (3)本流程采用分子对接,对含有非氢原子数目超过40的小分子,可以充分的考虑小分子与酶催化反应中心的结合模式,并采用较高精度的MMGBSA方法对结合自由能进行再
次计算,并进行排序。
[0023] (4)利用QM/MM方法,对具体的细胞色素P450酶亚型与小分子的催化反应进行计算,内层采用高精度的量子化学,外层采用速度较快的分子力学方法。该方法可以考虑不同
亚型的酶催化反应中心周围具体的氨基酸残基对酶催化反应能垒的影响,从而更准确的进
行小分子代谢位点的预测。
[0024] (5)本发明将结合亚马逊云计算调度平台,进行大量的计算资源配置,从而能够同时多节点并行计算,大大提升代谢位点预测的效率。

附图说明

[0025] 图1本发明的方法流程图;
[0026] 图2为本发明在氘代药物设计中的应用。

具体实施方式

[0027] 结合实施例说明本发明的具体技术方案。
[0028] 根据WhichCyp公开的数据集及方法介绍,本实施例获得了PubChem bioassay 1851的数据,实现了基于支持向量机分类器的机器学习模型,并应用于分辨小分子药物属
于哪种细胞色素P450酶亚型的底物。
[0029] 从公开的文献数据库中,本实施例检索收集到约680个具有细胞色素P450代谢实验的小分子数据,用作小分子药物细胞色素P450代谢位点预测的训练集。不同的细胞色素
P450酶亚型所具有的训练集数据分别为1A2(271个),2A6(105个),2B6(151个),2C8(142
个),2C9(226个),2C19(218个),2D6(270个),2E1(145个),3A4(475个),其中部分分子同时
被几个细胞色素P450酶亚型所代谢。截取分子中可能被代谢的位点三个键长范围内的片
段,形成片段库,并利用量子化学方法计算片段与细胞色素P450酶反应中心反应的能垒,形
成一个片段与能垒对应的数据库。以能垒,原子类型,分子的三维坐标等作为特征,针对每
一个细胞色素P450酶亚型训练一个基于卷积神经网络的机器学习模型,用于预测分子可能
的代谢位点排序。
[0030] 如图1所示,本发明首先采用基于支持向量机分类器的机器学习模型WhichCyp,对小分子属于细胞色素P450酶亚型1A2, 2C9, 2C19, 2D6及3A4中哪一种或几种亚型的底物
进行预测。随后,利用基于卷积神经网络的机器学习模型对相应亚型的细胞色素P450酶对
小分子药物的代谢位点进行预测排序。由于该方法是采用药物分子的片段与细胞色素P450
酶反应中心进行量子化学计算,对计算模型进行了较大的简化,因此需要进一步对完整的
细胞色素P450酶体系与完整的分子的热力学及动力学相互作用进行计算评估。从Protein 
Data Bank网站中下载第一步WhichCyp预测的细胞色素P450酶亚型的晶体结构,利用分子
对接工具Autodock进行小分子药物与细胞色素P450酶的对接,并得到小分子药物与细胞色
素P450酶结合的不同的构象。对各个构象进行较高精度的MMGBSA计算,得到不同的小分子
构象与细胞色素P450酶的结合能。同时对这些不同的结合构象进行量子化学/分子动力学
计算,可以得到小分子中不同的位点与细胞色素P450酶反应中心的反应能垒。该计算考虑
了整体的小分子及完整的细胞色素P450体系,反应中心用高精度的量子化学计算方法,其
余部分则利用分子动力学方法以保证计算的速度。利用从文献中收集到的680个小分子训
练集对流程进行训练,并测试流程的预测准确度是否>80%,如果是,则该流程可以用于预测
小分子的代谢位点,否则需要对机器学习判断P450酶亚型,机器学习预测代谢位点以及量
子化学/分子动力学(QM/MM)进行进一步的优化,直到预测准确率>80%为止。
[0031] 对于上述流程,机器学习预测代谢位点模型构建期间需要进行量子化学计算,MMGBSA计算及量子化学/分子动力学(QM/MM)均需要进行大量,长时间的计算,一般的计算
节点将难以承受如此大的计算量。因此,本实施例将图1所示的流程部署到亚马逊云平台,
可进行多节点并行计算。
[0032] 由于细胞色素P450酶代谢是人体主要的药物代谢方式,因此对小分子药物的细胞色素P450酶代谢位点进行预测以后,可以对可能的代谢位点进行修饰,例如氘代,氟代及其
他官能团化等。由于细胞色素P450酶代谢主要是将小分子药物中的C‑H键氧化成为C‑OH键,
因此将小分子中代谢位点的C‑H键替换为C‑D键可以减少小分子药物的代谢。一般的氘代药
物的开发方法是对小分子药物中所有的C‑H键以排列组合的形式替换成C‑D键,合成这些氘
代化合物并逐个进行代谢实验测试将需要非常高的时间及经济成本。因此,本发明所示的
流程可以推荐小分子可能的代谢位点,将原本需要合成几十个氘代化合物减少为仅需要合
成3个以内的化合物即可。
[0033] 如图2所示,本实施例利用目前处于临床阶段的8个氘代药物分子对本发明的流程进行测试。其中虚线圆圈所示位点为实验的代谢位点,该位点已被氘代。箭头所指的位点即
为本发明的代谢位点预测流程所预测的排序前3的代谢位点,排名前2的(Top 2)预测的成
功率为87.5%。说明本发明所示的细胞色素P450酶代谢位点预测流程对于节约药物研发的
成本具有非常明显的成效。
[0034] 针对图2中的实施例,首先利用部署在亚马逊云平台的软件Whichcyp,对小分子化合物是哪种P450酶亚型的底物进行判断。例如预测出Sorafenib为P450亚型2C9的底物。接
下来利用图卷积神经网络训练的P450酶2C9亚型的代谢位点预测模型,对其具体的代谢位
点进行预测,可得到各原子被代谢的可能性排序。从Protein Data Bank中下载2C9亚型酶
的晶体结构,采用学术开源软件Autodock对2C9与Sorafenib进行对接,得到5种优势结合构
象,利用MMGBSA方法对这5种结合构象进行计算,并得到结合能。同时,利用Gaussian软件的
ONIOM模块对这5中结合构象进行QM/MM计算,得到分子中C‑H键与酶催化反应中心反应的能
垒。结合MMGBSA的结合能和Gaussian计算得到的反应能垒,对分子中的原子进行排序,并与
机器学习模型预测的代谢位点排序进行比对,同时处于排序前3的原子即为可能的代谢位
点。对这几个位点进行氘代,氟代或用其他取代基修饰,即可对化合物的代谢性能进行优化
改造。