一种基于图卷积和词向量的药物-靶标相互作用预测方法转让专利

申请号 : CN201910460463.9

文献号 : CN110289050A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 全哲郭燕林轩何楠王梓旭

申请人 : 湖南大学

摘要 :

本发明提供了一种基于图卷积和词向量的药物-靶标相互作用预测方法,从药物中提取分子指纹特征和邻接矩阵特征,然后利用图卷积训练这些特征,将一个蛋白质分子表达式3个一组切割,并用一个100维的向量表示这一组,利用CNN训练靶标的词向量特征,最后把训练好的药物和靶标结合在一起,进行最后的结果预测。本发明的有益效果如下:可以提供关于药物的更多特征,从而达到更高的准确性;利用词向量构建蛋白质特征,大大减少了构建特征的时间;可以完整保存药物分子图的有关信息,而不会损失特征;可以大大加快训练时间。

权利要求 :

1.一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,包括如下步骤:步骤1、构建数据集,对数据集进行切分,生成80%的训练集和20%的测试集;

步骤2、对训练集中的药物构建邻接矩阵并提取分子指纹特征;

步骤3、构建靶标的氨基酸序列的三元组词向量表;

步骤4、利用Embedding层对分子指纹特征做映射,同时利用Embedding层将每个靶标的氨基酸序列转换成一个100维的矩阵;

步骤5、利用图卷积对处理好的药物特征进行训练,利用CNN对处理好的靶标特征进行训练;

步骤6、将训练后得到的药物特征和靶标特征连接在一起,输入全连接层;

步骤7、经过多次迭代计算,得到训练后的模型;

步骤8、将测试集经过同样的提取特征处理,喂入模型得到测试结果。

2.如权利要求1所述的一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,步骤1具体包括如下步骤:步骤1.1、将数据集进行切分,打乱,生成80%的训练集和20%的测试集,将测试集固定不变用于对照;

步骤1.2、对数据集的切分保证训练集和测试集的分布一致。

3.如权利要求1所述的一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,在步骤2中,利用RDKit对数据集中的药物构建邻接矩阵。

4.如权利要求1或3所述的一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,在步骤2中,所述分子指纹特征是摩根型指纹。

5.如权利要求1所述的一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,步骤3具体包括如下步骤:步骤3.1、将靶标的氨基酸序列3个为一组进行切割;

步骤3.2、利用预训练的词向量表构建词向量矩阵,矩阵的大小为不重复的3元组个数乘100;

步骤3.3、对所有不重复的氨基酸3元组进行编号。

6.如权利要求1所述的一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,步骤4具体包括如下步骤:步骤4.1、Embedding层将氨基酸序列转换成100维的矩阵,同样的也将分子指纹转换成特定维度的矩阵;

步骤4.2、Embedding层构建一个映射f:X→Y,将一个空间里的实体映射到一个线性向量空间。

7.如权利要求1所述的一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,步骤5具体包括如下步骤:步骤5.1、图卷积过程:

Input:

Molecule graph G=(V,E),radius RFor each node vi∈V and edge eij∈Eeij(t+1)=σ(eij(t)+gij(t))    (2)Output:

步骤5.1.1、遍历图中所有节点和边;

步骤5.1.2、对节点做如式1的计算,其中:σ(x)=1/(1+e-x)    (4)步骤5.1.2、对边做如式2的计算,其中:步骤5.1.3、计算输出;

步骤5.2、卷积过程;

步骤5.2.1、输入Embedding后的氨基酸序列;

步骤5.2.2、进行卷积运算。

8.如权利要求1所述的一种基于图卷积和词向量的药物-靶标相互作用预测方法,其特征在于,在步骤1中,所述数据集采用Davis数据集,所述Davis数据集中含有68个药物,

442个靶标,共30056个药物-靶标对。

说明书 :

一种基于图卷积和词向量的药物-靶标相互作用预测方法

【技术领域】

[0001] 本发明涉及药物-靶标相互作用预测技术领域,尤其涉及一种基于图卷积和词向量的药物-靶标相互作用预测方法。【背景技术】
[0002] 现代新药研发的关键是寻找,确定和制备药物分子靶标。化合物成药所具备的重要前提之一就是与靶标蛋白的结合力够强,作用时间够长。然而,近些年,新药研发速率不断下降,研发成本不断上升。原因就在于:1.药物研发的早期阶段依靠耗时耗力的实验手段;2.大部分人类疾病是由多因素引起的复杂疾病,而生物系统具有一定的冗余度和鲁棒性,单一药物对单一靶点的干扰不能引起系统表型的改变。
[0003] 目前通常的预测药物-靶标亲和力的做法主要分为以下几种:
[0004] 1.基于特征的方法,已知的药物-靶相互作用通过由药物化学描述符的描述符与用于结合靶标。利用这些特征向量作为输入,然后利用诸如支持向量机(SVM),朴素贝叶斯(NB)或神经网络(NN)的标准机器学习方法可用于预测新药物-目标对的相互作用。此方法药物特征较难获取,普适性较差,结果误差较大。将药物-靶标任务规定为二元分类问题,没有区分真正的负相互作用和未经测试的药物-目标对,并且没有很好地涵盖整个相互作用谱,包括真正的正相互作用和真正的负相互作用。
[0005] 2.基于相似性的方法,生成两者的药物-药物对和所述目标-目标对的相似性矩阵。可以使用不同类型的相似性度量来生成这些矩阵;通常,化学结构指纹用于计算药物之间的相似性,蛋白质序列比对评分用于靶标。使用相似性的最简单方法之一是最近邻分类器,预测来自最相似药物/目标的相互作用谱的加权(通过相似性)总和的新相互作用。和基于特征的方法一样将任务规定为二元分类问题。
[0006] 3.利用梯度提升方法用于连续药物-靶标结合亲和力预测。给定持续结合亲和力的训练数据集以及药物之间和目标之间的相似性,这种方法构建药物,靶标和药物-靶标对的特征,并使用梯度增强机器来预测药物-靶标对的结合亲和力并生成预测间隔。这种方法药物和蛋白质特征构建比较困难,预测能力有限。
[0007] 综上所述,药物-靶标亲和力预测的各种方法都会受限于自身的特点。其中基于特征和相似性的方法将此任务定义为二分类问题,没有很好地涵盖整个相互作用谱,而利用梯度提升的方法药物和蛋白质特征构建困难,预测能力有限。【发明内容】
[0008] 本发明的目的是提出了一种基于图卷积和词向量的药物-靶标相互作用预测方法,其中图卷积用于对药物进行特征提取,词向量用于表示蛋白质特征,然后用CNN(卷积神经网络)对蛋白质进行特征提取,可以提高药物-靶标亲和力预测准确性,从而降低药物生产过程的成本,帮助我们选择更好的药物。
[0009] 为实现上述目的,本发明的技术方案为:
[0010] 一种基于图卷积和词向量的药物-靶标相互作用预测方法,包括如下步骤:
[0011] 步骤1、构建数据集,对数据集进行切分,生成80%的训练集和20%的测试集;
[0012] 步骤2、对训练集中的药物构建邻接矩阵并提取分子指纹特征;
[0013] 步骤3、构建靶标的氨基酸序列的三元组词向量表;
[0014] 步骤4、利用Embedding层对分子指纹特征做映射,同时利用Embedding层将每个靶标的氨基酸序列转换成一个100维的矩阵;
[0015] 步骤5、利用图卷积对处理好的药物特征进行训练,利用CNN对处理好的靶标特征进行训练;
[0016] 步骤6、将训练后得到的药物特征和靶标特征连接在一起,输入全连接层;
[0017] 步骤7、经过多次迭代计算,得到训练后的模型;
[0018] 步骤8、将测试集经过同样的提取特征处理,喂入模型得到测试结果。
[0019] 作为本发明的一种改进,步骤1具体包括如下步骤:
[0020] 步骤1.1、将数据集进行切分,打乱,生成80%的训练集和20%的测试集,将测试集固定不变用于对照;
[0021] 步骤1.2、对数据集的切分保证训练集和测试集的分布一致。
[0022] 作为本发明的一种改进,在步骤2中,利用RDKit对数据集中的药物构建邻接矩阵。
[0023] 作为本发明的一种改进,在步骤2中,所述分子指纹特征是摩根型指纹。
[0024] 作为本发明的一种改进,步骤3具体包括如下步骤:
[0025] 步骤3.1、将靶标的氨基酸序列3个为一组进行切割;
[0026] 步骤3.2、利用预训练的词向量表构建词向量矩阵,矩阵的大小为不重复的3元组个数乘100;
[0027] 步骤3.3、对所有不重复的氨基酸3元组进行编号。
[0028] 作为本发明的一种改进,步骤4具体包括如下步骤:
[0029] 步骤4.1、Embedding层将氨基酸序列转换成100维的矩阵,同样的也将分子指纹转换成特定维度的矩阵;
[0030] 步骤4.2、Embedding层构建一个映射f:X→Y,将一个空间里的实体映射到一个线性向量空间。
[0031] 作为本发明的一种改进,步骤5具体包括如下步骤:
[0032] 步骤5.1、图卷积过程:
[0033] Input:
[0034] Molecule graph G=(V,E),radius R
[0035] For each node vi∈V and edge eij∈E
[0036]
[0037] eij(t+1)=σ(eij(t)+gij(t))   (2)
[0038] Output:
[0039]
[0040] 步骤5.1.1、遍历图中所有节点和边;
[0041] 步骤5.1.2、对节点做如式1的计算,其中:
[0042] σ(x)=1/(1+e-x)   (4)
[0043]
[0044] 步骤5.1.2、对边做如式2的计算,其中:
[0045]
[0046] 步骤5.1.3、计算输出;
[0047] 步骤5.2、卷积过程;
[0048] 步骤5.2.1、输入Embedding后的氨基酸序列;
[0049] 步骤5.2.2、进行卷积运算。
[0050] 作为本发明的一种改进,在步骤1中,所述数据集采用Davis数据集,所述Davis数据集中含有68个药物,442个靶标,共30056个药物-靶标对。
[0051] 本发明的有益效果如下:
[0052] 1.利用分子指纹构建药物关于节点的特征,利用邻接矩阵构建药物关于边的信息,可以提供关于药物的更多特征,从而达到更高的准确性;
[0053] 2.利用词向量构建蛋白质特征,大大减少了构建特征的时间;
[0054] 3.利用图卷积对药物特征进行训练,可以完整保存药物分子图的有关信息,而不会损失特征;
[0055] 4.利用CNN对靶标特征进行训练,可以大大加快训练时间。【附图说明】
[0056] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
[0057] 图1为本发明一种基于图卷积和词向量的药物-靶标相互作用预测方法的流程图;
[0058] 图2为乙醇的邻接矩阵形式图;
[0059] 图3为摩根型指纹示意图。【具体实施方式】
[0060] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0061] 请参阅图1所示,本发明提供一种基于图卷积和词向量的药物-靶标相互作用预测方法,可以应用于药物发现、分子结构、计算几何等领域,包括如下步骤:
[0062] 步骤1、构建数据集,对数据集进行切分,生成80%的训练集和20%的测试集;
[0063] 具体的,所述数据集采用Davis数据集,所述Davis数据集中含有68个药物,442个靶标,共30056个药物-靶标对。
[0064] 具体包括如下步骤:
[0065] 步骤1.1、将数据集进行切分,打乱,生成80%的训练集和20%的测试集,将测试集固定不变用于对照;
[0066] 步骤1.2、对数据集的切分保证训练集和测试集的分布一致。
[0067] 步骤2、对训练集中的药物构建邻接矩阵并提取分子指纹特征;
[0068] 具体的,利用RDKit对数据集中的药物构建邻接矩阵,邻接矩阵是用于表示有限图的矩阵,矩阵的元素指示图中的顶点对是否相邻,邻接矩阵将分子中所有原子作为矩阵行和列的标签,当分子中两个原子有化学键相连接时,矩阵相应位置值为1,如图2所示,是乙醇的邻接矩阵形式。
[0069] 所述分子指纹特征是摩根型指纹,分子指纹是一种将Smile格式的药物分子转换成0和1位的流的方法。在本发明中,使用的是摩根型指纹,这是一种圆形指纹,它记录每个从原子出发到指定半径内的环境,并且每一种可能性都被编码。然后使用散列算法将可能性压缩到预定长度。参照图3所示,摩根型指纹示意图:以一个原子为中心,搜索特定半径范围内的结构特征。
[0070] 步骤3、构建靶标的氨基酸序列的三元组词向量表;
[0071] 体包括如下步骤:
[0072] 步骤3.1、将靶标的氨基酸序列3个为一组进行切割,如下所示氨基酸切分方式:
[0073]
[0074] 步骤3.2、利用预训练的词向量表构建词向量矩阵,矩阵的大小为不重复的3元组个数乘100;
[0075] 步骤3.3、对所有不重复的氨基酸3元组进行编号。
[0076] 步骤4、利用Embedding层对分子指纹特征做映射,同时利用Embedding层将每个靶标的氨基酸序列转换成一个100维的矩阵;
[0077] 具体包括如下步骤:
[0078] 步骤4.1、Embedding层将氨基酸序列转换成100维的矩阵,同样的也将分子指纹转换成特定维度的矩阵;
[0079] 步骤4.2、Embedding层构建一个映射f:X→Y,将一个空间里的实体映射到一个线性向量空间。
[0080] 步骤5、利用图卷积对处理好的药物特征进行训练,利用CNN对处理好的靶标特征进行训练;
[0081] 具体包括如下步骤:
[0082] 步骤5.1、图卷积过程:
[0083] Input:
[0084] Molecule graph G=(V,E),radius R
[0085] For each node vi∈V and edge eij∈E
[0086]
[0087] eij(t+1)=σ(eij(t)+gij(t))   (2)
[0088] Output:
[0089]
[0090] 步骤5.1.1、遍历图中所有节点和边;
[0091] 步骤5.1.2、对节点做如式1的计算,其中:
[0092] σ(x)=1/(1+e-x)   (4)
[0093]
[0094] 步骤5.1.2、对边做如式2的计算,其中:
[0095]
[0096] 步骤5.1.3、计算输出;
[0097] 步骤5.2、卷积过程;
[0098] 步骤5.2.1、输入Embedding后的氨基酸序列;
[0099] 步骤5.2.2、进行卷积运算。
[0100] 步骤6、将训练后得到的药物特征和靶标特征连接在一起,输入全连接层;
[0101] 步骤7、经过多次迭代计算,得到训练后的模型;
[0102] 在得到模型后,使用梯度下降法优化损失函数。
[0103] 步骤8、将测试集经过同样的提取特征处理,喂入模型得到测试结果。
[0104] 在得到测试结果后,还可以进行实验结果验证,比较本模型与传统机器学习模型性能的优劣,其中KronRLS是基于支持向量机的方法,SimBoost是基于梯度提升树的方法。
[0105] 使用一致性指数(CI),均方误差(MSE),精确召回曲线下的面积(AUPR)作为结果评价标准,Davis数据集实验结果参加下表1:
[0106] 表1
[0107]
[0108] 通过对比MSE,CI,AUPR可以发现,本发明提供的方法在这些平均标准上均优于传统机器学习方法。相比传统机器学习方法本专利可以得到更好的结果,证明本发明是有效果的。
[0109] 综上科技,本发明结合了图卷积,词向量与CNN(卷积神经网络),用分子指纹,邻接矩阵表示药物分子结构特征,用词向量来构建靶标氨基酸序列的结构特征,图卷积用于训练药物分子特征,CNN用于训练蛋白质分子特征,实验证明这种模型架构相比传统机器学习方法可显著提高药物-靶标亲和力预测能力。
[0110] 本发明的有益效果如下:
[0111] 1.利用分子指纹构建药物关于节点的特征,利用邻接矩阵构建药物关于边的信息,可以提供关于药物的更多特征,从而达到更高的准确性;
[0112] 2.利用词向量构建蛋白质特征,大大减少了构建特征的时间;
[0113] 3.利用图卷积对药物特征进行训练,可以完整保存药物分子图的有关信息,而不会损失特征;
[0114] 4.利用CNN对靶标特征进行训练,可以大大加快训练时间。
[0115] 尽管本发明的实施方案已公开如上,但并不仅仅限于说明书和实施方案中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里所示出与描述的图例。