一种基于神经网络的抗癌药物协同作用的预测方法转让专利

申请号 : CN201910513981.2

文献号 : CN110277174A

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 秦玉芳陈希陈明

申请人 : 上海海洋大学

摘要 :

一种基于神经网络的抗癌药物协同作用的预测方法,该方法是利用神经网络模型实现的,所述神经网络模型包含卷积神经网络CNN1D降维和神经网络DNN回归构建的预测模型;利用卷积神经网络CNN1D降维和神经网络DNN回归构建的预测模型,能更加方便、快速降低数据的维度,减少模型训练的复杂度;该方法能够从多维度特征学习抗癌药物的潜在协同关系,其预测模型的预测精度高,可以帮助临床实验减少时间和金钱成本,快速定位有效的药物组合。

权利要求 :

1.一种基于神经网络的抗癌药物协同作用的预测方法,该方法是利用神经网络模型实现的,其特征在于:所述神经网络模型包含卷积神经网络CNN1D降维和神经网络DNN回归构建的预测模型,该方法的实施步骤为:S1、搜集整合抗癌药物的化学特征和癌症细胞系的基因表达特征、基因突变特征、基因拷贝数变异特征,对应于已知的大规模药物组合筛选数据形成相应的二维张量;

S2、标准化步骤S1中的抗癌药物化学特征的二维张量,并将此二维张量输入到神经网络模型中输出一个特征维度的二维张量;

S3、标准化步骤S1中的癌症细胞系的基因表达特征的二维张量,并将此二维张量输入到神经网络模型中输出一个特征维度的二维张量;

S4、将步骤S1中的基因突变特征、基因拷贝数变异特征使用one-hot编码并形成相应的二维张量;

S5、将步骤S4中的二维张量输入到神经网络模型中输出特征维度的二维张量;

S6、将步骤S2、S3和S5中产生的特征二维张量进行连接合并,将整合后的二维张量输入到神经网络模型中进行深度学习训练;

S7、对步骤S2-S6中构建的各种神经网络模型进行优化调整参数,验证模型。

2.如权利要求1所述的一种基于神经网络的抗癌药物协同作用的预测方法方法,其特征在于,所述步骤S1中整合抗癌药物的化学特征和癌症细胞系的基因表达特征、基因突变特征、基因拷贝数变异特征是从互联网公开的数据库中搜集的。

3.如权利要求2所述的一种基于神经网络的抗癌药物协同作用的预测方法方法,其特征在于,所述步骤S1中的二维张量为药物A-药物B和药物B-药物A的化学特征二维张量、基因表达特征二维张量、基因突变特征二维张量、基因拷贝数变异特征二维张量。

4.如权利要求1所述的一种基于神经网络的抗癌药物协同作用的预测方法方法,其特征在于,所述步骤S2中还需共享药物组合中不同抗癌药物化学特征的DNN层权重,输出的为特征维度为2048的二维张量。

5.如权利要求1所述的一种基于神经网络的抗癌药物协同作用的预测方法方法,其特征在于,所述步骤S3中的神经网络模型为卷积神经网络CNN1D降维模型。

6.如权利要求5所述的一种基于神经网络的抗癌药物协同作用的预测方法方法,其特征在于,所述二维张量输入到基因表达特征的卷积神经网络CNN1D降维模型中,还需要连接一个密集连接层DNN层。

7.如权利要求1所述的一种基于神经网络的抗癌药物协同作用的预测方法方法,其特征在于,所述步骤S4中癌症细胞系基因突变数据和基因拷贝数变异数据是文本格式。

8.如权利要求1所述的一种基于神经网络的抗癌药物协同作用的预测方法方法,其特征在于,所述步骤S5中的特征维度的二维张量分别为256的二维张量和128的二维张量。

9.如权利要求1所述的一种基于神经网络的抗癌药物协同作用的预测方法方法,其特征在于,所述步骤S6中的神经网络模型为3层锥形神经网络DNN回归模型。

说明书 :

一种基于神经网络的抗癌药物协同作用的预测方法

技术领域

[0001] 本发明涉及生物信息学及深度学习技术领域,尤其是一种基于神经网络的抗癌药物协同作用的预测方法。

背景技术

[0002] 药物的抗药性在癌症的治疗中仍然是一个巨大的挑战,药物联合治疗有望降低病人对抗癌药物的耐药性。虽然药物联合治疗在癌症的治疗中是一个公认可行的概念,但由于药物组合空间太大,识别新的药物组合是一个重要的任务,基于最近的大规模药物组合筛选数据,利用计算模型测试药物组合已经成为节约时间和成本的有效方法,基于目前的科技发展水平,计算模型仅考虑了癌症细胞系的基因表达数据,且在处理更高维的数据(几万乃至几十万)时,模型需要训练的参数多到难以训练,对GPU资源要求高,运行速度慢,因此需要设计一种基于神经网络的抗癌药物协同作用的预测方法。
[0003] 本发明就是为了解决以上问题而进行的改进。

发明内容

[0004] 本发明需要解决的技术问题是提供一种方便、快速降低数据的维度,减少模型训练的复杂度,快速定位有效的药物组合的基于神经网络的抗癌药物协同作用的预测方法。
[0005] 本发明为解决其技术问题所采用的技术方案是:
[0006] 一种基于神经网络的抗癌药物协同作用的预测方法,该方法是利用神经网络模型实现的,所述神经网络模型包含卷积神经网络CNN1D降维和神经网络DNN回归构建的预测模型,该方法的实施步骤为:
[0007] S1、搜集整合抗癌药物的化学特征和癌症细胞系的基因表达特征、基因突变特征、基因拷贝数变异特征,对应于已知的大规模药物组合筛选数据形成相应的二维张量;
[0008] S2、标准化步骤S1中的抗癌药物化学特征的二维张量,并将此二维张量输入到神经网络模型中输出一个特征维度的二维张量;
[0009] S3、标准化步骤S1中的癌症细胞系的基因表达特征的二维张量,并将此二维张量输入到神经网络模型中输出一个特征维度的二维张量;
[0010] S4、将步骤S1中的基因突变特征、基因拷贝数变异特征使用one-hot编码并形成相应的二维张量;
[0011] S5、将步骤S4中的二维张量输入到神经网络模型中输出特征维度的二维张量;
[0012] S6、将步骤S2、S3和S5中产生的特征二维张量进行连接合并,将整合后的二维张量输入到神经网络模型中进行深度学习训练;
[0013] S7、对步骤S2-S6中构建的各种神经网络模型进行优化调整参数,验证模型;
[0014] 进一步的,所述步骤S1中整合抗癌药物的化学特征和癌症细胞系的基因表达特征、基因突变特征、基因拷贝数变异特征是从互联网公开的数据库中搜集的;
[0015] 更进一步的,所述步骤S1中的二维张量为药物A-药物B和药物B-药物A的化学特征二维张量、基因表达特征二维张量、基因突变特征二维张量、基因拷贝数变异特征二维张量;
[0016] 所述步骤S2中还需共享药物组合中不同抗癌药物化学特征的DNN层权重,输出的为特征维度为2048的二维张量;
[0017] 具体的,所述步骤S3中的神经网络模型为卷积神经网络CNN1D降维模型;
[0018] 所述二维张量输入到基因表达特征的卷积神经网络CNN1D降维模型中,还需要连接一个密集连接层DNN层;
[0019] 其中,所述步骤S4中癌症细胞系基因突变数据和基因拷贝数变异数据是文本格式;
[0020] 所述步骤S5中的特征维度的二维张量分别为256的二维张量和128的二维张量;
[0021] 所述步骤S6中的神经网络模型为3层锥形神经网络DNN回归模型。
[0022] 工作原理:通过卷积神经网络CNN1D对基因表达特征降维、通过神经网络DNN对基因突变特征和基因拷贝数变异特征降维,将降维后数据特征的二维张量连接合并,然后采用3层锥形结构神经网络DNN模型构建药物组合在癌症细胞系上协同作用的预测模型。
[0023] 本发明的优点在于:利用卷积神经网络CNN1D降维和神经网络DNN回归构建的预测模型,能更加方便、快速降低数据的维度,减少模型训练的复杂度;该方法能够从多维度特征学习抗癌药物的潜在协同关系,其预测模型的预测精度高,可以帮助临床实验减少时间和金钱成本,快速定位有效的药物组合。

附图说明

[0024] 图1是本发明提出的一种基于神经网络的抗癌药物协同作用的预测方法中神经网络预测模型的结构图。
[0025] 图2是相同药物组合的不同药物顺序结果图。
[0026] 图3是模型在测试集上的ROC(受试者工作特征)曲线。
[0027] 图4是模型在测试集上的预测结果图。
[0028] 其中,图1中input1和input2表示第一种药物和第二种药物的化学特征的输入、input3表示癌症细胞系的基因表达特征的输入、inpu4表示癌症细胞系的基因突变特征的输入、input5表示癌症细胞系的基因拷贝数变异特征的输入、InputLayer代表输入层、Conv1D代表卷积CNN1D层、Flatten代表展平层、Dense代表DNN层、Dropout代表随机失活层;图2中X轴代表药物A-药物B-细胞系的协同作用值、Y轴代表药物B-药物A-细胞系的协同作用值、Pearson代表相同药物组合的不同药物顺序之间的皮尔逊系数;图3中X轴False Positive Rate是假正例率、Y轴True Positive Rate是真正例率、AUC代表曲线下的面积;
图4中X轴代表实验测得的协同作用值、Y轴代表模型预测的协同作用值。

具体实施方式

[0029] 为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合图示与具体实施例,进一步阐述本发明。
[0030] 参照图1至图4所示,该一种基于神经网络的抗癌药物协同作用的预测方法,该方法是利用神经网络模型实现的,所述神经网络模型包含卷积神经网络CNN1D降维和神经网络DNN回归构建的预测模型,该方法的实施步骤为:
[0031] 步骤S1,从互联网公开数据库搜集整合抗癌药物的化学特征和癌症细胞系的基因表达特征、基因突变特征、基因拷贝数变异特征,对应于已知的大规模药物组合筛选数据(药物组合-细胞系-协同作用值),形成药物A-药物B和药物B-药物A的化学特征二维张量、基因表达特征二维张量、基因突变特征二维张量、基因拷贝数变异特征二维张量;
[0032] 步骤S2,标准化抗癌药物化学特征的二维张量,然后将二维张量输入到药物的神经网络模型中,并且共享药物组合中不同抗癌药物化学特征的DNN层权重,最后输出为一个特征维度为2048的二维张量;
[0033] 步骤S3,标准化癌症细胞系基因表达特征二维张量,然后将二维张量输入到基因表达特征的卷积神经网络CNN1D降维模型中,再连接一个密集连接层DNN层,最后输出特征维度为4096的二维张量;
[0034] 步骤S4,癌症细胞系基因突变数据和基因拷贝数变异数据是文本格式,对其使用one-hot编码,形成基因突变特征和基因拷贝数变异特征二维张量;
[0035] 步骤S5,然后将步骤S4中的二维张量输入到各自的神经网络DNN模型中降维,最后分别输出特征维度为256和128的二维张量;
[0036] 步骤S6,将步骤S2、S3和S5中产生的特征二维张量进行连接合并,将整合后的二维张量输入到神经网络模型中进行深度学习训练;
[0037] S7、对步骤S2-S6中构建的各种神经网络模型进行优化调整参数,验证模型。
[0038] 其中,CNN1D降维一般包括下列步骤:
[0039] 第一步、对数据进行标准化处理。标准化处理即对数据张量的每个维度中的所有元素,减去其维度的均值,再除以每个维度的标准差,得到的新数据张量就是标准化后的数据
[0040] 第二步、因为卷积神经网络CNN1D只能处理样本为二维的数据,所以需要将样本向量变形为二维张量。
[0041] 第三步、将变形后的数据张量输入到卷积神经网络CNN1D降维模型中,优化调整参数。
[0042] 第四步、将降维后的样本数据再展平为一维数据。
[0043] 具体结果如表1和表2所示:
[0044]
[0045] 表1:模型在测试集上的回归性能
[0046] MSE是均方误差(mean squared error),MAE是平均绝对误差(Mean Absolute Deviation),Pearson  correlation是皮尔逊相关系数(Pearson  correlation coefficient),R2是决定系数(coefficient ofdetermination),Rank correlation是秩相关系数(Coefficient ofRank Correlation)。
[0047]模型 ACC ROC AUC PR AUC Kappa  
本发明 0.951 0.933 0.586 0.450  
现有技术 0.950 0.927 0.531 0.442  
[0048] 表2:模型在测试集上的分类性能
[0049] 分类性能的协同作用值阈值为30,协同作用值高于30的药物组合被认为是正类,低于30的药物组合被认为是拮抗的和低协同的。ACC是准确率(Accuracy),ROC AUC是ROC曲线下的面积(Receiver Operating Characteristic Area under Curve),PRAUC是PR曲线下的面积(Precision RecallArea under Curve),Kappa是kappa系数(Cohen's Kappa)。
[0050] 通过卷积神经网络CNN1D对基因表达特征降维、通过神经网络DNN对基因突变特征和基因拷贝数变异特征降维,将降维后数据特征的二维张量连接合并,然后采用3层锥形结构神经网络DNN模型构建药物组合在癌症细胞系上协同作用的预测模型。
[0051] 利用卷积神经网络CNN1D降维和神经网络DNN回归构建的预测模型,能更加方便、快速降低数据的维度,减少模型训练的复杂度;该方法能够从多维度特征学习抗癌药物的潜在协同关系,其预测模型的预测精度高,可以帮助临床实验减少时间和金钱成本,快速定位有效的药物组合。
[0052] 以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。