基于图神经网络模型预测药物互作所致肝毒性的方法转让专利

申请号 : CN202210717050.6

文献号 : CN114792574B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 季序我彭鑫鑫余丹阳郭雪娇

申请人 : 普瑞基准生物医药(苏州)有限公司普瑞基准科技(北京)有限公司北京普康瑞仁医学检验所有限公司

摘要 :

本发明公开了基于图神经网络模型预测药物互作所致肝毒性的方法,包括建立基于图神经网络的预测药物互作所致肝毒性的深度学习模型,基于所述深度学习模型进行药物互作所致肝毒性预测,其中,利用基于图神经网络构建的药物分子编码器对两个药物分子编码,通过全连接神经网络预测出两个药物互作所致肝毒性分数,根据预测出的肝毒性分数,判断上述两个药物联用是否会导致肝毒性出现。本发明不仅在一定程度上减少了药物联用临床前毒性研究开发的资金与时间投入,同时还能准确预测出药物联用时的药物互作肝毒性,避免了患者因联用多种药物对肝造成的损伤,减少了在开发新的治疗方案时不必要的药物联用临床实验,提高了临床实验的成功率。

权利要求 :

1.基于图神经网络模型预测药物互作所致肝毒性的方法,其特征在于,包括:S1,建立基于图神经网络的预测药物互作所致肝毒性的深度学习模型;

S2,基于所述深度学习模型进行药物互作所致肝毒性预测;

所述S1包括:

S11,获得建立所述深度学习模型的样本,对所述样本进行预处理获得样本数据;

S12,基于所述样本数据构建所述深度学习模型;

所述S11包括:

S111,从DrugBank数据库中获取药物数据;

S112,对所述药物数据进行处理,删除所述药物数据中的非小分子药物数据以及无法使用rdkit读取的药物数据,作为所述样本数据;

所述S12包括:

S121,深度学习模型训练,所述深度学习模型训练包括至少一轮,每一轮所述深度学习模型训练包括:(1)从所述样本数据中随机选取80%的样本数据作为训练集,剩余20%的样本数据作为测试集,所述训练集用于对所述深度学习模型进行训练,所述测试集用于对所述深度学习模型进行评估;

(2)利用基于图神经网络构建的药物分子编码器对所述样本数据进行编码,获得表示药物分子信息的300维表征向量;

(3)将所述样本数据中两个药物分子的表征向量相加,得到表征向量A;

(4)将所述样本数据中两个药物分子的表征向量相减,得到表征向量B;

(5)构建五层全连接神经网络作为所述深度学习模型,将所述表征向量A和所述表征向量B作为所述深度学习模型的输入,预测的肝毒性分数作为所述深度学习模型输出;

(6)以二分类交叉熵损失作为目标优化函数,使用Adam优化器作为下降方法,利用所述训练集中的数据训练所述深度学习模型;

S122,深度学习模型有效性验证,包括:

基于所述测试集中的数据验证所述深度学习模型的有效性,如果所述测试集中真实的肝毒性标签与预测药物肝毒性分数所得的受试者工作特征曲线下面积大于第一阈值,则继续步骤S123,其中,所述第一阈值为0.90;

S123,基于所述深度学习模型训练和深度学习模型有效性验证,得到最佳肝毒性分数阈值,从而获得深度学习模型,其中,所述最佳肝毒性分数阈值为0.822。

2.根据权利要求1所述的基于图神经网络模型预测药物互作所致肝毒性的方法,其特征在于,所述S2包括:使用药物分子编码器分别对预联用的两个药物进行编码,获得两个药物的表征向量,并基于两个药物的表征向量得到表征向量A与表征向量B,在训练好的五层全连接神经网络中,将向量A与向量B作为输入,输出两个药物预测的肝毒性分数,若预测的肝毒性分数大于等于最佳肝毒性分数阈值,则这两个药物互作会导致肝毒性;若预测的肝毒性分数小于最佳肝毒性分数阈值,则这两个药物互作不会导致肝毒性。

3.根据权利要求1所述的基于图神经网络模型预测药物互作所致肝毒性的方法,其特征在于,所述药物分子编码器选用SMILES格式编码器。

4.一种电子设备,包括处理器和存储器,其特征在于,所述存储器存储有多条指令,所述处理器用于读取所述多条指令并执行如权利要求1‑3任一所述的方法。

5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1‑3任一所述的方法。

说明书 :

基于图神经网络模型预测药物互作所致肝毒性的方法

技术领域

[0001] 本发明属于用于预测目的的数据处理技术领域,尤其涉及基于图神经网络模型预测药物互作所致肝毒性的方法。

背景技术

[0002] 目前,大量的药物在全球各地被批准上市。截止到2020年,美国FDA(美国食品药品监督管理局)已经批准了约3000种用于各种疾病治疗的药物。随着可用药物的日益增加,药物联用策略也成为新的治疗策略。很多研究表明,合适的药物联用策略可以产生1+1>2的治疗效果。药物联用策略可以在避免投入过大的新药研发成本的同时,达到治疗某种疾病的目的。但是于此同时,药物的联用也有可能产生出单个药物使用时没有出现的毒副作用。肝毒性是药物联用产生的最常见的毒性类型,在Drugbank数据库中有6026种药物在药物组合报告中显示联用会产生肝毒性。然而潜在的药物组合很多,如果都需要开展临床试验进行肝毒性的探索,不仅成本巨大,而且也会给患者带来很大的风险。此外,美国与欧洲20%的老年人群需要同时服用至少10种药物。据报道,药物副反应造成的死亡现已高达30万人每年,其中有很大一部分是由于药物互作产生的肝毒性所致肾衰竭肾损伤造成的。因此我们亟需一种可以预测药物组合产生肝毒性的方法,以避免对患者造成不必要的伤害。
[0003] 随着机器学习模型或者深度学习技术的发展,越来越多的科学规律可以通过深度学习的方法获得。截至目前,还没有在药物研制和生物实验方面与深度学习方法进行有效结合以解决药物互作产生肝毒性问题的解决方案。

发明内容

[0004] 为了解决现有技术中存在的问题,本发明的第一方面提供了如下技术方案,[0005] 基于图神经网络模型预测药物互作所致肝毒性的方法,包括:
[0006] S1,建立基于图神经网络的预测药物互作所致肝毒性的深度学习模型;
[0007] S2,基于所述深度学习模型进行药物互作所致肝毒性预测。
[0008] 进一步地,所述S1包括:
[0009] S11,获得建立所述深度学习模型的样本,对所述样本进行预处理获得样本数据;
[0010] S12,基于所述样本数据构建所述深度学习模型。
[0011] 进一步地,所述S11包括:
[0012] S111,从DrugBank中获取药物数据;
[0013] S112,对所述药物数据进行处理,删除所述药物数据中的非小分子药物数据以及无法使用rdkit读取的药物数据,作为所述样本数据。
[0014] 进一步地,所述S12包括:
[0015] S121,深度学习模型训练,所述深度学习模型训练包括一轮或者多轮,其中每一轮所述深度学习模型训练包括:
[0016] (1)从所述样本数据中随机选取80%的样本数据作为训练集,剩余20%的样本数据作为测试集,所述训练集用于对所述深度学习模型进行训练,所述测试集用于对所述深度学习模型进行评估;
[0017] (2)利用基于图神经网络构建的药物分子编码器对所述样本数据进行编码,获得表示药物分子信息的300维表征向量;
[0018] (3)将所述样本数据中两个药物分子的表征向量相加,得到表征向量A;
[0019] (4)将所述样本数据中两个药物分子的表征向量相减,得到表征向量B;
[0020] (5)构建5层全连接神经网络作为所述深度学习模型,将所述表征向量A和所述表征向量B作为所述深度学习模型的输入,预测的肝毒性分数作为所述深度学习模型输出;
[0021] (6)以二分类交叉熵损失作为目标优化函数,使用Adam(自适应矩估计)优化器作为下降方法,利用所述训练集中的数据训练所述深度学习模型;
[0022] S122,深度学习模型有效性验证,包括:
[0023] 基于所述测试集中的数据验证所述深度学习模型的有效性,如果所述测试集中真实的肝毒性标签与预测药物肝毒性分数所得的受试者工作特征曲线下面积大于第一阈值,则继续步骤S123;
[0024] S123,基于所述深度学习模型训练和所述深度学习模型有效性验证,得到最佳肝毒性分数阈值,从而获得深度学习模型。
[0025] 进一步地,所述第一阈值为0.90。
[0026] 进一步地,所述药物分子编码器选用SMILES格式编码器。
[0027] 进一步地,所述最佳肝毒性分数阈值为0.822。
[0028] 进一步地,所述S2包括:
[0029] 使用药物分子编码器分别对预联用的两个药物进行编码,获得两个药物的表征向量,并基于两个药物的表征向量得到表征向量A与表征向量B,在训练好的五层全连接神经网络中,将向量A与向量B作为输入,输出两个药物预测的肝毒性分数,若预测的肝毒性分数大于等于最佳肝毒性分数阈值,则这两个药物互作会导致肝毒性;若预测的肝毒性分数小于最佳肝毒性分数阈值,则这两个药物互作不会导致肝毒性。
[0030] 本发明的第二方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述多条指令并执行如第一方面所述的方法。
[0031] 本发明的第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
[0032] 本发明提供的基于图神经网络模型预测药物互作所致肝毒性的方法,具有如下有益效果:
[0033] 本发明通过建立基于图神经网络的预测药物互作所致肝毒性的深度学习模型,基于所述深度学习模型进行药物互作所致肝毒性预测,其中,利用基于图神经网络构建的药物分子编码器对两个药物分子编码,通过全连接神经网络预测出两个药物互作所致肝毒性分数,根据预测出的肝毒性分数,判断上述两个药物联用是否会导致肝毒性出现。本发明通过构建深度学习模型预测药物互作所致肝毒性,不仅可以减少不必要的临床实验,提高临床实验的成功率,还可以减少临床实验的投入,减少临床实验失败给患者带来的痛苦。

附图说明

[0034] 图1为本发明提供的基于图神经网络模型预测药物互作所致肝毒性的方法的流程示意图;
[0035] 图2为本发明提供的电子设备结构示意图。

具体实施方式

[0036] 为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
[0037] 本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
[0038] 处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
[0039] 存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read‑Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
[0040] 显示屏用于显示各个应用程序的用户界面。
[0041] 除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
[0042] 实施例一
[0043] 如图1所示,本实施例提供了基于图神经网络模型预测药物互作所致肝毒性的方法,具体的是预测Levofloxacin(左氧氟沙星)和Eliglustat(依利格鲁司特)两种药物组合使用是否存在药物互作所致肝毒性,进一步地,本实施例中所使用的软件依赖环境python3.8,pytorch1.4.0,rdkit2021.03.5,包括以下步骤:
[0044] S1,建立基于图神经网络的预测药物互作所致肝毒性的深度学习模型。
[0045] 具体地,S1包括:
[0046] S11,获得建立所述深度学习模型的样本,对所述样本进行预处理获得样本数据,包括:
[0047] S111,从DrugBank中获取药物数据;
[0048] S112,对所述药物数据进行处理,删除所述药物数据中的非小分子药物数据以及无法使用rdkit读取的药物数据,作为所述样本数据。
[0049] S12,基于所述样本数据构建所述深度学习模型,包括:
[0050] S121,深度学习模型训练,所述深度学习模型训练包括至少一轮,每一轮所述深度学习模型训练包括:
[0051] (1)从所述样本数据中随机选取80%的样本数据作为训练集,剩余20%的样本数据作为测试集,所述训练集用于对所述深度学习模型进行训练,所述测试集用于对所述深度学习模型进行评估;
[0052] (2)构建基于图神经网络的SMILES格式编码器,利用该编码器对所述样本数据进行编码,获得表示药物分子信息的300维表征向量,其中,具体操作如下:基于药物分子的每个原子的类型、连接键数目、形式电荷数、手性、sp杂化类型、芳香性、质量以及连接键的类型、共轭性以及是否在环内,使用独热编码,输入三层图神经网络中;
[0053] (3)将两个药物分子的表征向量相加,得到表征向量A;
[0054] (4)将两个药物分子的表征向量相减,得到表征向量B;
[0055] (5)构建五层全连接神经网络作为深度学习模型,将所述表征向量A和所述表征向量B作为深度学习模型的输入,预测的肝毒性分数作为深度学习模型的输出,其中,所述五层全连接神经网络包括输入层、第一层、第二层、第三层及输出层,具体参数如下:
[0056] 输入层:节点数600;
[0057] 第一层:节点数300,激活函数Relu,dropout比率为0.2;
[0058] 第二层:节点数300,激活函数Relu,dropout比率为0.2;
[0059] 第三层:节点数1,激活函数sigmoid;
[0060] (6)以二分类交叉熵损失作为目标优化函数,使用Adam优化器作为下降方法,利用所述训练集中的数据训练所述深度学习模型;
[0061] 其中,所述训练的批次大小的可选范围是56‑512,最优选为64。利用所述训练集中的数据训练x轮,x的可选范围是32‑256,最优选为50。
[0062] S122,深度学习模型有效性验证,包括:
[0063] 基于所述测试集中的数据验证所述深度学习模型的有效性,为保证深度学习模型的预测效果,如果所述测试集中真实的肝毒性标签与预测药物肝毒性分数所得的受试者工作特征曲线下面积大于第一阈值0.90,则继续步骤S123;经训练,所得受试者工作特征曲线下面积为0.932。
[0064] 在本实施例中,使用受试者工作特征曲线面积(AUC)来刻画深度学习模型的好坏,根据《Applied Logistic Regression》(2nd Ed. Chapter 5, John Wiley and Sons, New York, NY )中的结论,AUC为0.5表示模型没有预测能力,通常认为深度学习模型的AUC在0.7至0.8之间被认为是可接受的,在0.8至0.9之间被认为是优秀的,超过0.9被认为是杰出的。为了尽可能保证模型预测效果,本实施例选取0.9作为第一阈值。
[0065] S123,基于所述深度学习模型训练和深度学习模型有效性验证,深度学习模型在实际使用中需要一个平衡了模型敏感性和特异性的阈值来判断该药物组合是否会产生肝毒性。本实施例选取深度学习模型在测试集中假阳性率平方加上假阴性率平方的和中的最小值所对应的阈值作为最佳肝毒性分数阈值,得到最佳肝毒性分数阈值0.822,从而获得深度学习模型。
[0066] S2,基于所述深度学习模型进行药物Levofloxacin与药物Eliglustat联合使用时的药物互作所致肝毒性的预测。
[0067] 具体地,先使用之前构建的药物分子编码器对药物Levofloxacin与药物Eliglustat进行编码获得两个药物的表征向量,并基于这两个药物的表征向量得到表征向量A与表征向量B,再使用训练好的五层全连接神经网络,将向量A与向量B作为输入,输出药物Levofloxacin与药物Eliglustat预测的肝毒性分数为0.924,因为该预测肝毒性分数大于最佳肝毒性分数阈值0.822,因此,预测这两个药物联用会导致肝毒性出现。
[0068] 本发明还提供了一种计算机可读存储介质,所述存储介质存储有多条指令,所述多条指令用于实现如实施例一的方法。
[0069] 如图2所示,本发明还提供了一种电子设备,包括处理器201和与所述处理器201连接的存储器202,所述存储器202存储有多条指令,所述多条指令可被所述处理器201加载并执行,以使所述处理器201能够执行如实施例一的方法。
[0070] 尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。