一种药源性免疫性血小板减少毒性预测模型、方法及系统转让专利

申请号 : CN202311726212.3

文献号 : CN117438090B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 聂晓璐詹思延倪鑫孙凤彭晓霞

申请人 : 首都医科大学附属北京儿童医院北京大学

摘要 :

本发明提供了一种药源性免疫性血小板减少毒性预测模型、方法及系统,涉及计算化学技术领域,预测模型的构建方法主要包括:整合药源性血小板减少源数据库,构建第一数据库;对符合纳入排除标准的药物进行清洗筛选,得到第二数据库;生成多种类型的分子描述符;将第二数据库中的化合物按照预设比例随机划分为训练集和外部测试集;通过不同机器学习算法,构建、训练并测试QSAR分类模型;按照模型的评价参数进行排序,选择其中前N个QSAR分类模型组合成共识模型,用于预测药物或化合物是否具有DIIT毒性。本申请可以对药物或化合物是否具有药源性免疫性血小板减少毒性进行可靠预测,提升了相关药物的研制效率,降低了相关药物的使

权利要求 :

1.一种药源性免疫性血小板减少毒性预测模型,其特征在于,该预测模型的构建方法包括:步骤1、整合多种药源性血小板减少的源数据库,构建第一数据库;

步骤2、对符合药源性免疫性血小板减少纳入排除标准的药物进行清洗筛选,得到第二数据库;所述第二数据库包括警示结构信息及DIIT毒性标签,用于标记药源性免疫性血小板减少的毒性风险;

步骤3、基于各化合物的SMILES编码,生成分子描述符;所述分子描述符的类型包括one‑hot编码、分子图编码、分子指纹以及物理化学描述符;

步骤4、将第二数据库中的药物名称或化合物信息,按照预设比例分层并随机划分为训练集和外部测试集,其中DIIT阳性化合物与DIIT阴性化合物按相同比例分配至训练集和外部测试集中;分别计算训练集和外部测试集的分子量及脂水分配系数分布;

步骤5、针对不同类型分子描述符,分别通过不同机器学习方法,构建并训练QSAR分类模型,用于预测药物或化合物的DIIT毒性,具体包括:对于物理化学描述符和分子指纹,通过支持向量机或随机森林或极端梯度上升,构建QSAR分类模型;对于one‑hot编码,通过循环神经网络,构建QSAR分类模型;对于分子图编码,通过图卷积神经网络,构建QSAR分类模型;

步骤6、计算各QSAR分类模型的评价参数;按照评价参数进行排序,选择其中前N个QSAR分类模型组合成共识模型;其中,N为奇数;所述共识模型基于少数服从多数原则,输出药物或化合物关于DIIT毒性的预测结果;所述步骤6具体包括:步骤61、基于第二数据库中药物或化合物的DIIT毒性及QSAR分类模型的预测结果,构建四格表,用于反映真阳性、假阴性、真阴性及假阳性的样本数量;

步骤62、计算各QSAR分类模型的灵敏度SE、特异度SP、正确率ACC及马修斯相关系数MCC,具体公式为:;

其中,TP表示真阳性,即药物或化合物实际为DIIT阳性,且被QSAR分类模型预测为DIIT阳性的样本个数;FN表示假阴性,即药物或化合物实际为DIIT阳性,且被QSAR分类模型预测为DIIT阴性的样本个数;TN表示真阴性,即药物或化合物实际为DIIT阴性,且被QSAR分类模型预测为DIIT阴性的样本个数;FP表示假阳性,即药物或化合物实际为DIIT阴性,且被QSAR分类模型预测为DIIT阳性的样本个数;

步骤63、选择马修斯相关系数最接近1的N个QSAR分类模型,组合成共识模型;所述N为奇数;将该N个QSAR分类模型的预测结果进行计数统计,输出计数最多的预测结果。

2.根据权利要求1所述的预测模型,其特征在于,所述步骤2中的纳入排除标准包括:标准1、筛除抗肿瘤药与免疫调节药;

标准2、筛除蛋白类、抗体类、聚合物类、基因制剂及简单分子的化合物分子;

标准3、筛除盐类化合物,保留主体活性成分的骨架片段;

标准4、对具有多个分子的复合物,保留最大的骨架片段;

标准5、筛除具有重复分子式的药物。

3.根据权利要求1所述的预测模型,其特征在于,所述步骤4中的预设比例为DIIT阳性药物或化合物:DIIT阴性药物或化合物=4:1。

4.根据权利要求1所述的预测模型,其特征在于,还包括步骤64:构建N个QSAR分类模型的ROC曲线并计算曲线下面积AUC值,选择AUC值最接近1的M个QSAR分类模型组合成共识模型;其中,M为奇数;将该M个QSAR分类模型的预测结果进行计数统计,输出计数最多的预测结果。

5.根据权利要求1所述的预测模型,其特征在于,所述步骤6中的预测结果包括:预测概率及预测类别:当预测概率大于0.5时,则预测类别为DIIT阳性;当预测概率小于0.5时,则预测类别为DIIT阴性。

6.根据权利要求1所述的预测模型,其特征在于,该预测模型的构建方法还包括步骤7,针对不同类型分子描述符进行寻优筛选,具体包括:对分子指纹进行方差筛选,具体包括:

步骤a1、计算各分子指纹的方差;以方差为0开始,每增加0.01则进行一次QSAR分类模型建模并计算MCC值,直至方差达到预设方差;

步骤a2、筛选出MCC值最大的分子指纹;

对物理化学描述符进行Pearson相关性寻优筛选,具体包括:步骤b1、计算各物理化学描述符中对应于警示结构信息的标准偏差;

步骤b2、删除其中标准偏差为0的物理化学描述符;

步骤b3、基于Pearson相关性分析,计算两两描述符之间的Pearson相关系数并进行判断筛选:若Pearson相关系数的绝对值大于0.95,则保留其中与DIIT毒性相关性更高的物理化学描述符;

步骤b4、计算某个物理化学描述符与DIIT毒性之间的Pearson相关系数,若该Pearson相关系数的绝对值小于0.01,则删除该物理化学描述符;

描述符组合筛选,具体包括:

步骤c1、通过递归特征消除法或信息增益方式,为所有描述符排序;

步骤c2、通过依次增加物理化学描述符个数的方式,分别作为训练集进行QSAR分类模型训练,记录各训练集相应的MCC值;

步骤c3、筛选出MCC值最高的描述符组合。

7.根据权利要求6所述的预测模型,其特征在于,还包括步骤8,模型验证,具体包括:步骤81、通过十折交叉法,将训练集随机分为10份,每1份分别作为内部验证集,对单个QSAR分类模型进行内部交叉验证后,基于评价参数区分预测效果,寻优确定各个QSAR分类模型的超参数;

步骤82、对单个QSAR分类模型及共识模型,分别导入外部测试集进行验证,基于评价参数区分预测效果,寻优确定各个QSAR分类模型及共识模型的超参数;

步骤83、通过Y‑扰乱实验法,随机打乱训练集中DIIT毒性标签的顺序,执行步骤5 6,验~证各QSAR分类模型的性能下降情况;

步骤84、对QSAR分类模型进行治疗亚组药物置信度分析,具体包括:依据药物ATC编码第二级治疗亚组分类,将若干个化合物作为训练集;进行若干次十折交叉检验,分别计算各QSAR分类模型的亚组正确率;以共识模型的正确率为参照进行判定:当亚组正确率高于共识模型时,则定义当前的QSAR分类模型属于高置信度亚组;反之,则定义当前的QSAR分类模型属于低置信度亚组;迭代执行步骤84,直至高置信度亚组与低置信度亚组内的QSAR分类模型均为N个。

8.一种药源性免疫性血小板减少毒性预测方法,其特征在于,包括:采集药物名称或化合物信息,输入至如权利要求1 7中任一所述的预测模型,输出该药物或化合物关于药源性~免疫性血小板减少毒性的预测结果。

9.一种药源性免疫性血小板减少毒性预测系统,其特征在于,包括数据接收模块、数据处理模块及结果生成模块:所述数据接收模块,用于接收药物名称或化合物信息;

所述数据处理模块,包括模型单元及预测单元:

所述模型单元,存储如权利要求1 7中任一所述的预测模型;

~

所述预测单元,调用预测模型,输入药物名称或化合物信息,得到关于药源性免疫性血小板减少毒性的预测结果;

所述结果生成模块,用于将预测结果外发。

说明书 :

一种药源性免疫性血小板减少毒性预测模型、方法及系统

技术领域

[0001] 本发明涉及计算化学技术领域,尤其是涉及一种药源性免疫性血小板减少毒性预测模型、方法及系统。

背景技术

[0002] 药物往往会带有一定毒性,有一种毒性会造成药源性血小板减少(即DITP),其中药源性免疫性血小板减少(即DIIT)作为一种容易被忽视的药物不良反应,初期不易引起患者关注,但到后期会对人体造成巨大伤害,若不及时识别和干预,可引起严重出血并发症,甚至死亡等严重后果。因此,若可以在研发药物时或使用药物时,就可以预测出该药物是否具有免疫性血小板减少毒性(DIIT毒性,即DIIT高风险),将在避免患者自发性出血、创伤性出血等并发症的风险增加方面带来巨大帮助。而且,临床医生或药师如能及早识别可引起DIIT风险的药物,并在用药过程中开展血小板监测,将进一步提高临床用药安全。
[0003] 目前,少有血液病专业实验室可以对DIIT发生时所产生的药物依赖性血小板抗体进行检测;另一方面,药物依赖性血小板抗体检测周期长、投入大,且实验检测条件要求高,所以难于广泛推广;而利用多种机器学习(如神经网络模型、图神经网络等深度学习)模型对药物毒性进行预测,虽然取得一定进展,但在DIIT毒性领域的研究还处于空白。

发明内容

[0004] 本发明的目的在于提供一种药源性免疫性血小板减少毒性预测模型、方法及系统,以解决现有技术中存在的至少一种上述技术问题。
[0005] 第一方面,为解决上述技术问题,本发明提供了一种药源性免疫性血小板减少毒性预测模型,该预测模型的构建方法包括如下步骤:
[0006] 步骤1、整合多种药源性血小板减少的源数据库,构建第一数据库;
[0007] 步骤2、对符合药源性免疫性血小板减少纳入排除标准的药物进行清洗筛选,得到第二数据库;所述第二数据库包括警示结构信息(例如警示基团等)及DIIT毒性标签,用于标记药源性免疫性血小板减少的毒性风险;
[0008] 步骤3、基于各化合物的SMILES编码,生成分子描述符,这样可以将化合物的二维结构转化为可存储化合物结构和化学性质的字符串,以便后序在第二数据库中计算、存储和检索;所述分子描述符的类型包括one‑hot编码、分子图编码、分子指纹以及物理化学描述符等;
[0009] 步骤4、将第二数据库中的药物名称或化合物,按照预设比例分层并随机划分为训练集和外部测试集,其中DIIT阳性(高风险)药物或化合物与DIIT阴性(低风险)药物或化合物按相同比例分配至训练集和外部测试集中;分别计算训练集和外部测试集的分子量(MW)及脂水分配系数(XlogP)分布,用于评价训练集与外部测试集的化学空间覆盖度;
[0010] 步骤5、针对不同类型分子描述符,分别通过不同机器学习算法,构建并训练QSAR分类模型,用于预测药物或化合物的DIIT毒性,以便使不同的机器学习算法分别适用于不同类型的分子描述符,具体包括:对于物理化学描述符和分子指纹,通过支持向量机(support vector machines, SVM)、随机森林(random forest, RF)以及极端梯度上升(eXtreme Gradient Boosting, XGBoost)等算法,构建QSAR分类模型;对于one‑hot编码,通过深度学习的循环神经网络(recurrent neural network, RNN)算法,构建QSAR分类模型;对于分子图编码,通过深度学习的图卷积神经网络(graph neural network,GCN)算法,构建QSAR分类模型;
[0011] 所述QSAR是指定量的构效关系,用于描述分子结构和分子的某种生物活性之间的关系;
[0012] 步骤6、计算各QSAR分类模型的评价参数,评价QSAR分类模型的预测效果;按照评价参数进行排序,选择其中前N个QSAR分类模型组合成共识模型;所述N为奇数;所述共识模型基于少数服从多数原则,输出药物或化合物关于DIIT毒性的预测结果;
[0013] 通过上述方法,可以全面、有效地构建出针对药源性免疫性血小板减少毒性进行预测的深度学习模型,用于后续预测。
[0014] 在一种可行的实施方式中,所述步骤2中的纳入排除标准包括:
[0015] 标准1、筛除抗肿瘤药与免疫调节药,这样可以剔除公认具有非免疫性血小板减小毒性(由于骨髓抑制所引起)的常见药物,例如ATC编码为L01类的药物;
[0016] 标准2、筛除蛋白类、抗体类、聚合物类、基因制剂及简单分子等化合物分子;
[0017] 标准3、筛除盐类化合物,保留主体活性成分的骨架片段;
[0018] 标准4、对具有多个分子的复合物,保留最大的骨架片段;
[0019] 标准5、筛除具有重复分子式的药物。
[0020] 通过上述标准,可以有效减少数据干扰噪声及冗余信息、降低后序数据处理规模,提升后序数据处理效率。
[0021] 在一种可行的实施方式中,所述步骤1中第一数据库构建过程具体包括:
[0022] 步骤11、选择现有药物信息数据库作为源数据库,包括:SIDER4.1数据库、OnSIDES v2.0.0数据库、上市药品目录集数据库(中国)、DITP(药源性血小板减少)文献库,DIIT抗体DDAbs检测数据库(美国血液学实验室)及OffSIDES数据库(美国FDA自发呈报系统信号挖掘后汇总的潜在安全风险信号数据库);
[0023] 步骤12、将各源数据库中药物的商品名进行通用名转换;排除非药物类别(如膳食补充剂、食物等);排除纯外用药;以便将数据范围缩小至经口和/或静脉使用的药物范畴,同时减小药物代谢影响;
[0024] 步骤13、合并源数据库:先将基于药物说明书的源数据库,例如SIDER4.1数据库、OnSIDES v2.0.0数据库及上市药品目录集数据库等进行合并;再将DIIT抗体DDAbs检测数据库、DITP文献库及OffSIDES数据库等,依次进行合并;在合并各数据库时,筛选重叠药物并进行血小板减少风险属性一致性检查,判断重叠药物对其血小板减少风险属性是否一致:若一致,则删除该重叠药物;若不一致,则保留该重叠药物;这样可以简化第一数据库的规模,并将说明书信息差异以及药物上市后的个案信息,尽量无遗漏地补充进第一数据库,使第一数据库包含有关血小板减少风险的全面药物信息;
[0025] 步骤14、对第一数据库中药物的有效活性成分进行筛查,若有效活性成分对应不同的酸或盐,则保留有效活性成分的本体药物,删除其对应的酸盐或金属盐;
[0026] 步骤15、删除单独的金属类药物及复方药物,这样便于第一数据库进行后续高通量技术处理。
[0027] 通过上述步骤,可以形成包括药源性血小板减少毒性全面信息的第一数据库。
[0028] 在一种可行的实施方式中,所述步骤4中的预设比例为DIIT阳性药物或化合物:DIIT阴性药物或化合物=4:1。
[0029] 在一种可行的实施方式中,所述步骤5中的分子描述符具体如下表所示:
[0030]
[0031] 其中,手性是指手性分子与其镜像不重合的特性。
[0032] 在一种可行的实施方式中,所述步骤5中的每种机器学习算法,均需依次对MACCS、ECFP4、CORINA、RDKit、MACCS+CORINA及ECFP4+CORINA进行测试,以便寻优得到与分子描述符相适合的机器学习算法。
[0033] 在一种可行的实施方式中,所述步骤5中训练各QSAR分类模型时还包括超参数寻优,以便得到最优参数,具体的寻优方法及最优参数如下表所示:
[0034]
[0035] 在一种可行的实施方式中,所述步骤6包括:
[0036] 步骤61、基于第二数据库中药物名称或化合物的DIIT毒性及QSAR分类模型的预测结果,构建四格表,如下所示:
[0037]
[0038] 其中,TP(1 Positive)表示真阳性,即药物或化合物实际为DIIT阳性,且被QSAR分类模型预测为DIIT阳性的样本个数;TN(1 Negative)表示真阴性,即药物或化合物实际为DIIT阴性,且被QSAR分类模型预测为DIIT阴性的样本个数;FP(0 Positive)表示假阳性,即药物或化合物实际为DIIT阴性,且被QSAR分类模型预测为DIIT阳性的样本个数;FN(0 Negative)表示假阴性,即药物或化合物实际为DIIT阳性,且被QSAR分类模型预测为DIIT阴性的样本个数;
[0039] 步骤62、计算各QSAR分类模型的灵敏度(sensitivity,SE)、特异度(specificity,SP)、正确率(accuracy,ACC)及马修斯相关系数(即MCC),具体公式可以为:
[0040] ;
[0041] ;
[0042] ;
[0043] ;
[0044] 其中,灵敏度用于反映QSAR分类模型对DIIT阳性的预测正确率;特异度用于反映QSAR分类模型对DIIT阴性的预测正确率;正确率和马修斯相关系数分别用于综合反映QSAR分类模型的预测效果,数值越接近1,则预测效果越好;
[0045] 步骤63、选择马修斯相关系数最接近1的N个QSAR分类模型,组合成共识模型;所述N为奇数;将该N个QSAR分类模型的预测结果进行计数统计,输出计数最多的预测结果。
[0046] 在一种可行的实施方式中,还包括步骤64:构建N个QSAR分类模型的ROC曲线并计算曲线下面积AUC值,选择AUC值最接近1的M个QSAR分类模型组合成共识模型;所述M为奇数;将该M个QSAR分类模型的预测结果进行计数统计,输出计数最多的预测结果。
[0047] 在一种可行的实施方式中,所述步骤6中的预测结果包括:预测概率及预测类别:当预测概率大于0.5时,则预测类别为DIIT阳性(高风险);当预测概率小于0.5时,则预测类别为DIIT阴性(低风险)。
[0048] 在一种可行的实施方式中,还包括步骤7:针对不同类型分子描述符进行寻优筛选,具体包括:
[0049] 对分子指纹进行方差筛选,具体包括:
[0050] 步骤a1、计算各分子指纹的方差;以方差为0开始,每增加0.01则进行一次QSAR分类模型建模并计算MCC值,直至方差达到预设方差;
[0051] 步骤a2、筛选出MCC值最大的分子指纹。
[0052] 通过上述方法,可以筛选出预测效果最优的分子指纹类描述符。
[0053] 在一种可行的实施方式中,所述步骤7中还包括对物理化学描述符进行Pearson相关性寻优筛选,具体包括:
[0054] 步骤b1、计算各物理化学描述符中对应于警示结构信息的标准偏差;
[0055] 步骤b2、删除其中标准偏差为0的物理化学描述符;
[0056] 步骤b3、基于Pearson相关性分析(Pearson Correlation Coefficient),计算两两描述符之间的Pearson相关系数并进行判断筛选:若Pearson相关系数的绝对值大于预设阈值,则保留其中与DIIT毒性相关性更高的物理化学描述符;
[0057] 步骤b4、计算某个物理化学描述符与DIIT毒性之间的Pearson相关系数,若该Pearson相关系数的绝对值小于预设阈值,则删除该物理化学描述符。
[0058] 通过上述方法,可以筛选出预测效果最佳的物理化学描述符。
[0059] 在一种可行的实施方式中,所述步骤7中还包括描述符组合筛选,具体包括:
[0060] 步骤c1、通过递归特征消除法或者信息增益IG方式为所有描述符排序;
[0061] 步骤c2、通过依次增加物理化学描述符个数的方式,分别作为训练集进行QSAR分类模型训练,记录各训练集相应的MCC值;
[0062] 步骤c3、筛选出MCC值最高的描述符组合。
[0063] 通过上述方法,可以筛选出预测效果最优的描述符组合。
[0064] 在一种可行的实施方式中,还包括步骤8,模型验证,具体包括:
[0065] 步骤81、通过十折交叉法,将训练集随机分为10份,每1份分别作为内部验证集,对单个QSAR分类模型进行内部交叉验证后,基于评价参数区分预测效果,寻优确定各个QSAR分类模型的超参数;
[0066] 步骤82、对单个QSAR分类模型及共识模型,分别导入外部测试集进行验证,基于评价参数区分预测效果,寻优确定各个QSAR分类模型及共识模型的超参数;
[0067] 步骤83、通过Y‑扰乱(Y‑randomization)实验法,随机打乱训练集中DIIT毒性标签的顺序,执行步骤5 6,验证各QSAR分类模型的性能下降情况。~
[0068] 在一种可行的实施方式中,还包括步骤84,对QSAR分类模型进行治疗亚组药物置信度分析,具体包括:依据药物ATC编码第二级治疗亚组分类,将若干个化合物作为训练集;进行若干次十折交叉检验,分别计算各QSAR分类模型的亚组正确率;以共识模型的正确率为参照进行判定:当亚组正确率高于共识模型时,则定义当前的QSAR分类模型属于高置信度亚组;反之,则定义当前的QSAR分类模型属于低置信度亚组;迭代执行步骤84,直至高置信度亚组与低置信度亚组内的QSAR分类模型均为N个;这样可以进一步了解QSAR分类模型在各治疗亚组药物中的预测效果,确定是否存在潜在价值差异。
[0069] 第二方面,基于相同的发明构思,本申请还提供了一种药源性免疫性血小板减少毒性预测方法包括:采集药物名称或化合物信息,输入至前述的预测模型,输出该药物或化合物是否具有药源性免疫性血小板减少毒性的预测结果。
[0070] 第三方面,基于相同的发明构思,本申请还提供了一种药源性免疫性血小板减少毒性预测系统,包括数据接收模块、数据处理模块及结果生成模块:
[0071] 所述数据接收模块,用于接收药物名称或化合物信息;
[0072] 所述数据处理模块,包括模型单元及预测单元:
[0073] 所述模型单元,存储有上述的药源性免疫性血小板减少毒性预测模型;
[0074] 所述预测单元,调用所述的药源性免疫性血小板减少毒性预测模型,输入药物名称或化合物信息,得到预测结果;
[0075] 所述结果生成模块,用于将预测结果外发。
[0076] 采用上述技术方案,本发明具有如下有益效果:
[0077] 本发明提供的一种药源性免疫性血小板减少毒性预测模型、方法及系统,可以对药物或化合物是否具有药源性免疫性血小板减少毒性进行可靠预测,提升了相关药物的研制效率,降低了相关药物的使用风险。

附图说明

[0078] 为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0079] 图1为本发明实施例提供的一种药源性免疫性血小板减少毒性预测模型构建方法流程图;
[0080] 图2为本发明实施例提供的四种分子描述符的类型例图;
[0081] 图3为图1中步骤6的流程图;
[0082] 图4为本发明实施例提供的对分子指纹进行方差筛选的流程图;
[0083] 图5为本发明实施例提供的对物理化学描述符进行Pearson相关性寻优筛选的流程图;
[0084] 图6为本发明实施例提供的描述符组合筛选的流程图;
[0085] 图7为本发明实施例提供的模型验证的方法流程图;
[0086] 图8为本发明实施例提供的一种药源性免疫性血小板减少毒性预测系统图。

具体实施方式

[0087] 下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0088] 在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0089] 在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0090] 下面结合具体的实施方式对本发明做进一步的解释说明。
[0091] 还需要说明的是,下述具体实施例或具体实施方式,是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式,而这些设置方式之间均是可以相互结合或者相互关联使用的。
[0092] 实施例一:
[0093] 如图1所示,本实施例提供了一种药源性免疫性血小板减少毒性预测模型,该预测模型的构建方法包括如下步骤:
[0094] 步骤1、整合多种药源性血小板减少的源数据库,构建第一数据库;
[0095] 步骤2、对符合药源性免疫性血小板减少纳入排除标准的药物进行清洗筛选,得到第二数据库;所述第二数据库包括警示结构信息(例如警示基团等)及DIIT毒性标签,用于标记药源性免疫性血小板减少的毒性风险;
[0096] 步骤3、基于各化合物的SMILES编码(全称是Simplified Molecular Input Line Entry System,是一种用于输入和表示分子结构的规范线性符号,是一种ASCII编码,包括可以体现药物立体化学和同位素规格的isomeric SMILES编码),生成分子描述符,这样可以将化合物的二维结构转化为可存储化合物结构和化学性质(如原子、化学键和芳香烃等)的字符串,以便后序在第二数据库中计算、存储和检索;所述分子描述符的类型包括one‑hot编码、分子图编码、分子指纹以及物理化学描述符,如图2所示;所述one‑hot编码属于现有技术,如图2中左上角的图案所示,采用多位状态寄存器来对多个状态进行编码,每个状态具有独立的寄存器位,并且在任意时候只有一位有效;所述分子图编码属于现有技术,如图2中右上角的图案所示,结合图神经网络算法,可对分子中的节点或边进行表示学习;所述分子指纹属于现有技术,如图2中左下角的图案所示,是一种使用“1”表示某指纹片段存在,使用“0”表示该指纹片段不存在的标记形式;所述物理化学描述符属于现有技术,如图2中右下角的图案所示,可用于表示化合物的拓扑、几何、静电和其他物理化学特征;
[0097] 步骤4、将第二数据库中的药物名称或化合物,按照预设比例分层并随机划分为训练集和外部测试集,其中DIIT阳性(高风险)药物或化合物与DIIT阴性(低风险)药物或化合物按相同比例分配至训练集和外部测试集中;分别计算训练集和外部测试集的分子量(MW)及脂水分配系数(XlogP)分布,用于评价训练集与外部测试集的化学空间覆盖度;
[0098] 步骤5、针对不同类型分子描述符,分别通过不同机器学习算法,构建并训练QSAR分类模型,用于预测药物或化合物的DIIT毒性,以便使不同的机器学习算法分别适用于不同类型的分子描述符,具体包括:对于物理化学描述符和分子指纹,通过支持向量机(support vector machines, SVM)、随机森林(random forest, RF)以及极端梯度上升(eXtreme Gradient Boosting, XGBoost)等算法,构建QSAR分类模型;对于one‑hot编码,通过深度学习的循环神经网络(recurrent neural network, RNN)算法,构建QSAR分类模型;对于分子图编码,通过深度学习的图卷积神经网络(graph neural network,GCN)算法,构建QSAR分类模型;
[0099] 所述QSAR是指定量的构效关系,用于描述分子结构和分子的某种生物活性之间的关系;
[0100] 所述支持向量机,属于现有技术,其学习的关键在于距离度量模型的选择;
[0101] 所述随机森林,属于现有技术,是一种综合判别模型,其基本单元是决策树,每棵决策树分别依据自变量对数据进行分类,最终由所有决策树综合决定数据的最终分类;
[0102] 所述极端梯度上升,属于现有技术,是一个开源的梯度提升框架,可以通过迭代多个弱学习器提升模型的性能;
[0103] 所述循环神经网络,属于现有技术,是深度学习神经网络算法中的一种,其前向计算法与全连接神经网络类似,由3个部分组成:输入层,多个隐藏层和输出层;
[0104] 所述图卷积神经网络,属于现有技术,其输入为具有节点和边特征的图,包括一个既依赖于特征又依赖于图结构的函数;
[0105] 步骤6、计算各QSAR分类模型的马修斯相关系数(即MCC)等评价参数,评价QSAR分类模型的预测效果;按照马修斯相关系数值进行排序,选择其中前N个QSAR分类模型组合成共识模型;所述N为奇数;所述共识模型基于少数服从多数原则,输出药物或化合物关于DIIT毒性的预测结果;
[0106] 通过上述方法,可以全面、有效地构建出针对药源性免疫性血小板减少毒性进行预测的深度学习模型,用于后续预测。
[0107] 进一步地,所述步骤2中的纳入排除标准包括:
[0108] 标准1、筛除抗肿瘤药与免疫调节药,这样可以剔除公认具有非免疫性血小板减小毒性(由于骨髓抑制所引起)的常见药物,例如ATC编码为L01类的药物;
[0109] 标准2、筛除蛋白类、抗体类、聚合物类、基因制剂及简单分子(例如NO)等化合物分子;
[0110] 标准3、筛除盐类化合物,保留主体活性成分的骨架片段;
[0111] 标准4、对具有多个分子的复合物,保留最大的骨架片段;
[0112] 标准5、筛除具有重复分子式的药物。
[0113] 通过上述标准,可以有效减少数据干扰噪声及冗余信息、降低后序数据处理规模,提升后序数据处理效率。
[0114] 进一步地,所述步骤1中第一数据库构建过程具体包括:
[0115] 步骤11、选择现有药物信息数据库作为源数据库,包括:SIDER4.1数据库、OnSIDES v2.0.0数据库、上市药品目录集数据库(中国)、DITP(药源性血小板减少)文献库,DIIT抗体DDAbs检测数据库(美国血液学实验室)及OffSIDES数据库(美国FDA自发呈报系统信号挖掘后汇总的潜在安全风险信号数据库);
[0116] 步骤12、将各源数据库中药物的商品名进行通用名转换;排除非药物类别(如膳食补充剂、食物等);排除纯外用药;以便将数据范围缩小至经口和/或静脉使用的药物范畴,同时减小药物代谢影响;
[0117] 步骤13、合并源数据库:先将基于药物说明书的源数据库,包括SIDER4.1数据库(1400种,604/796)、OnSIDES v2.0.0数据库(1091种,431/660)及中国上市药品目录集(CDE‑DITP,560种,282/278)数据库进行合并;再将DIIT抗体DDAbs检测数据库(112/144)、Geo‑DITP文献库(346/37)及OffSIDES FAERS数据库(65/0),依次进行合并;在合并各数据库时,筛选重叠药物并进行血小板减少风险属性一致性检查,判断重叠药物对其血小板减少风险属性是否一致:若一致,则删除该重叠药物;若不一致,则保留该重叠药物;这样可以简化第一数据库的规模,并将不同国家的药物说明书信息差异以及药物上市后的个案信息,尽量无遗漏地补充进第一数据库,使第一数据库包含有关血小板减少风险的全面药物信息;
[0118] 步骤14、对第一数据库中药物的有效活性成分进行筛查,若有效活性成分对应不同的酸或盐,则保留有效活性成分的本体药物,删除其对应的酸盐或金属盐;
[0119] 步骤15、删除单独的金属类药物及复方药物,这样便于第一数据库进行后续高通量技术处理。
[0120] 通过上述步骤,可以形成包括药源性血小板减少毒性全面信息的第一数据库(DITPst,1765种,858/907)。
[0121] 进一步地,所述步骤4中的预设比例为DIIT阳性药物或化合物:DIIT阴性药物或化合物=4:1。
[0122] 进一步地,所述分子量可以通过CORINA Symphony 程序计算;所述脂水分配系数可以通过CORINA Symphony 程序计算。
[0123] 进一步地,所述步骤5中的分子描述符具体如下表所示:
[0124]
[0125] 其中,手性是指手性分子与其镜像不重合的特性。
[0126] 进一步地,所述步骤5中的每种机器学习算法,均需依次对MACCS、ECFP4、CORINA、RDKit、MACCS+CORINA及ECFP4+CORINA进行测试,以便寻优得到与分子描述符相适合的机器学习算法。
[0127] 进一步地,所述步骤5中训练各QSAR分类模型时还包括超参数寻优,以便得到最优参数,具体的寻优方法及最优参数如下表所示:
[0128]
[0129] 进一步地,所述支持向量机及所述随机森林可以由Python系统的scikit‑learn程序库构建;所述极端梯度上升可以由XGBoost程序库构建;所述循环神经网络及所述图卷积神经网络可以由PyTorch系统建立。
[0130] 进一步地,当所述循环神经网络的输入层输入CORINA或MACCS描述符时,其输入层的神经元个数为描述符的个数,例如CORINA描述符是117个,MACCS描述符是166个;将隐藏层设置为5层,隐藏层的神经元个数依次为128、64、32、16和8;隐藏层之间设置有激活函数,所述激活函数为Tanh函数和ReLU函数;输出层的神经元个数为2,即DIIT阳性及DIIT阴性。
[0131] 进一步地,如图3所示,所述步骤6包括:
[0132] 步骤61、基于第二数据库中化合物的DIIT毒性及QSAR分类模型的预测结果,构建四格表,如下所示:
[0133]
[0134] 其中,TP(1 Positive)表示真阳性,即药物或化合物实际为DIIT阳性,且被QSAR分类模型预测为DIIT阳性的样本个数;TN(1 Negative)表示真阴性,即药物或化合物实际为DIIT阴性,且被QSAR分类模型预测为DIIT阴性的样本个数;FP(0 Positive)表示假阳性,即药物或化合物实际为DIIT阴性,且被QSAR分类模型预测为DIIT阳性的样本个数;FN(0 Negative)表示假阴性,即药物或化合物实际为DIIT阳性,且被QSAR分类模型预测为DIIT阴性的样本个数;
[0135] 步骤62、计算各QSAR分类模型的灵敏度(sensitivity,SE)、特异度(specificity,SP)、正确率(accuracy,ACC)及马修斯相关系数(即MCC),具体公式可以为:
[0136] ;
[0137] ;
[0138] ;
[0139] ;
[0140] 其中,灵敏度用于反映QSAR分类模型对DIIT阳性的预测正确率;特异度用于反映QSAR分类模型对DIIT阴性的预测正确率;正确率和马修斯相关系数分别用于综合反映QSAR分类模型的预测效果,数值越接近1,则预测效果越好;
[0141] 步骤63、选择马修斯相关系数最接近1的N个QSAR分类模型,组合成共识模型;所述N为奇数;将该N个QSAR分类模型的预测结果进行计数统计,输出计数最多的预测结果。
[0142] 优选地,所述N为3。
[0143] 进一步地,还包括步骤64:构建N个QSAR分类模型的ROC曲线并计算曲线下面积AUC值,选择AUC值最接近1的M个QSAR分类模型组合成共识模型;所述M为奇数;将该M个QSAR分类模型的预测结果进行计数统计,输出计数最多的预测结果;所述ROC曲线,是以假阳性率(0 Positive Rate, FPR)为横坐标,以真阳性率(1 Positive Rate,TPR)为纵坐标构成的曲线图,用于进一步评价分类模型的预测能力,当正负样本不平衡时,ROC曲线比正确率及马修斯相关系数更好地判断分类模型的预测能力;所述AUC值表示ROC曲线与横纵坐标所围的面积,其取值范围为0 1,当AUC值越接近1时,则分类模型的预测效果越好。~
[0144] 进一步地,所述步骤6中的预测结果包括:预测概率及预测类别:当预测概率大于0.5时,则预测类别为DIIT阳性(高风险);当预测概率小于0.5时,则预测类别为DIIT阴性(低风险)。
[0145] 进一步地,当所述步骤6中的N等于3时,少数服从多数原则是指:当3个QSAR分类模型均判断药物或化合物为DIIT阳性时,记录DIIT阳性的数量为3个,DIIT阴性的数量为0个,则共识模型的预测结果为DIIT阳性;当3个QSAR分类模型中有1个QSAR分类模型判断药物或化合物为DIIT阳性,其余2个QSAR分类模型判断药物或化合物为DIIT阴性时,记录DIIT阳性的数量为1个,DIIT阴性的数量为2个,则共识模型的预测结果为DIIT阴性。
[0146] 进一步地,还包括步骤7,针对不同类型分子描述符进行寻优筛选,具体包括:
[0147] 对分子指纹进行方差筛选,如图4所示,具体包括:
[0148] 步骤a1、计算各分子指纹的方差;以方差为0开始,每增加0.01则进行一次QSAR分类模型建模并计算MCC值,直至方差达到预设方差;
[0149] 步骤a2、筛选出MCC值最大的分子指纹。
[0150] 通过上述方法,可以筛选出预测效果最优的分子指纹类描述符。
[0151] 进一步地,所述步骤a1中预设方差为0.5,这样可以进行50次计算,最终从50个MCC值中筛选出预测效果最佳的分子指纹。
[0152] 进一步地,所述步骤7中还包括对物理化学描述符进行Pearson相关性寻优筛选,如图5所示,具体包括:
[0153] 步骤b1、计算各物理化学描述符中对应于警示结构信息的标准偏差;
[0154] 步骤b2、删除其中标准偏差为0的物理化学描述符;
[0155] 步骤b3、基于Pearson相关性分析(Pearson Correlation Coefficient),计算两两描述符之间的Pearson相关系数并进行判断筛选:若Pearson相关系数的绝对值大于0.95,则保留其中与DIIT毒性相关性更高的物理化学描述符;
[0156] 步骤b4、计算某个物理化学描述符与DIIT毒性之间的Pearson相关系数,若该Pearson相关系数的绝对值小于0.01,则删除该物理化学描述符。
[0157] 通过上述方法,可以筛选出预测效果最佳的物理化学描述符。
[0158] 进一步地,所述步骤7中还包括描述符组合筛选,如图6所示,具体包括:
[0159] 步骤c1、通过递归特征消除法(例如Python工具包中Scikit‑learn的recursive feature elimination, RFE)或者信息增益IG方式为所有描述符排序;
[0160] 步骤c2、通过依次增加物理化学描述符个数的方式,分别作为训练集进行QSAR分类模型训练,记录各训练集相应的MCC值;
[0161] 步骤c3、筛选出MCC值最高的描述符组合。
[0162] 通过上述方法,可以筛选出预测效果最优的描述符组合。
[0163] 进一步地,还包括步骤8,对单个QSAR分类模型及共识模型进行模型验证,如图7所示,具体包括:
[0164] 步骤81、通过五折交叉法,将训练集随机分为5份,每1份分别作为内部验证集,对单个QSAR分类模型进行内部交叉验证后,基于评价参数区分预测效果,寻优确定各个QSAR分类模型的超参数;
[0165] 步骤82、对单个QSAR分类模型及共识模型,分别导入外部测试集进行验证,基于评价参数区分预测效果,寻优确定各个QSAR分类模型及共识模型的超参数;
[0166] 步骤83、通过Y‑扰乱(Y‑randomization)实验法,随机打乱训练集中DIIT毒性标签的顺序,执行步骤6 7,验证各QSAR分类模型的性能下降情况;所述Y‑扰乱(Y‑~
randomization)实验法,属于现有技术,是一种通过随机打乱样品标签,重建模型,导致模型性能急剧下降的验证方法,用于消除模型表现的偶然性;
[0167] 优选地,所述步骤83执行5次;
[0168] 步骤84,对QSAR分类模型进行治疗亚组药物置信度分析,具体包括:依据药物ATC编码第二级治疗亚组分类,将1319个化合物作为训练集;进行100次十折交叉检验(例如采用Python中scikit‑learn程序库的StratifiedKFold函数,随机种子设置为0‑99,即可达到100次随机分配训练集的效果),分别计算各QSAR分类模型的亚组正确率;以共识模型的正确率为参照进行判定:当亚组正确率高于共识模型时,则定义当前的QSAR分类模型属于高置信度亚组;反之,则定义当前的QSAR分类模型属于低置信度亚组;迭代执行步骤84,直至高置信度亚组与低置信度亚组内的QSAR分类模型数量均为3个;这样可以进一步了解QSAR分类模型在各治疗亚组药物中的预测效果,确定是否存在潜在价值差异。
[0169] 实施例二:
[0170] 本实施例提供了一种药源性免疫性血小板减少毒性预测方法包括:采集药物名称或化合物信息,输入至前述的预测模型,输出该药物或化合物是否具有药源性免疫性血小板减少毒性的预测结果。
[0171] 实施例三:
[0172] 如图8所示,本实施例提供了一种药源性免疫性血小板减少毒性预测系统,包括数据接收模块、数据处理模块及结果生成模块:
[0173] 所述数据接收模块,用于接收药物名称或化合物信息;
[0174] 所述数据处理模块,包括模型单元及预测单元:
[0175] 所述模型单元,存储有上述的药源性免疫性血小板减少毒性预测模型;
[0176] 所述预测单元,调用所述的药源性免疫性血小板减少毒性预测模型,输入药物名称或化合物信息,得到预测结果;
[0177] 所述结果生成模块,用于将预测结果外发。
[0178] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。