一种基于机器学习和分子对接技术的抗癌中药筛选方法转让专利
申请号 : CN202210148367.2
文献号 : CN114203269B
文献日 : 2022-05-10
发明人 : 吴嘉瑞 , 段小霞 , 沈亮亮 , 刘鑫馗 , 冯秋红
申请人 : 北京泽桥医疗科技股份有限公司
摘要 :
权利要求 :
1.一种基于机器学习和分子对接技术的抗癌中药筛选方法,其特征在于,包括如下步骤:
步骤一:整理数据库中某一类癌症患者的转录组测序数据和临床预后信息,提取每一个基因在癌症患者癌细胞中的mRNA表达量和患者的生存死亡信息作为训练集;所述步骤一中的癌症患者癌细胞基因的mRNA表达量是TPM值,患者的生存死亡信息包括生存状态和死亡状态,生存状态使用数值1表示,死亡状态使用数值0表示;
步骤二:构建癌症预后评估模型,使用训练集对模型进行训练,并通过模型进行癌症预后关键靶标的预测;所述步骤二包括如下步骤:采用基于R语言的机器学习算法LASSO回归构建预后评估模型,对癌症患者的生存和死亡进行二分类,根据ROC曲线的AUC值分析,确保模型分类的准确率,模型输出的基因即为癌症预后相关的关键靶标;
步骤三:从数据库中下载整理全部中药所含化合物的三维晶体结构,为后续的分子对接做准备;
步骤四:将所有的中药成分进行吸收‑分布‑代谢‑排泄ADME和类药五原则过滤筛选,得到中药活性成分;
所述步骤三、步骤四包括如下步骤:从中药系统药理学TCMSP数据库中下载收集中药来源的小分子活性成分三维结构sdf文件,将其导入分子对接工具Discovery Studio 2.5软件中,通过吸收‑分布‑代谢‑排泄ADME和类药五原则过滤筛选,将得到的候选小分子化合物组成中药小分子活性成分数据库用于虚拟筛选;
步骤五:将中药活性成分与关键靶标分别进行分子对接,获得与癌症生存相关靶标的激动剂和与死亡相关靶标的抑制剂;
所述步骤五包括如下步骤:
从公共蛋白数据库PDB中下载收集与癌症生存以及死亡相关关键靶标的蛋白三维晶体结构,将其进行一系列预处理之后,分别逐一与所述中药活性成分进行分子对接,筛选出能够对生存相关关键靶标起激活作用的激动剂和对死亡相关关键靶标起抑制作用的抑制剂;
步骤六:分别针对得到的生存相关靶标激动剂、死亡相关靶标抑制剂以及两者的混合物,从数据库中逐一富集出对应的候选中药1组、候选中药2组和候选中药3组;
步骤七:将富集得到的三组抗癌中药进行合并去重,汇总整理后形成具有改善癌症患者预后潜力的候选抗癌中药清单。
2.如权利要求1所述的一种基于机器学习和分子对接技术的抗癌中药筛选方法,其特征在于,所述步骤六、步骤七中的中药富集方法为针对化学成分在中药中出现的频次高低进行统计归纳排序,所用的中药化学成分相关信息检索数据库为中药系统药理学TCMSP数据库,最终筛选出含有生存相关关键靶标激动剂、死亡相关关键靶标抑制剂以及两者混合物最多的几味中药,并按照频次高低进行降序排列,选择排名前三的中药作为候选抗癌中药。
3.如权利要求1所述的一种基于机器学习和分子对接技术的抗癌中药筛选方法,其特征在于,所述步骤一中数据库为TCGA数据库。
说明书 :
一种基于机器学习和分子对接技术的抗癌中药筛选方法
技术领域
背景技术
样性是患者病理类型和临床分期相同、但预后不同的主要原因。基因分型能反映不同癌症
患者具有的不同临床表现和预后,为进一步的治疗提供了理论支持。因此以肿瘤组织基因
表达差异为基础的癌症基因分型的提出对于解决肿瘤的异质性、分期的合理性、预后判断
的准确性及早期患者术后化疗的必要性等将提供重要依据。
发明内容
mRNA表达量和患者的生存死亡信息;采用机器学习的方法,利用患者的存亡状态和分别与
之对应的基因表达状态构建癌症预后评估模型;其中,构建模型所用的癌症类别为乳腺癌。
在R语言环境下的LASSO回归函数中对训练集进行学习,从而得到癌症预后评估模型;训练
集样本包括生存组的样本和死亡组的样本。
的TCMSP数据库中药活性成分与癌症预后关键靶标分别进行分子对接,寻找与癌症生存相
关靶标的激动剂和与死亡相关靶标的抑制剂。
候选中药3组;将富集得到的三组抗癌中药进行合并去重,汇总整理后形成具有改善该癌症
患者预后潜力的候选抗癌中药清单。
关键靶标激动剂、死亡相关关键靶标抑制剂以及两者混合物最多的几味中药,并按照频次
高低进行降序排列,选择排名前三的中药作为候选抗癌中药。
亡状态(0或1)和与之分别对应的基因的表达状态,进而得到癌症预后评估模型。该模型能
够通过筛选出的预后关键基因的表达状态,为不同癌症患者提供更加精准的中药个体化抗
癌效果预测和后期死亡风险预测,从而促进中药在癌症辅助化疗,如降低药物毒副作用、改
善抗癌效果和延长患者生存期等方面的有效而广泛的应用。
附图说明
仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
提供的附图引伸获得其它的实施附图。
具体实施方式
部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做
出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
癌中药筛选方法,本申请通过选择1070例乳腺癌患者作为研究对象,利用乳腺癌患者肿瘤
组织的转录组测序(RNA‑seq)的基因表达信息,结合患者的生存与死亡信息,构建了乳腺癌
的预后死亡风险的预测模型,进而通过模型筛选出了12个与患者存亡密切相关的关键基因
靶标。基于机器学习和分子对接技术的抗癌中药筛选方法如图1所示。
后评估模型。最终发现,总共有20415个基因在转录组测序数据中有记录。构建乳腺癌预后
评估模型的AUC曲线如图3所示,模型生成的拟合曲线AUC值为0.723,符合模型准确性的条
件,且模型最终输出12个关键基因靶标,分别为ZDHHC9、TRMT2B、TMEM31、SEMA3B、PCMT1、
LINC01235、INPP5A、IGLV1‑51、GSTT2B、DERL1、DEF6和CEL。
定规律的模型。利用该模型能够准确对不同的乳腺癌患者提供更加精准的个体化抗癌中药
筛选及患者死亡风险评估。
评估模型的LASSO回归曲线如图2所示。
(absorption‑distribution‑metabolism‑excretion, ADME)和类药五原则 ( Lipinski ’
s Rule of Five) 过滤筛选,得到6116个小分子化合物用于分子对接。
分辨率分别为1.95Å和1.50Å,如图4所示。先对该蛋白结构进行Prepare Protein预处理操
作,再根据蛋白晶体复合的原配体(激动剂或抑制剂)空间位置定义活性口袋,将原配体从
复合晶体结构中取出后再重新对接进入活性口袋中,比较原配体对接后新构象与对接前原
构象的差异,计算均方根偏差(root‑mean‑square deviation, RMSD),若RMSD≤2Å,则表明
此对接方法和对接参数设置较为合理,能较好地重现原配体与受体之间的结合方式。在此
基础上,记录活性口袋半径大小、坐标位置以及原配体的打分值等信息,综合打分值及作用
模式建立激动剂或抑制剂的筛选规则为小分子化合物的打分值应高于阈值(原配体打分值
的80%)且作用模式应与原配体类似。
预处理过的受体蛋白进行分子对接,再将对接的打分值、与受体间的相互作用模式和原配
体作对比,保留打分值高于阈值且相互作用模式与原配体相似的小分子化合物。将其与受
体蛋白进行分子对接,挑选出打分值高于阈值且结合作用模式与原配体类似的中药小分子
化合物,作为最终得到的乳腺癌生存相关靶标激动剂和死亡相关靶标抑制剂,如表2所示。
剂或抑制剂对应的中药品种来源,筛选出同时含有多种中药成分激动剂或抑制剂的中药,
且其含有的激动剂或抑制剂数量越多越好,并对数量进行计数,即为频次,再将每一味中药
按照频次大小进行降序排列,以此类推,每个关键靶标形成一组按频次大小降序排列的候
选中药,再筛选出能够同时对乳腺癌多个生存相关靶标产生激活作用的中药,且能够激活
的靶标数量越多越好,按照频次大小降序排列,记为抗癌候选中药1组;同理,筛选出能够同
时对乳腺癌多个死亡相关靶标产生抑制作用的中药,且能够抑制的靶标数量越多越好,按
照频次大小降序排列,记为抗癌候选中药2组;以此类推,筛选出能够同时对乳腺癌多个生
存和死亡相关靶标产生激活和抑制作用的中药,且分别能够激活和抑制的靶标数量越多越
好,按照频次大小降序排列,记为抗癌候选中药3组。如表3所示。
在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。