一种基于机器学习和分子对接技术的抗癌中药筛选方法转让专利

申请号 : CN202210148367.2

文献号 : CN114203269B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 吴嘉瑞段小霞沈亮亮刘鑫馗冯秋红

申请人 : 北京泽桥医疗科技股份有限公司

摘要 :

本发明公开了一种基于机器学习和分子对接技术的抗癌中药筛选方法,基于机器学习技术,构建了能够针对不同癌症的临床预后评估模型并输出了对应的关键靶标;针对该靶标,基于分子对接技术,从TCMSP数据库中虚拟筛选得到了三组具有改善癌症患者预后潜力的候选抗癌中药;首次形成了一套能够针对不同癌症组学和临床大数据,利用机器学习智能化和虚拟筛选自动化技术,分别构建模型、确定靶标和筛选药物的系统方法体系,从而为解决具有改善不同癌症预后潜力的抗癌中药筛选问题提供了技术支撑和方法学指导。

权利要求 :

1.一种基于机器学习和分子对接技术的抗癌中药筛选方法,其特征在于,包括如下步骤:

步骤一:整理数据库中某一类癌症患者的转录组测序数据和临床预后信息,提取每一个基因在癌症患者癌细胞中的mRNA表达量和患者的生存死亡信息作为训练集;所述步骤一中的癌症患者癌细胞基因的mRNA表达量是TPM值,患者的生存死亡信息包括生存状态和死亡状态,生存状态使用数值1表示,死亡状态使用数值0表示;

步骤二:构建癌症预后评估模型,使用训练集对模型进行训练,并通过模型进行癌症预后关键靶标的预测;所述步骤二包括如下步骤:采用基于R语言的机器学习算法LASSO回归构建预后评估模型,对癌症患者的生存和死亡进行二分类,根据ROC曲线的AUC值分析,确保模型分类的准确率,模型输出的基因即为癌症预后相关的关键靶标;

步骤三:从数据库中下载整理全部中药所含化合物的三维晶体结构,为后续的分子对接做准备;

步骤四:将所有的中药成分进行吸收‑分布‑代谢‑排泄ADME和类药五原则过滤筛选,得到中药活性成分;

所述步骤三、步骤四包括如下步骤:从中药系统药理学TCMSP数据库中下载收集中药来源的小分子活性成分三维结构sdf文件,将其导入分子对接工具Discovery Studio 2.5软件中,通过吸收‑分布‑代谢‑排泄ADME和类药五原则过滤筛选,将得到的候选小分子化合物组成中药小分子活性成分数据库用于虚拟筛选;

步骤五:将中药活性成分与关键靶标分别进行分子对接,获得与癌症生存相关靶标的激动剂和与死亡相关靶标的抑制剂;

所述步骤五包括如下步骤:

从公共蛋白数据库PDB中下载收集与癌症生存以及死亡相关关键靶标的蛋白三维晶体结构,将其进行一系列预处理之后,分别逐一与所述中药活性成分进行分子对接,筛选出能够对生存相关关键靶标起激活作用的激动剂和对死亡相关关键靶标起抑制作用的抑制剂;

步骤六:分别针对得到的生存相关靶标激动剂、死亡相关靶标抑制剂以及两者的混合物,从数据库中逐一富集出对应的候选中药1组、候选中药2组和候选中药3组;

步骤七:将富集得到的三组抗癌中药进行合并去重,汇总整理后形成具有改善癌症患者预后潜力的候选抗癌中药清单。

2.如权利要求1所述的一种基于机器学习和分子对接技术的抗癌中药筛选方法,其特征在于,所述步骤六、步骤七中的中药富集方法为针对化学成分在中药中出现的频次高低进行统计归纳排序,所用的中药化学成分相关信息检索数据库为中药系统药理学TCMSP数据库,最终筛选出含有生存相关关键靶标激动剂、死亡相关关键靶标抑制剂以及两者混合物最多的几味中药,并按照频次高低进行降序排列,选择排名前三的中药作为候选抗癌中药。

3.如权利要求1所述的一种基于机器学习和分子对接技术的抗癌中药筛选方法,其特征在于,所述步骤一中数据库为TCGA数据库。

说明书 :

一种基于机器学习和分子对接技术的抗癌中药筛选方法

技术领域

[0001] 本发明涉及中医药与生物医学技术领域,具体涉及一种基于机器学习和分子对接技术的抗癌中药筛选方法。

背景技术

[0002] 癌症是一种异质性疾病,免疫组化、分子特征、病理分型及基因表达不同,预后往往不同。有些病理类型和临床分期相同的患者,预后也不相同。研究表明基因的异质性和多
样性是患者病理类型和临床分期相同、但预后不同的主要原因。基因分型能反映不同癌症
患者具有的不同临床表现和预后,为进一步的治疗提供了理论支持。因此以肿瘤组织基因
表达差异为基础的癌症基因分型的提出对于解决肿瘤的异质性、分期的合理性、预后判断
的准确性及早期患者术后化疗的必要性等将提供重要依据。

发明内容

[0003] 为此,本发明提供一种基于机器学习和分子对接技术的抗癌中药筛选方法,以便能够提供一种有治疗某类癌症潜力的中药筛选有效方案。
[0004] 为了实现上述目的,本发明提供了一种基于R语言的机器学习算法构建癌症预后评估模型,该方法为确定癌症预后关键靶标的方法。该方法包括:获取癌症患者癌细胞中的
mRNA表达量和患者的生存死亡信息;采用机器学习的方法,利用患者的存亡状态和分别与
之对应的基因表达状态构建癌症预后评估模型;其中,构建模型所用的癌症类别为乳腺癌。
[0005] 进一步地,采用LASSO回归的方法构建癌症预后评估模型包括:采用训练集样本的基因靶标的logTPM和分别对应的生存死亡状态fustate(0或1)作为输入,采用高斯核函数,
在R语言环境下的LASSO回归函数中对训练集进行学习,从而得到癌症预后评估模型;训练
集样本包括生存组的样本和死亡组的样本。
[0006] 进一步地,获取癌症患者癌细胞中的mRNA表达量包括:获取癌症患者生存组和死亡组癌细胞的全转录组测序数据;获取生存组和死亡组各自测序数据中所有基因的TPM值。
[0007] 进一步地,所构建的癌症预后评估模型可输出与患者生存和死亡密切相关的关键基因靶标。
[0008] 根据本发明的第二个方面,提供了一种基于中药活性成分和癌症预后关键靶标进行分子对接虚拟筛选抗癌中药的方法,该方法包括:基于ADME和类药五原则过滤筛选得到
的TCMSP数据库中药活性成分与癌症预后关键靶标分别进行分子对接,寻找与癌症生存相
关靶标的激动剂和与死亡相关靶标的抑制剂。
[0009] 进一步地,分别针对上述虚拟筛选得到的生存相关靶标激动剂、死亡相关靶标抑制剂以及两者的混合物,从TCMSP数据库中逐一富集出对应的候选中药1组、候选中药2组和
候选中药3组;将富集得到的三组抗癌中药进行合并去重,汇总整理后形成具有改善该癌症
患者预后潜力的候选抗癌中药清单。
[0010] 进一步地,中药富集方法为针对化学成分在中药中出现的频次大小进行统计归纳排序,所用的中药化学成分相关信息检索数据库为TCMSP数据库,最终筛选出含有生存相关
关键靶标激动剂、死亡相关关键靶标抑制剂以及两者混合物最多的几味中药,并按照频次
高低进行降序排列,选择排名前三的中药作为候选抗癌中药。
[0011] 应用本发明的方法,通过选择不同癌症患者群体作为研究对象,采用转录组测序(RNA‑seq)的方法进行了癌症患者生存组和死亡组中的癌症基因表达的量化,根据患者存
亡状态(0或1)和与之分别对应的基因的表达状态,进而得到癌症预后评估模型。该模型能
够通过筛选出的预后关键基因的表达状态,为不同癌症患者提供更加精准的中药个体化抗
癌效果预测和后期死亡风险预测,从而促进中药在癌症辅助化疗,如降低药物毒副作用、改
善抗癌效果和延长患者生存期等方面的有效而广泛的应用。

附图说明

[0012] 为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅
仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
提供的附图引伸获得其它的实施附图。
[0013] 图1示出了本发明提出的一种基于机器学习和分子对接技术的抗癌中药筛选方法的流程示意图;
[0014] 图2示出了本发明提出的一种可选的实施例中构建乳腺癌预后评估模型的LASSO回归曲线图;
[0015] 图3示出了本发明提出的一种可选的实施例中构建乳腺癌预后评估模型的AUC曲线图;
[0016] 图4示出了本发明提出的一种可选的实施例中乳腺癌2个关键基因编码蛋白晶体结构三维图。

具体实施方式

[0017] 以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一
部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做
出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0018] 目前尚未发现基于癌症预后评估模型的抗癌中药筛选方法,因而在用于指导癌症患者的预后中药治疗方案时存在准确性差的缺陷。为了提供一种更适合不同癌症患者的抗
癌中药筛选方法,本申请通过选择1070例乳腺癌患者作为研究对象,利用乳腺癌患者肿瘤
组织的转录组测序(RNA‑seq)的基因表达信息,结合患者的生存与死亡信息,构建了乳腺癌
的预后死亡风险的预测模型,进而通过模型筛选出了12个与患者存亡密切相关的关键基因
靶标。基于机器学习和分子对接技术的抗癌中药筛选方法如图1所示。
[0019] 实施例1
[0020] 基于上述研究结果,本申请提出了一种基于机器学习技术构建的癌症预后评估模型在抗癌中药筛选中的应用,该癌症预后评估模型的构建方法包括:
[0021] 在TCGA数据库收录的乳腺癌转录组测序数据信息中搜索查找所有患者(1070例)癌细胞内相关基因的表达量以及患者的生存死亡数据(0或1)作为训练集构建乳腺癌的预
后评估模型。最终发现,总共有20415个基因在转录组测序数据中有记录。构建乳腺癌预后
评估模型的AUC曲线如图3所示,模型生成的拟合曲线AUC值为0.723,符合模型准确性的条
件,且模型最终输出12个关键基因靶标,分别为ZDHHC9、TRMT2B、TMEM31、SEMA3B、PCMT1、
LINC01235、INPP5A、IGLV1‑51、GSTT2B、DERL1、DEF6和CEL。
[0022]
[0023] 该模型通过利用机器学习的方法,将1070例乳腺癌患者的20415个基因在癌细胞内的表达量数据以及患者的生存死亡状态数据作为训练集进行训练学习,从而建立符合一
定规律的模型。利用该模型能够准确对不同的乳腺癌患者提供更加精准的个体化抗癌中药
筛选及患者死亡风险评估。
[0024] 上述模型的构建方法中,任何一种机器学习的方法都适用于本申请。在本申请一种优选的实施例中,采用LASSO回归的方法,构建乳腺癌的预后评估模型。构建乳腺癌预后
评估模型的LASSO回归曲线如图2所示。
[0025] 实施例2
[0026] 在本申请一种优选的实施例中,提供了一种基于分子对接技术的抗癌中药活性成分筛选的方法,该筛选方法包括:
[0027] 利用中药系统药理学(TCMSP)数据库和分析平台并采用Discovery Studio 2.5(DS 2.5)软件中的LibDock模块进行分子对接。
[0028] 从TCMSP数据库中下载收集499味中药来源的小分子活性成分三维结构sdf文件,共计13445个小分子化合物,将其导入DS 2.5软件中,通过吸收‑分布‑代谢‑排泄
(absorption‑distribution‑metabolism‑excretion, ADME)和类药五原则 ( Lipinski ’ 
s Rule of Five) 过滤筛选,得到6116个小分子化合物用于分子对接。
[0029] 以上述癌症预后关键基因靶标名称为关键词搜索PDB(protein data bank)数据库,并根据筛选规则获得GSTT2B和PCMT1对应的两个晶体结构,PDB编号分别为4MPG和1I1N,
分辨率分别为1.95Å和1.50Å,如图4所示。先对该蛋白结构进行Prepare Protein预处理操
作,再根据蛋白晶体复合的原配体(激动剂或抑制剂)空间位置定义活性口袋,将原配体从
复合晶体结构中取出后再重新对接进入活性口袋中,比较原配体对接后新构象与对接前原
构象的差异,计算均方根偏差(root‑mean‑square deviation, RMSD),若RMSD≤2Å,则表明
此对接方法和对接参数设置较为合理,能较好地重现原配体与受体之间的结合方式。在此
基础上,记录活性口袋半径大小、坐标位置以及原配体的打分值等信息,综合打分值及作用
模式建立激动剂或抑制剂的筛选规则为小分子化合物的打分值应高于阈值(原配体打分值
的80%)且作用模式应与原配体类似。
[0030] 以上述从TCMSP数据库中筛选获得的6116个中药小分子化合物为配体,运用Prepare Ligands模块进行配体的预处理操作,在与原配体相同的对接环境下,将其与上述
预处理过的受体蛋白进行分子对接,再将对接的打分值、与受体间的相互作用模式和原配
体作对比,保留打分值高于阈值且相互作用模式与原配体相似的小分子化合物。将其与受
体蛋白进行分子对接,挑选出打分值高于阈值且结合作用模式与原配体类似的中药小分子
化合物,作为最终得到的乳腺癌生存相关靶标激动剂和死亡相关靶标抑制剂,如表2所示。
[0031]
[0032] 实施例3
[0033] 在本申请一种优选的实施例中,提供了一种基于频次统计的抗癌中药‑中药成分富集的方法,该富集方法包括:
[0034] 在乳腺癌每一个对应的生存相关靶标和死亡相关靶标下面分别列出通过上述分子对接技术筛选到的中药成分激动剂和抑制剂,再通过检索TCMSP数据库,查找每一个激动
剂或抑制剂对应的中药品种来源,筛选出同时含有多种中药成分激动剂或抑制剂的中药,
且其含有的激动剂或抑制剂数量越多越好,并对数量进行计数,即为频次,再将每一味中药
按照频次大小进行降序排列,以此类推,每个关键靶标形成一组按频次大小降序排列的候
选中药,再筛选出能够同时对乳腺癌多个生存相关靶标产生激活作用的中药,且能够激活
的靶标数量越多越好,按照频次大小降序排列,记为抗癌候选中药1组;同理,筛选出能够同
时对乳腺癌多个死亡相关靶标产生抑制作用的中药,且能够抑制的靶标数量越多越好,按
照频次大小降序排列,记为抗癌候选中药2组;以此类推,筛选出能够同时对乳腺癌多个生
存和死亡相关靶标产生激活和抑制作用的中药,且分别能够激活和抑制的靶标数量越多越
好,按照频次大小降序排列,记为抗癌候选中药3组。如表3所示。
[0035]
[0036] 虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,
在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。