一种单个疾病样本通路激活度的评估方法及相似疾病区分方法转让专利

申请号 : CN201910091441.X

文献号 : CN109817337B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李敏李幸一王建新

申请人 : 中南大学

摘要 :

本发明公开了一种单个疾病样本通路激活度的评估方法及相似疾病区分方法;对每条通路构建全连通网络,并将通路中原有的连边作为其重要连边,添加的连边作为其背景连边;将通路中存在的基因作为重要基因,其他基因作为背景基因;对全连通网络中的每条连边,计算疾病样本和正常样本的差异值,并计算差异值显著性;计算每个基因在疾病样本与正常样本中表达值的差异倍数;计算在每个全连通网络的节点和连边排名中重要节点和连边的富集程度,作为相应通路的激活度。以通路的激活度为特征区分相似疾病。本发明能有效计算单个疾病样本中每条通路的激活度,将疾病样本高维、小样本的基因表达矩阵转换成通路激活度的表达矩阵,用于区分相似疾病,准确度高。

权利要求 :

1.一种单个疾病样本通路激活度的评估方法,其特征在于,每条通路的激活度包括连边激活度和基因激活度,对于疾病样本中的每条通路,其激活度评估方法包括以下步骤:步骤1、对于该通路中的所有基因,若两个基因之间没有连边,则添加连边,将该通路构建成全连通网络;

将该通路中原有的连边作为其重要连边,添加的连边作为其背景连边;

将该通路中存在的基因作为重要基因,该通路中不存在的基因作为背景基因;

步骤2、对全连通网络中的每条连边,首先基于n个正常样本,计算其连接的两个基因在这n个样本中的表达值的皮尔森相关系数,记为PCCn;再在n个正常样本中加入单个疾病样本,计算其连接的两个基因在这n+1个样本中的表达值的皮尔森相关系数,记为PCCn+1;通过PCCn+1与PCCn作差得到ΔPCCn,作为该连边在该疾病样本和正常样本中的差异值;并评估差异值的显著性;

所述步骤2中,基于Z检验评估差异值的显著性:

其中,Z值表示ΔPCCn的显著性;

步骤3,对全连通网络中的每个基因,计算其在该疾病样本与n个正常样本中表达值的差异倍数;

所述步骤3中,对于任一基因,计算其在该疾病样本与n个正常样本中表达值的差异倍数FC的公式为:其中,b表示该基因在该疾病样本中的表达值,表示该基因在n个正常样本中的表达值的均值;

步骤4、将全连通网络中所有连边按照差异值的显著性大小进行排序,将全连通网络中所有基因按照差异倍数大小进行排序;

步骤5、根据排序结果,计算在全连通网络的连边/基因排序中重要连边/基因的富集程度,作为相应通路中连边/基因的激活度;

所述步骤5中,对任一通路,通过以下公式计算在全连通网络的连边/基因排序中重要连边/基因的富集程度:其中,I表示全连通网络中所有重要连边/基因构成的集合,ranki表示步骤4中按照升序排列时,I中第i条连边/基因的排序,M表示全连通网络中重要连边/基因的总数,N表示背景连边/基因集合的总数;该公式利用AUC从连边/基因的角度计算在全连通网络的连边/基因排序中重要连边/基因的富集程度,作为通路的激活度。

2.根据权利要求1所述的单个疾病样本通路激活度的评估方法,其特征在于,所述步骤

2中,计算每条连边连接的两个基因在n个样本中的表达值的皮尔森相关系数PCCn的公式为:其中,x1和x2分别表示该条连边连接的两个基因在n个样本中的表达值,covn(x1,x2)表示x1和x2的协方差, 和 分别表示x1和x2的标准差。

3.一种相似疾病区分方法,其特征在于,包括以下步骤:

首先,按权利要求1所述的单个疾病样本通路激活度的评估方法计算各个疾病样本的通路激活度,并将单个疾病样本所有通路的连边激活度和基因激活度连接成一个向量,作为该疾病样本的特征向量;

然后,以已知疾病样本的特征向量为输入,各个已知疾病样本的分类标签为输出,训练分类器;

最后,将未知疾病样本的特征向量输入训练好的分类器,得到其分类标签。

4.根据权利要求3所述的相似疾病区分方法,其特征在于,所述分类器为随机森林分类器。

说明书 :

一种单个疾病样本通路激活度的评估方法及相似疾病区分

方法

技术领域

[0001] 本发明涉及生物信息学领域,涉及一种单个疾病样本通路激活度的评估方法及相似疾病区分方法。

背景技术

[0002] 研究表明,基因以及基因产物并不是单独发挥作用的,而是参与到复杂的、相互关联的网络中协同发挥作用。常见的以网络形式存在的生物结构包括通路、基因转录调控网络、蛋白质相互作用网络,其中通路可以反应细胞内的生物进程,如生物代谢、信号传递和生长周期,结合通路数据挖掘有效的生物信息对于从功能角度揭示生物体的分子机制至关重要。
[0003] 疾病的发生发展常常和重要通路的失调紧密相关,识别这些失调的通路并量化其失调程度对疾病的研究有重要意义。
[0004] 通路激活度(pathway activity)可用于衡量通路的失调程度。此外,尽管相似复杂疾病的临床症状相似,但不同疾病发生发展的机制不同,因此通路的激活状态可以作为区分相似疾病的指标。目前已存在一些模型和方法用于评估疾病发生过程中通路的激活度,它们对于通路激活度的定义和计算方法各不相同,如Han等[1]提出名为PROPS的方法利用高斯贝叶斯网络计算通路激活度。Young和Craft[2]提供了三种通路激活度计算方法:PCA、NTC和GED。PCA利用主成分分析法提取基于每条通路的基因表达数据中的主成分作为通路的激活度;NTC方法是基于每条通路的基因表达数据计算疾病样本和正常样本间的欧式距离作为通路的激活度;GED对在正常样本和疾病样本在每条通路的基因表达数据中差异分布的基因打分,根据基因打分值定义通路激活度特征。而从通路角度考虑单个疾病样本的特异性状态对于从系统层面揭示复杂疾病的分子机制至关重要,但是目前的模型和方法均没有从通路角度考虑单个疾病样本的特异性状态。
[0005] 此外,虽然已存在一些模型和方法可以区分相似疾病,如Winter等[3]提出了一种改进佩奇排序的方法NetRank,根据在网络中基因的邻居节点的排名对基因排序,提取排序靠前的基因作为区分相似疾病的特征。Cun和 [4]提出了基于支持向量机的特征选择方法stSVM,提取有效的基因标志物作为区分相似疾病的特征。Zhang等[5]提出了一个用于提取功能特征的框架CNS,该方法利用流平衡模型聚合了被相同功能富集的基因,从而得到可以最大限度区分两种相似疾病的功能模块,提取这些功能模块作为区分相似疾病的特征。但基于这些方法提取的特征进行相似疾病分类的分类精确度还有待于进一步提高。
[0006] 因此,有必要提供一种评估单个疾病样本通路激活度并有效区分相似疾病的方法。
[0007] [1]Han,L.et al.A probabilistic pathway score(PROPS)for classification with applications to inflammatory bowel disease.Bioinformatics,2017;34(6):985-993.
[0008] [2]Young,M.R.and Craft,D.L.Pathway-informed classification system(PICS)for cancer analysis using gene expression data.Cancer informatics,2016;15:151-161.
[0009] [3]Winter C,Kristiansen G,Kersting S,et al.Google goes cancer:improving outcome prediction for cancer patients by network-based ranking of marker genes[J].PLoS computational biology,2012,8(5):e1002511.
[0010] [4]Cun Y, H.Network and data integration for biomarker signature discovery via network smoothed t-statistics[J].PloS one,2013,8(9):
e73074.
[0011] [5]Zhang C,Liu J,Shi Q,et al.Comparative network stratification analysis for identifying functional interpretable network biomarkers[J].BMC bioinformatics,2017,18(3):48.

发明内容

[0012] 本发明所要解决的技术问题是,针对现有技术不足,提供一种单个疾病样本通路激活度的评估方法及相似疾病区分方法,可以得到能够有效区分相似疾病的特征—疾病样本通路激活度,基于该特征进行相似疾病分类,分类准确度高。
[0013] 为解决上述技术问题,本发明所采用的技术方案是:
[0014] 一种单个疾病样本通路激活度的评估方法,每条通路的激活度包括连边激活度和基因激活度,对于疾病样本中的每条通路,其激活度评估方法包括以下步骤:
[0015] 步骤1、对于该通路中的所有基因,若两个基因之间没有连边,则添加连边,将该通路构建成全连通网络(即节点两两之间都有连边的网络);
[0016] 将该通路中原有的连边作为其重要连边,添加的连边作为其背景连边;
[0017] 将该通路中存在的基因作为重要基因,该通路中不存在的基因(存在于该疾病样本中其他通路的基因)作为背景基因;
[0018] 步骤2、对全连通网络中的每条连边,首先基于n个正常样本,计算其连接的两个基因在这n个样本中的表达值的皮尔森相关系数,记为PCCn;再在n个正常样本中加入单个疾病样本,计算其连接的两个基因在这n+1个样本中的表达值的皮尔森相关系数,记为PCCn+1;通过PCCn+1与PCCn作差得到ΔPCCn,作为该连边在该疾病样本和正常样本中的差异值;并评估差异值的显著性;
[0019] 步骤3,对全连通网络中的每个基因,计算其在该疾病样本与n个正常样本中表达值的差异倍数;
[0020] 步骤4、将全连通网络中所有连边按照差异值的显著性大小进行排序,将全连通网络中所有基因按照差异倍数大小进行排序;
[0021] 步骤5、根据排序结果,计算在全连通网络的连边/基因排序中重要连边/基因(正标签)的富集程度,作为相应通路中连边/基因的激活度。
[0022] 进一步地,所述步骤2中,计算每条连边连接的两个基因在n个样本中的表达值的皮尔森相关系数PCCn的公式为:
[0023]
[0024] 其中,x1和x2分别表示该条连边连接的两个基因在n个样本中的表达值,covn(x1,x2)表示x1和x2的协方差, 和 分别表示x1和x2的标准差。
[0025] 进一步地,所述步骤2中,基于Z检验(z-test)评估差异值的显著性:
[0026]
[0027] 其中,Z值表示ΔPCCn的显著性。
[0028] 进一步地,所述步骤3中,对于任一基因,计算其在该疾病样本与n个正常样本中表达值的差异倍数FC的公式为:
[0029]
[0030] 其中,b表示该基因在该疾病样本中的表达值, 表示该基因在n个正常样本中的表达值的均值。
[0031] 进一步地,所述步骤5中,对任一通路,通过以下公式计算其连边/节点的激活度:
[0032]
[0033] 其中,I表示全连通网络中所有重要连边/基因构成的集合,ranki表示步骤4中按照升序排列时,I中第i条连边/基因的排序,M表示全连通网络中重要连边/基因的总数,N表示背景连边/基因集合的总数;该公式利用AUC从连边/基因的角度计算在全连通网络的连边/基因排序中重要连边/基因(正标签)的富集程度,作为通路的激活度。
[0034] 一种相似疾病区分方法,包括以下步骤:
[0035] 首先,按上述的单个疾病样本通路激活度的评估方法计算各个疾病样本的通路激活度,并将单个疾病样本所有通路的连边激活度和基因激活度连接成一个向量,作为该疾病样本的特征向量;所有疾病样本特征向量中同一维度对应的特征相同,即对应同一通路的连边激活度或基因激活度;
[0036] 然后,以已知疾病样本的特征向量为输入,各个已知疾病样本的分类标签为输出,训练分类器;
[0037] 最后,将未知疾病样本的特征向量输入训练好的分类器,得到其分类标签。
[0038] 进一步地,所述分类器为随机森林分类器。
[0039] 有益效果:
[0040] 本发明能有效计算单个疾病样本中每条通路的激活度,将疾病样本高维、小样本的基因表达矩阵转换成通路激活度的表达矩阵,解决了其他特征提取方法中未考虑单个疾病样本的特异性的问题。计算出的通路的激活度可用于区分相似疾病,准确度高。

附图说明

[0041] 图1为本发明(PASS)的框架图;
[0042] 图2为本发明(PASS)和NetRank,stSVM,CNS,PCA,NTC,GED,PROPS方法ROC曲线及其下的面积(AUC)的比较图;
[0043] 图3为基于本发明提取的通路激活度得到的两种相似疾病样本中通路的差异显著性分析。
[0044] 图4为基于本发明提取的通路激活度得到的显著差异表达通路中已知疾病基因的富集性分析。

具体实施方式

[0045] 如图1所示,本发明提供了一种单个疾病样本通路激活度的评估方法,每条通路的激活度包括连边激活度和基因激活度,对于疾病样本中的每条通路,其激活度评估方法包括以下步骤:
[0046] 一、通路数据的预处理
[0047] 对于通路中的所有基因,若两个基因之间没有连边,则添加连边,将该通路构建成全连通网络(即节点两两之间都有连边的网络);
[0048] 将该通路中原有的连边作为其重要连边,添加的连边作为其背景连边;
[0049] 将该通路中存在的基因作为重要基因,该通路中不存在的基因(存在于该疾病样本中其他通路的基因)作为背景基因;
[0050] 二、计算边的差异显著性
[0051] 对全连通网络中的每条连边,首先基于n个正常样本,计算其连接的两个基因在这n个样本中的表达值的皮尔森相关系数,记为PCCn;再在n个正常样本中加入单个疾病样本,计算其连接的两个基因在这n+1个样本中的表达值的皮尔森相关系数,记为PCCn+1;通过PCCn+1与PCCn作差得到ΔPCCn,作为该连边在该疾病样本和正常样本中的差异值;并评估差异值ΔPCCn的显著性;
[0052] 计算每条连边连接的两个基因在n个样本中的表达值的皮尔森相关系数PCCn的公式为:
[0053]
[0054] 其中,x1和x2分别表示该条连边连接的两个基因在n个样本中的表达值,covn(x1,x2)表示x1和x2的协方差, 和 分别表示x1和x2的标准差;
[0055] ΔPCCn的显著性通过z-test评估:
[0056]
[0057] 三、计算节点的差异显著性
[0058] 每个基因在单个疾病样本与正常样本中表达值的差异倍数的表达式为:
[0059]
[0060] 其中,b表示该基因在该疾病样本中的表达值, 表示该基因在n个正常样本中的表达值的均值。
[0061] 四、通路激活度评估
[0062] 通路的激活度通过以下公式计算得到:
[0063]
[0064] 其中,I表示全连通网络中所有重要连边/基因构成的集合,ranki表示I中的第i条边/基因按照差异值的显著性大小/差异倍数大小升序排序后的位置,M表示全连通网络中重要连边/基因的总数,N表示背景连边/基因集合的总数;该公式利用AUC分别从连边和基因(节点)的角度计算在每个全连通网络的连边和基因排序中重要连边/基因的富集程度,作为通路的激活度。
[0065] 基于单个疾病样本评估得到的通路激活度可以计算出通路在该单个疾病样本中的激活度情况,解决了其他特征提取方法中未考虑每个疾病样本特异性的问题。
[0066] 本发明还提供了一种相似疾病区分方法,包括以下步骤:
[0067] 首先,计算各个疾病样本的通路激活度,并将单个疾病样本所有通路的连边激活度和基因激活度连接成一个向量,作为该疾病样本的特征向量;
[0068] 然后,以已知疾病样本的特征向量为输入,各个已知疾病样本的分类标签为输出,训练分类器;
[0069] 最后,将未知疾病样本的特征向量输入训练好的分类器,得到其分类标签。
[0070] 所述分类器可采用随机森林分类器。
[0071] 五、实验验证
[0072] 为了验证本方法的有效性,基于炎症性肠病中两种相似疾病——局限性肠炎和溃疡性肠炎的四个数据集进行验证。局限性肠炎和溃疡性结肠炎四个数据集来源于GEO数据库(https://www.ncbi.nlm.nih.gov/geo/),分别为GSE9686、GSE3365、GSE36807、GSE71730,共包含61个溃疡性结肠炎样本和105个局限性肠炎样本。全人类通路数据来自于KEGG数据库(https://www.kegg.jp/),共有294条通路。
[0073] 为了评价本方法分类的准确性及功能可解释性,进行以下三项分析:
[0074] (1)分析分类的准确性
[0075] 该部分针对四个数据集中的所有样本一起进行分析。对于本发明(PASS)与NetRank,stSVM,CNS,PCA,NTC,GED,PROPS中的每一种方法,分别基于其提取的特征,构建随机森林分类器,并应用三折交叉验证方法,将样本集分成3个子集,将每个子集分别做一次验证集,其余的2个子集作为训练集,得到3个分类器,利用分类器对相应的验证集中的样本进行分类,得到分类结果;重复进行500次三折交叉验证(每次对样本集进行不同划分),基于所有的分类结果计算真阳性率(TPR)和假阳性率(FPR),绘制ROC曲线。采用ROC和AUC指标评价分类结果。AUC值是ROC曲线的线下面积,ROC和AUC实验结果如图2所示,从图2可以看出,本发明的AUC值均优于其他的方法。
[0076] (2)分析两种相似疾病样本中的通路的差异显著性
[0077] 该部分针对四个数据集中的样本分别进行分析。对每一条通路,采用t检验方法确定其激活度在各数据集的两种相似疾病样本中的差异是否显著。步骤为:先分别基于本发明方法计算该通路在每个疾病样本中的激活度,然后采用t值计算公式计算表征该通路的激活度在两种相似疾病样本中的差异程度的t值,再查t界值表,确定t界值表中横标(自由度)=数据集中两种疾病样本的个数之和-2,值为t的单元格对应的纵标P,若P≤0.05,说明该通路的激活度在这两种相似疾病样本中的差异显著。统计所有通路对应的P值,如图3所示,从图3可以看出,大多数通路对应的P值小于等于0.05,说明大多数通路的激活度在这两种相似疾病样本中的差异显著。
[0078] (3)两种相似疾病中已知疾病基因在差异表达通路中的富集程度。
[0079] 该部分针对四个数据集中的样本分别进行分析。将(2)中得到对应的P值小于等于0.05的通路作为差异表达通路,分别两种相似疾病中已知疾病基因在这些通路中的富集程度。
[0080] 通过超几何检验被计算已知疾病基因在差异表达通路中富集程度的P值:
[0081]
[0082] 其中,N为所有通路中的基因数,M为已知疾病基因的数量,n为差异表达通路中的基因数,m为在差异通路中的已知疾病基因的数量。P值越小,说明已知疾病基因在差异表达通路中的富集程度越高。基于四个数据集得到的-log10P的结果如图4所示,从图4可以看出,-log10P均大于等于1.3,即P值小于等于0.05,说明已知疾病基因在差异表达通路中的富集程度很高。
[0083] 图3和图4的结果表明,本发明方法提取出的单个疾病样本的通路激活度可以有效体现相似疾病之间的差异,通过本发明提供的通路激活度计算方法可以有效区分这两种相似疾病。
[0084] 实验结果表明,本发明方法具有很好的分类准确性和稳定性。