一种肿瘤免疫亚型分类方法及系统转让专利
申请号 : CN202011211932.2
文献号 : CN112435714B
文献日 : 2021-07-02
发明人 : 艾冬梅 , 王瑜多 , 李晓鑫
申请人 : 北京科技大学
摘要 :
权利要求 :
1.一种肿瘤免疫亚型分类方法,其特征在于,所述方法包括:获取包括多个肿瘤组织的RNA‑seq测序数据和基因表达谱数据的样本数据集;
计算所述样本数据集中的每一样本所对应的肿瘤组织中的微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据;
以微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据为分类特征,构建训练样本数据集,对预设类型的集成分类器进行训练;
将待分类肿瘤组织的微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据输入训练好的集成分类器中,实现对肿瘤组织的免疫亚型分类;
所述以微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据为分类特征,构建训练样本数据集,对预设类型的集成分类器进行训练,包括:对于样本数量不达标的免疫亚型所对应的样本数据集,采用SMOTE算法对其进行扩充,以达到平衡训练样本数据的效果;
所述预设类型的集成分类器为随机森林模型,所述随机森林模型的训练过程包括:对各免疫亚型所对应的样本数据集按照其中包含样本的数量,分为多数类别数据集和少数类别数据集,构建出新的样本数据集Xnew;
对Xnew中的每个样本x,若x属多数类别数据集中的样本,则为样本x赋予权重其中,N[j]为多数类别数据集包含样本的个数,∑N[i]为Xnew中所有样本的个数;若x属少数类别数据集中的样本,则为样本x赋予权重 其中,N[k]为少数类别数据集包含样本的个数;
使用自助抽样法将Xnew划分为训练数据集和测试数据集;使用所述训练数据集对决策树进行训练,使用所述测试数据集对决策树进行测试;将基分类器的分类准确率作为权重,在测试数据上进行加权投票,得到样本所属类别。
2.如权利要求1所述的肿瘤免疫亚型分类方法,其特征在于,所述微生物丰度数据的计算方法包括:
将样本数据集中的RNA‑seq测序数据映射到人类参考基因库,过滤掉样本中的人体基因组序列,筛选出未映射到人类参考基因组的读片;将未映射到人类参考基因组的读片运用Kraken算法与预设类型的微生物参考序列进行比对,对这些读片进行快速分类;在Kraken分类结果的基础上,运用Bracken算法进行分析,最终得到微生物的丰度数据。
3.如权利要求2所述的肿瘤免疫亚型分类方法,其特征在于,所述未映射到人类参考基因组的读片包括双端未映射读片和单端未映射读片;
在将未映射到人类参考基因组的读片运用Kraken算法与预设类型的微生物参考序列进行比对,对这些读片进行快速分类;在Kraken分类结果的基础上,运用Bracken算法进行分析,最终得到微生物的丰度数据之前,所述方法还包括:对于筛选出的未映射到人类参考基因组的双端未映射读片,删除其中碱基质量低于Q15超过40%的序列,删除N大于5个的序列,删除长度小于36的序列,并删除双端测序接头;
对于筛选出的未映射到人类参考基因组的单端未映射读片,删除其中碱基质量低于Q15超过40%的序列,删除N大于5个的序列,删除长度小于36的序列;为单端未映射读片生成反向互补序列,作为单端未映射读片的配对读片。
4.如权利要求3所述的肿瘤免疫亚型分类方法,其特征在于,所述将未映射到人类参考基因组的读片运用Kraken算法与预设类型的微生物参考序列进行比对,对这些读片进行快速分类;在Kraken分类结果的基础上,运用Bracken算法进行分析,最终得到微生物的丰度数据,包括:
首先将未映射到人类参考基因组的读片比对到细菌、真菌和古细菌参考基因库,并基于比对结果估计样本中细菌、真菌和古细菌的丰度;
然后将未映射到细菌、真菌和古细菌参考基因组的读片,继续与病毒参考基因库进行比对,并基于比对结果估计样本中各种病毒的丰度。
5.如权利要求4所述的肿瘤免疫亚型分类方法,其特征在于,在得到样本中的预设类型的微生物丰度数据之后,所述方法还包括:令si代表第i种免疫亚型所包含的样本总量,令cij代表第j种微生物在第i种免疫亚型样本中比对上的次数;其中,i=1,2,3,4,5,6;j=1,2,3,…;筛选出满足以下条件的微生物:cij>0.5si;
对于筛选出的微生物,计算每一微生物对应的信息增益,并按照信息增益的大小对所有微生物按照从大到小进行排序,并且选择前N个信息增益最大的微生物所对应的丰度数据,作为新的微生物特征集合;其中,N为预设的常数。
6.如权利要求1所述的肿瘤免疫亚型分类方法,其特征在于,所述免疫相关的基因表达数据的计算方法包括:
利用加权基因共表达网络分析算法对肿瘤组织的基因表达谱数据进行分析,得到与免疫相关的10个枢纽基因,并获取枢纽基因的基因表达数据。
7.如权利要求1所述的肿瘤免疫亚型分类方法,其特征在于,所述免疫细胞比例数据的计算方法包括:
利用CIBERSORT算法估计出肿瘤组织中的预设种类的免疫细胞的丰度之后,利用Kruskal‑Wallis检验对各种免疫细胞在不同免疫亚型样本之间的相对比例差异性进行分析,得到相对比例差异性符合预设要求的免疫细胞的比例数据。
8.一种肿瘤免疫亚型分类系统,其特征在于,所述系统包括:样本数据集获取模块,用于获取包括多个肿瘤组织的RNA‑seq测序数据和基因表达谱数据的样本数据集;
分类特征获取模块,用于计算所述样本数据集中的每一样本所对应的肿瘤组织中的微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据;
模型训练及分类模块,用于以微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据为分类特征,构建训练样本数据集,对预设类型的集成分类器进行训练;并通过训练好的集成分类器实现对肿瘤组织的免疫亚型分类;
所述以微生物丰度数据、免疫细胞比例数据和与免疫相关的基因表达数据为分类特征,构建训练样本数据集,对预设类型的集成分类器进行训练,包括:对于样本数量不达标的免疫亚型所对应的样本数据集,采用SMOTE算法对其进行扩充,以达到平衡训练样本数据的效果;
所述预设类型的集成分类器为随机森林模型,所述随机森林模型的训练过程包括:对各免疫亚型所对应的样本数据集按照其中包含样本的数量,分为多数类别数据集和少数类别数据集,构建出新的样本数据集Xnew;
对Xnew中的每个样本x,若x属多数类别数据集中的样本,则为样本x赋予权重其中,N[j]为多数类别数据集包含样本的个数,∑N[i]为Xnew中所有样本的个数;若x属少数类别数据集中的样本,则为样本x赋予权重 其中,N[k]为少数类别数据集包含样本的个数;
使用自助抽样法将Xnew划分为训练数据集和测试数据集;使用所述训练数据集对决策树进行训练,使用所述测试数据集对决策树进行测试;将基分类器的分类准确率作为权重,在测试数据上进行加权投票,得到样本所属类别。
说明书 :
一种肿瘤免疫亚型分类方法及系统
技术领域
背景技术
抑制机体的免疫功能以达到治疗疾病目的。但科研人员发现免疫疗法在结直肠癌和胃癌的
相关实验中收效甚微。对于胃癌、结直肠癌等高度异质的疾病,肿瘤免疫疗法的临床疗效不
尽人意。导致这种结果的原因仍不明确,但是有研究表明:肿瘤异质性:尽管患有同一种恶
性肿瘤,但是,不同患者从基因型到表型都存在差异,这种异质性是影响抗癌疗法效果的重
要因素。肿瘤组织内存在不同的肿瘤细胞的免疫亚型,因此,不同的肿瘤细胞表现出免疫特
征的差异,最终导致抗肿瘤药物的临床疗效的差异。
比例,肿瘤内程度的差异确定了六种免疫亚型。已经有研究表明:在六种免疫亚型所处的肿
瘤微环境中微生物的种群结构,免疫细胞的浸润情况以及免疫基因的表达都有显著的差
异。复杂的免疫微环境鉴别对病理提出了更高层次的要求,从单一指标检测逐渐演变成微
环境多指标联合检测。因此,从多个角度对肿瘤组织样本进行免疫亚型分类,以实现精准医
疗背景下的特异性肿瘤免疫治疗迫在眉睫。
瘤的免疫亚型进行分类的标志物。另外,有研究人员发现肠道菌群可以通过免疫调节、易位
和酶促降解等多种机制的调节达到治疗癌症的目的,肠道微生物群也可以直接影响抗癌药
物的药物代谢动力学、抗肿瘤活性和细胞毒性。可见微生物的种群结构也与肿瘤的免疫亚
型紧密相关;除了分类特征外,分类器的设计与选择对免疫亚型分类成功与否至关重要。目
前有很多机器学习方法都被广泛用于有关肿瘤的分类。Miguel Reboiro‑Jato等人利用人
工神经网络ANN进行分类,该算法具有强大的计算能力,无需进行特征选择就能处理高维数
据。但是,该模型的黑箱特性,让使用者难以理解内部机制。此外,神经网络的学习需要大量
的参数,这使得调参的过程非常复杂;A Daemen等人采用了支持向量机SVM进行分类器的设
计,其可以缓解样本量小但特征空间大的问题,且能通过核函数处理非线性情况,相对于神
经网络等算法无局部极小值问题,由少数支持向量决定最终结果,无需依赖整个数据,使得
其鲁棒性好,但是样本量增加会显著影响其效率。此外,SVM通常用于解决二分类问题,如果
将其应用于多分类情况时所需时间复杂度较高;Asyali.Musa H使用贝叶斯分类器,贝叶斯
模型有稳定的分类效率,在数据较少的情况下仍然有效,可以处理多类别问题。随机森林等
集成分类方法通过对决策树等基分类器进行集成,分类效果较好,且广泛应用于肿瘤样本
的分类预测研究。
对癌症进行分类的标志物,提出了基于宿主免疫反应评估的新型分类(Im分类)。但这些研
究大多仅仅关注免疫环境中免疫细胞分布特征,而忽略了人体内微生物与人体免疫反应相
互调节,肿瘤组织中免疫基因的表达情况以及免疫细胞的浸润情况。因此,现有的分类方法
的分类效果不够理想。
发明内容
去,造成现有的分类方法的分类效果不够理想的技术问题。
片利用Kraken算法与预设类型的微生物参考序列进行比对,对这些读片进行快速分类;在
Kraken分类结果的基础上,运用Bracken算法进行分析,最终得到微生物的丰度数据。
进行分析,最终得到微生物的丰度数据之前,所述方法还包括:
头;
生成反向互补序列,作为单端未映射读片的配对读片。
生物:cij>0.5si;
度数据,作为新的微生物特征集合;其中,N为预设的常数。
析,得到相对比例差异性符合预设要求的免疫细胞的比例数据。
中所有样本的个数;若x属少数类别数据集中的样本,则为样本x赋予权重 其
中,N[k]为少数类别数据集包含样本的个数;
权重,在测试数据上进行加权投票,得到样本所属类别。
通过训练好的集成分类器实现对肿瘤组织的免疫亚型分类。
疫亚型精准预测的目的。
型的kappa系数为0.68,介于2/5和3/4之间,说明未改进的随机森林模型对文本不平衡的数
据的分类效果不太明显,而改进后的模型kappa系数达到0.82大于3/4,说明改进后的随机
森林模型在本发明的不平衡数据集上表现良好,相比改进之前的模型其分类效果有了显著
提升。
附图说明
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
的附图。
具体实施方式
图1所示,包括以下步骤:
织基因表达谱数据。基于此,对本实施例方法的实现过程具体说明如下:
对,对这些读片进行快速分类;在Kraken分类结果的基础上,运用Bracken算法进行分析,最
终得到微生物的丰度数据。具体步骤如下:
一端读片未映射)。
片符合后续软件的输入格式,本实施例在配对读片的ID后分别加“/1”和“/2”,将其分为两
个FASTQ,分别包含正向读片和反向读片。
duplication等低质量序列。因此,有必要对测序所得数据进行质量控制,以保证RNA‑seq的
高质量。目前,用于质量控制的软件层出不穷,Fastp不仅功能齐全而且速度上比其他软件
还要快,因此,本实施例使用该软件来对筛选出的未映射读片进行质量控制,步骤如下:
于36的序列,删除双端测序接头。然后利用SeqKit对序列进行格式转化:fastq→fasta,以
便进行下游分析。
式统一,以作为重新映射的输入文件,这里使用SeqKit给单端未映射读片生成反向互补序
列,作为单端未映射读片的配对读片,这样单端未映射读片也成为双端序列,可以将其与一
开始的双端序列进行合并。
不同规模的、多种可选的数据库构建方式,为了尽可能多的识别样本中的微生物,本实施例
在Refseq中下载并使用所有完整的细菌,古细菌和病毒基因组用于微生物参考库的构建,
步骤如下:
分类结果的下游软件,其准确性和速度都能保证。
和重新映射就全部完成,最后得到各个样本中各种细菌、真菌、古细菌和病毒的相对丰度。
富集出现的微生物进行下一步研究,因此,在目前的丰度矩阵上进行进一步的处理,步骤如
下:
以下条件的微生物: 进行分析。
弱,剔除这些微生物特征对分类精度影响不大。因此,本实施例基于互信息理论来对微生物
特征进行进一步筛选,选取对训练数据具有较强分类能力的微生物特征,来降低特征空间
的维度。具体的步骤如下:
集合。
率,P(yj|xi)表示在已知该种微生物丰度x=xi条件下,该样本的免疫亚型为yj的概率。那么
样本免疫亚型的信息熵H(y)和已知该种微生物丰度x的条件下,样本免疫亚型为y的条件信
息熵H(x|y)的计算公式如下:
到与免疫亚型紧密相关的10个基因,又称hub基因,并将hub基因的表达量作为分类器的分
类特征,具体步骤如下:
最直接的构建邻接函数方法就是提前设置好基因间相关系数阈值,然后将基因关系划分为
相关和不相关。这种方法虽然简单易行,但如此硬性的划分会丢失基因间存在的大量真实
有效信息。如将阈值设置为0.9,即相关系数大于0.9的基因被认为是相关的,小于0.9则被
划分为不相关,按照该划分方法,不相关基因中除了包含相关系数较小的基因对之外,还包
括相关系数等于0.89的基因对,由此可以看出,这样的划分方法显然是不合理的。为了克服
这个缺点,WGCNA提供了软阈值的方法来衡量基因之间的相关性。
也被称为幂指数加权的相似矩阵。
类分析将多个表达量相近的基因聚成一类,分析每类基因与癌症之间的关联性。加权网络
关联分析是将基因间表达量的相关系数取β次幂,那么相关系数的分布会逐渐符合无尺度
分布,对符合这个分布的关联网络进行分析。将基因按照相关性进行分类,相关性较高的基
因归为一类作为一个模块。
行聚类得到系统聚类树。根据聚类树的聚类情况,可以进一步寻找与疾病相关的基因。
幂律分布规律,通过优化阈值的方法展现网络的无尺度特点和拓扑性质。选取软阈值的具
体标准为:连接度为k的节点个数的对数logk和节点出现概率的对数值logp(k)之间的相关
系数至少要达到0.85。当参数β确定之后,便可以求出邻接函数A=[aij]。
义。WGCNA使用拓扑重叠(topological overlap measure,TOM)的方法计算网络拓扑重叠
性,并且利用下面式子将邻接矩阵转化为拓扑矩阵Ω=[wij]:
因的邻接系数之和。
不会通过其它基因相连接。
本所属免疫亚型的相关性。用每个模块的特征基因ME作为该模块内基因表达整体水平的代
表,分别用1,2,3,4,6代表样本的五种免疫亚型,计算特征基因与样本免疫亚型分类数据之
间的皮尔逊相关系数,选取其中相关系数最大并且P‑value<0.5的模块。其中,P‑value是一
种在原假设为真的前提下出现观察样本以及更极端情况的概率。
块的GS(高基因显著性)>0.5和MM(高模块成员)>0.7的基因。最终筛选出K.within最大的前
10个基因作为本实施例的枢纽基因,并将它作为分类器的一个分类特征。
算法进行估计。
细胞。这些细胞中的基因转录产生大量的RNA,由此得到该组织的基因表达谱。去卷积的目
的是从样本总体基因表达谱中推测不同单一细胞类型的表达谱。它的原理是假设每种细胞
类型在不同组织样本中具有相似的表达水平,可以将组织样本中基因的表达模型化为混合
物中存在的每种细胞类型的表达值(标准化签名矩阵)的加权和(线性组合)。其数学形式表
示如下:
归问题,得到回归系数代表细胞的数量。
过多组模拟数据和实际癌症患者数据对算法进行了验证。
润免疫细胞,这些细胞的比例数据作为分类器的分类特征。
为前提,当各个类别中样本分布不平衡时,假设A类别为少数类,B类别为多数类,分类器往
往会以降低A类的分类准确度为代价以保证整体的分类精度,从而降低对A类别样本的分类
效果。B类的样本数:A类的样本数量>=4时,那么分类结果会偏向B类,而对A类样本分类错
误率较高。
林模型在不平衡数据集上的分类性能。目前,数据层面主要是利用重采样技术来对数据进
行预处理,达到尽量平衡数据样本的效果。常见的有随机欠采样和随机过采样。假设A类样
本为少数类,B类样本为多数类。随机欠采样会丢弃部分B类样本,以缓解A类和B类数据分布
不平衡的问题,但是丢弃的数据中可能包含有价值的信息,容易造成信息损失;随机过采
样:简单重复A类数据,实际上没有A类别增加新的数据,反而过分强调A类数据,容易产生过
拟合。
进行扩充。具体的原理如下:
注多数类,而使少数类样本的分类性能下降。集成学习(Ensemble Learning)的出现对解决
上述问题有着重要意义。它通过调用简单的分类算法,获得多个不同的基分类器,然后采用
某种方式将基分类器组合成一个分类器。在对新的示例进行分类的时候,如果把单个分类
器看作是一个决策者的话,那么,集成学习的结果就相当于是由多个决策者共同完成的一
项决策。
代价;b)多个分类器的集成可以防止过拟合,降低单分类器在处理不平衡数据时可能产生
的偏差。目前,使用广泛的集成学习算法有Boosting和Bagging,其主要思想是通过对训练
集进行不同的处理方式训练得到有差异基分类器,从而提高集成分类器的学习效果。
Bagging(Bootstrap aggregating,也称作“套袋法”)于1996年由Leo Breiman提出,它的特
点是各个弱学习器之间没有依赖关系,可以并行拟合,其算法实现过程如下:
抽中)。共进行k轮抽取,得到k个训练集。(k个训练集之间是相互独立的);
感知器等);
长控制条件,能有效防止决策树过拟合;另外在训练决策树过程中,对特征集也进行了随机
抽样,通过无放回抽样,每次使用特征集中的一部分进行决策树构建。特征集与样本集的双
重随机机制,使得随机森林算法可以处理高维数据,并且可以对特征的重要程度进行自排
序和筛选。此外,该模型泛化能力强,不容易过拟合。
机森林算法进行改进,进一步提高整个分类算法的分类效果。
分类错误调整不同类别的分类代价,提高那些应该是少数类别样本但却被误分为多数类样
本的误分代价,但是在该过程中如何选择错误分类代价因子往往包含很多主观因素,因此
这是一个难点。
策树的分类准确率进行加权投票。具体的算法步骤如下:
数;若x∈Xmin[k],则样例x的权重 其中,N[k]:Xmax[k]包含样例的个数,∑N
[i]:所有样例的个数。
类器的分类准确率作为权重,在测试数据上进行加权投票,得到样本所属类别。
如果分类器只需将所有的样本都预测为正例,分类准确度也能达到90%,很显然在数据分
布不平衡的状况下,分类准确度这一指标并不能很好的衡量算法的分类效果。而ROC曲线和
F1‑Score适用于二分类问题,而本实施例中的分类问题为多分类问题,因此该标准不适用
于本实施实例。因此,在这里,本实施例选择Kappa系数作为模型的评价标准。
小于Pe时,Kappa<0。当 时,说明分类程度较好,当 时,说明度量分类效
果一般;当 时,说明分类效果较差。
本序列格式为映射到人类参考基因组GRCh38后的BAM文件和样本组织的基因表达谱数据。
Candidatus.Annandia.adelgestsuga 0.226885784
Enterobacter.ludwigii 0.225318446
Brevibacillus.agri 0.224708376
Bacillus.circulans 0.21822378
Prochlorococcus.marinus 0.217535006
Lactobacillus.fermentum 0.215957291
Candidatus.Nasuia.deltocephalinicola 0.215527349
Pseudomonas.aeruginosa 0.209186136
Lachnospiraceae.bacterium.oral.taxon.500 0.199813695
Thermomonospora.curvata 0.199686127
Carnobacterium.sp..17.4 0.198001636
Sorangium.cellulosum 0.193036364
Campylobacter.jejuni 0.189024893
Debaryomyces.hansenii 0.186967701
Salmonella.enterica 0.181883732
Stenotrophomonas.maltophilia 0.178105523
Candidatus.Portiera.aleyrodidarum 0.177800821
Klebsiella.pneumoniae 0.17746448
Pseudomonas.stutzeri 0.176261932
Encephalitozoon.cuniculi 0.167891792
Rhodopseudomonas.palustris 0.165606409
X.Candida..glabrata 0.164124601
检验p值参照表3。hub基因的k.within值参照表4。
4之间,说明未改进的随机森林模型对文本不平衡的数据的分类效果不太明显,而改进后的
模型kappa系数达到0.82大于3/4,说明改进后的随机森林模型在本实施例的不平衡数据集
上表现良好,相比改进之前的模型其分类效果有了显著提升。
度、免疫细胞比例以及免疫相关基因表达多方面的因素,并改进了随机森林模型,从而实现
了对胃肠癌肿瘤样本免疫亚型分类的精准预测。
通过训练好的集成分类器实现对肿瘤组织的免疫亚型分类。
型分类方法中的各流程步骤一一对应;故,在此不再赘述。
储有至少一条指令,所述指令由处理器加载并执行上述方法。
随机存取存储器(RAM)、CD‑ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端
中的处理器加载并执行上述方法。
而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存
储介质上实施的计算机程序产品的形式。
中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些
计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以
产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生
用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的
装置。
括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方
框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处
理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机
实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一
个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端
设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排
除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应
视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明
实施例范围的所有变更和修改。