基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法转让专利

申请号 : CN201910417875.4

文献号 : CN110189799B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 宋永红丁志文张元林

申请人 : 西安交通大学

摘要 :

本发明公开了一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,1、对于一个输入的宏基因组分类可操作单元数据集,使用对称不确定性计算每个微生物特征与样本表现型的相关性,依据相关性得分筛选特征,生成子数据集;2、以有放回抽样方式对子数据集进行采样,然后使用变量重要性评分选择前k个特征,迭代上述步骤,迭代完成后统计每个特征的出现次数;3、使用奈曼皮尔逊检验方法计算给定参数下的阈值,筛选出现次数大于阈值的特征作为候选特征集合,出现次数最多的前k个特征为目标特征子集;本发明所提取的宏基因特征显著提高了分类效果,具有更高的稳定性,生成的候选特征集合方便了宏基因组后续医学实验的开展。

权利要求 :

1.一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,其特征在于:包括以下步骤:

步骤A:对于一个输入的宏基因组分类可操作单元数据集,使用对称不确定性计算每个微生物特征与样本表现型的相关性,按照大小排序,依据初筛特征数目选择特征子集,生成原始数据的子数据集用于后续步骤分析;

步骤B:首先以有放回抽样方式对子数据集进行采样,然后计算随机森林的变量重要性评分,按照重要性评分大小进行排序,选择评分最大的前k个特征,迭代上述步骤,迭代完成后统计每个特征的出现次数;

步骤C:依据样本大小、迭代次数和特征选择数目,使用奈曼皮尔逊检验方法计算阈值,筛选出现次数大于阈值的特征作为候选特征集合,其中出现次数最多的前k个特征为最终筛选的特征;具体步骤如下:步骤C01:依据样本大小、迭代次数和特征选择数目,每一次迭代均作为一次独立的伯努利试验,得到随机变量的二项分布概率累积分布的反函数,然后使用奈曼皮尔逊检验计算阈值,公式如下:P(τ>ξcrit″′|H0)=1-P(τ≤ξcrit″′|H0)=α,式中P为二项分布概率,τ为特征出现次数,H0为特征变量随机出现的原假设,α为接受原假设的检验统计量,ξ″′crit为所求阈值;

步骤C02:依据计算所得的阈值,筛选出步骤B中出现次数大于阈值的特征作为候选特征集合,根据出现次数的多少选择最终的前k个特征为所需的特征子集。

2.根据权利要求1所述的一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,其特征在于:所述步骤A的具体步骤如下:步骤A01:对于宏基因组分类可操作单元数据集中的一个特征,首先计算特征的熵,公式为 式中X为任一特征变量,P(xi)为X取值xi时的先验概率,H(X)为特征变量X的熵;然后计算在已知样本类别下的条件熵,公式为:

式中X为任一特征变量,Y为样本类别,P

(yj)为Y取值yj时的先验概率,P(xi|yj)为已知样本类别Y取值yj下X取值xi时的先验概率,H(X|Y)为已知样本类别Y下的条件熵;最后计算特征的对称不确定性SU(X,Y),公式为:式中X为任一特征变量,Y为样本类别,H(X)为特征变量X

的熵,H(Y)为样本类别的熵,H(X|Y)为已知样本类别Y下的条件熵;步骤A02:依据步骤A01计算所有特征的对称不确定性,按照大小排序,然后选择初筛特征数目要求的特征集合,生成子数据集用于后续步骤分析。

3.根据权利要求1所述的一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,其特征在于:所述步骤B的具体步骤如下:步骤B01:以有放回抽样方式对子数据集进行采样,生成与数据集样本数量等同的采样数据集;

步骤B02:以随机森林为分类器,对采样数据集进行数据建模,得到每个变量的重要性评分,依据评分大小选择前k个特征,变量重要性评分衡量标准为变量置换计算所得的袋外数据错误率,公式如下: 式中 为第i个特征的变量重要性评分,M为随机森林决策树个数,ERim为第i个特征在第m棵决策树上的错误率,ER′im为变量置换后的错误率;步骤B03:迭代步骤B01和B02,记录每次迭代筛选的特征,达到循环次数后,统计各个特征的出现次数。

说明书 :

基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择

方法

技术领域

[0001] 本发明属于宏基因组丰度数据分析领域,具体涉及一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法。

背景技术

[0002] 宏基因组丰度数据分析的核心问题是从大量微生物中有效识别出少量对表现型有潜在影响的微生物,广泛应用于医学、生物学、环境学和食品学等学科。宏基因组数据集包含的微生物种类繁多,直接研究所有微生物对表现型的影响所需工作量大,因此需要借助其他方法去除原始数据集的噪声,留下对表现型有潜在影响的微生物,即宏基因组数据的特征选择。
[0003] 为了有效识别关键微生物,领域内通常采用的方法是线性判别分析方法计算特征的效应量,即LEfSe方法。该方法使用效应量可以快速找到样本不同组之间均值差异大的关键微生物,对于区分度较好的数据集具有良好的效果,但还存在明显的缺陷,不能用于非高斯分布和样本分类信息依赖于方差的数据集,欠缺特征之间的相关性分析,这也是宏基因组比较分析研究中的难点。随机森林的变量重要性评分可以从具有复杂关系的宏基因组特征之间有效识别出关键的特征,在宏基因组微生物特征选择中备受青睐。但宏基因组丰度数据包含大量的无关特征,随机森林的特征重要性评分容易受噪声影响。基于奈曼皮尔逊检验的特征选择方法不仅具备基特征选择方法的优点,而且可以将微生物按照等级进行划分,便于下一阶段医学验证实验的开展。

发明内容

[0004] 本发明针对上述问题,提出了一个基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,该方法对于输入的宏基因组数据集,首先采用对称不确定性进行相关性分析,过滤与样本类别无关的特征,生成子数据集;然后以有放回抽样方式对子数据进行采样,对采样后的数据集进行随机森林建模,依据随机森林的变量重要性评分筛选前k个特征,迭代上述步骤,迭代完成后统计个特征的出现次数;最后使用奈曼皮尔逊检验计算阈值作为最小的出现次数,筛选出现次数大于阈值的特征作为候选特征集合,选择出现次数最多的特征作为前k个特征。本方法筛选的宏基因特征显著提高了分类效果,具有更高的稳定性,生成的候选特征集合方便了宏基因组后续医学实验的开展。
[0005] 为达到上述目的,本发明采用如下技术方案:
[0006] 一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,包括如下步骤:
[0007] 步骤A:对于一个输入的宏基因组分类可操作单元数据集,使用对称不确定性计算每个微生物特征与样本表现型的相关性,按照大小排序,依据初筛特征数目选择特征子集,生成原始数据的子数据集用于后续步骤分析;
[0008] 步骤B:首先以有放回抽样方式对子数据集进行采样,然后计算随机森林的变量重要性评分,按照重要性评分大小进行排序,选择评分最大的前k个特征,迭代上述步骤,迭代完成后统计每个特征的出现次数;
[0009] 步骤C:依据样本大小、迭代次数和特征选择数目等参数,使用奈曼皮尔逊检验方法计算阈值,筛选出现次数大于阈值的特征作为特征集合,其中出现次数最多的前k个特征为最终筛选的特征。
[0010] 所述步骤A的具体步骤如下:
[0011] 步骤A01:对于宏基因组分类可操作单元数据集中的一个特征,首先计算特征的熵,公式为 式中X为任一特征变量,P(xi)为X取值xi时的先验概率,H(X)为特征变量X的熵;然后计算在已知样本类别下的条件熵,公式为:
式中X为任一特征变量,Y为样本样本类别,
P(yj)为Y取值yj时的先验概率,P(xi|yj)为已知类别Y取值yj下X取值xi时的先验概率,H(X|Y)为已知样本类别Y下的条件熵;最后计算特征的对称不确定性SU(X,Y),公式为:
式中X为任一特征变量,Y为样本类别,H(X)为特征变量X
的熵,H(Y)为样本类别的熵,H(X|Y)为已知样本类别Y下的条件熵;步骤A02:依据步骤A01计算所有特征的对称不确定性,按照大小排序,然后选择初筛特征数目要求的特征集合,生成子数据集用于后续步骤分析。
[0012] 所述步骤B的具体步骤如下:
[0013] 步骤B01:以有放回抽样方式对子数据集进行采样,生成与数据集样本数量等同的采样数据集;
[0014] 步骤B02:以随机森林为分类器,对采样数据集进行数据建模,得到每个变量的重要性评分,依据评分大小选择前k个特征,变量重要性评分衡量标准为变量置换计算所得的袋外数据错误率,公式如下: 式中 为第i个特征的变量重要性评分,M为随机森林决策树个数,ERim为第i个特征在第m棵决策树上的错误率,ER′im为变量置换后的错误率;步骤B03:迭代步骤B01和B02,记录每次迭代筛选的特征,达到循环次数后,统计各个特征的出现次数。
[0015] 所述步骤C的具体步骤如下:
[0016] 步骤C01:依据样本大小、迭代次数和特征选择数目,每一次迭代均作为一次独立的伯努利试验,得到随机变量的二项分布概率累积分布的反函数,然后使用奈曼皮尔逊检验计算阈值,公式如下:P(τ>ξcrit′″|H0)=1-P(τ≤ξcrit′″|H0)=α,式中P为二项分布概率,τ为特征出现次数,H0为特征变量随机出现的原假设,a为接受原假设的检验统计量,ξ′″crit为所求阈值;
[0017] 步骤C02:依据计算所得的阈值,筛选出步骤B中出现次数大于阈值的特征作为候选特征集合,根据出现次数的多少选择最终的前k个特征为所需的特征子集。
[0018] 本发明技术方案具备以下技术效果:
[0019] 1.本发明方法以随机森林变量重要性评分为基础特征选择方法,克服了常规方法LEfSe的缺点,适用于非高斯分布和样本分类信息依赖于方差的数据集,分析了特征之间的相关性,具有更好的鲁棒性。
[0020] 2.本发明方法使用对称不确定性计算特征与样本分组的相关性,快速过滤了宏基因组数据中的噪声,不仅缩减了数据集,减少了计算量,而且有助于提升了后续随机森林特征选择的分类效果。
[0021] 3.本发明方法采用奈曼皮尔逊检验计算特征出现次数的阈值,筛选得到了较为稳定的特征子集,改善了随机森林变量重要性评分波动的缺陷,具有较好的稳定性和分类效果。
[0022] 4.受限于数据采集的困难,宏基因组数据多为小样本数据,样本变化对特征选择的结果影响较大,本发明方法通过有放回采样避免了过拟合,依据微生物的评分划分不同等级的特征候选集合,方便了后续的医学验证试验。

附图说明

[0023] 图1为本发明的流程示意图。
[0024] 图2为实施例数据集在不同分类器下的受试者工作特征曲线。

具体实施方式

[0025] 下面结合附图和实施例对本发明进一步说明,本实施例针对肝硬化(Cirrhosisi of Liver,CIR)宏基因组数据集展开,肝硬化数据集由肠道采集,包括232例样本,其中肝硬化118例,对照组114例,涉及532个可操作分类单元。
[0026] 参照图1,一种基于变量重要性评分和奈曼皮尔逊检验的宏基因组特征选择方法,包括以下步骤:
[0027] 步骤A:对于肝硬化可操作单元数据集,使用对称不确定性计算每个微生物特征与样本表现型的相关性,按照大小排序,选择前200个特征作为特征子集,生成原始数据的子数据集用于后续步骤分析。
[0028] 步骤B:首先以有放回抽样方式对子数据集进行采样,然后计算随机森林的变量重要性评分,按照重要性评分大小进行排序,选择评分最大的前10个特征,迭代上述步骤1000次,统计每个特征的出现次数。
[0029] 步骤C:依据样本大小、迭代次数和特征选择数目等参数,使用奈曼皮尔逊检验方法计算阈值,筛选特征出现次数大于阈值的特征作为特征集合,其中出现次数最多的前10个特征为最终筛选的特征。
[0030] 所述步骤A的具体步骤如下:
[0031] 步骤A01:对于宏基因组分类可操作单元数据集中的一个特征,首先计算特征的熵,公式为 式中X为任一特征变量,P(xi)为X取值xi时的先验概率,H(X)为特征变量X的熵;然后计算在已知样本类别下的条件熵,公式为:
式中X为任一特征变量,Y为样本类别,P
(yj)为Y取值yj时的先验概率,P(xi|yj)为已知样本类别Y取值yj下X取值xi时的先验概率,H(X|Y)为已知样本类别Y下的条件熵;最后计算特征的对称不确定性SU(X,Y),公式为:
式中X为任一特征变量,Y为样本类别,H(X)为特征变量X
的熵,H(Y)为样本类别的熵,H(X|Y)为已知样本类别Y下的条件熵;
[0032] 步骤A02:依据步骤A01计算所有特征的对称不确定性,按照大小排序,然后选择初筛特征数目要求的特征集合,生成子数据集用于后续步骤分析。
[0033] 所述步骤B的具体步骤如下:
[0034] 步骤B01:以有放回抽样的方式对子数据集进行采样,生成与数据集样本数量等同的采样数据集,共232个样本;
[0035] 步骤B02:以随机森林为分类器,对采样数据集进行数据建模,得到每个变量的重要性评分,依据评分大小选择前10个特征,变量重要性评分衡量标准为变量置换计算所得的袋外数据错误率,公式如下: 式中 为第i个特征的变量重要性评分,M为随机森林决策树个数,ERim为第i个特征在第m棵决策树上的错误率,ER′im为变量置换后的错误率;
[0036] 步骤B03:迭代步骤B01和B02,记录每次迭代筛选的特征,达到循环次数1000后,统计各个特征的出现次数。
[0037] 所述步骤C的具体步骤如下:
[0038] 步骤C01:依据样本大小、迭代次数和特征选择数目,每一次迭代均作为一次独立的伯努利试验,得到随机变量的二项分布概率累积分布的反函数,然后使用奈曼皮尔逊检验计算阈值,公式如下:P(τ>ξcrit″′|H0)=1-P(τ≤ξcrit″′|H0)=α,式中P为二项分布概率,τ为特征出现次数,H0为特征变量随机出现的原假设,α为接受原假设的检验统计量,ξ″′crit为所求阈值;
[0039] 步骤C02:依据计算所得的阈值,筛选出步骤B中特征出现次数大于阈值的特征作为候选特征集合,根据出现次数的多少选择最终的前10个特征为所需的特征子集。
[0040] 经过本发明所述的特征选择方法,肝硬化数据集最后筛选特征的索引集合为{189,187,85,333,188,92,186,215,191,273},出现次数分别为{999,983,983,947,934,871,773,711,454,447},候选特征共17个,索引为{189,187,85,333,188,92,186,215,191,
273,93,225,91,106,95,115,100},阈值为66次。在随机森林、支持向量机和K近邻分类器下的ROC曲线下面积AUC分别为0.937、0.920和0.896,ROC曲线图如图2所示。综上,本发明方法应用于肝硬化宏基因组数据集所筛选的特征子集保留了数据集中的分类信息,找到了关键的微生物,为后续的肝硬化医学实验节省了时间,提升了效率。