一种新冠肺炎轻重症预测模型的构建方法及其应用转让专利

申请号 : CN202111332027.7

文献号 : CN114093523B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李杰李鑫埃德温·王王亚东

申请人 : 哈尔滨工业大学

摘要 :

一种新冠肺炎轻重症预测模型的构建方法及其应用,属于医学疾病预测技术领域。为了解决新冠肺炎轻重症患者预测技术中存在的问题,提供了新冠肺炎轻重症预测模型的构建方法,包括对缺失值和极端值进行处理,构建一组能反映患者轻重症发展风险的特征集FS,构建集成模型EM来将多个基线模型优势互补,根据功能关联特征扩展缺失特征四个步骤。结果表明本发明所述的构建方法能够很好的处理缺失值和极端值,提升预测模型的多个预测性能,多个预测指标上表现很好,能取得稳定的表现。利用本发明所述的构建方法获得的新冠肺炎轻重症预测模型能够在新冠肺炎患者感染的早期阶段较为准确地预测轻重症患者,有利于对重症患者提前进行重点护理和治疗。

权利要求 :

1.一种新冠肺炎轻重症预测模型的构建方法,其特征在于,包括如下步骤:

S1、将患者特征根据功能进行分组,对缺失值和极端值进行处理:根据患者存活情况将患者分成轻症组和重症组,求出各个特征中的95百分位数值,对于极端值,使用95百分位数值进行替换,排除极端值干扰;再根据临床特征的功能相似性,将轻症组与重症组的特征分别按照特征功能分成独立特征组、心血管组、肝肾功能组以及炎症组来分别对各组内缺失值进行填充;

S2、构建一组能反映患者轻重症发展风险的特征集FS:基于遗传算法,首先编码一组二进制位串,所述二进制位串的长度与原数据集中包含的特征数目相等,二进制位串上的每个位对应一个特征是否被选择,选择5种预测性能好、但预测结果有差异的基线模型,以每个基线模型的预测输出的ROC曲线下面积作为优化目标,进行200轮迭代运算,分别构建一组特征集,每次迭代时,保留输出AUC取值在前30%的二进制位串,并在通过重组和变异产生新的二进制位串,不断迭代使目标结果最大化,最后将在半数以上基线模型特征集出现的特征进行合并,得到最终的一组特征集FS;所述5种预测性能好、但预测结果有差异的基线模型分别为梯度提升决策树、极度梯度提升、随机森林、线性回归以及支持向量机;所述特征集FS具有14种临床特征,分别为:年龄、血氧饱和度、血小板、平均动脉压、白细胞、淋巴细胞、国际标准化比值、D‑二聚体、葡萄糖、谷丙转氨酶、白细胞介素‑6、C‑反应蛋白、降钙素原、肌钙蛋白;

S3、构建集成模型EM来将多个基线模型优势互补:使用一组系数,将S2获得的5种预测性能良好、但在预测结果有差异的基线模型进行线性组合,获得集成模型EM;

S4、根据功能关联特征扩展缺失特征,并验证预测算法:对于在外部验证集中缺失的FS中的特征,使用功能相关联的特征进行扩展取代,在外部验证集上重复上述S1‑S3三个步骤,来对预测算法进行验证。

2.根据权利要求1所述的构建方法,其特征在于,S1所述缺失值填充的方法如下:对于心血管组、肝肾功能组及炎症组中某组内的某个特征的缺失值,选择根据组内在其他特征取值相近的3个个体在该特征的取值来估计,即某组内某一个体Xk特征为,其中xnk为缺失值,则以该组内与Xk在其他特征距离d最近的3个个体在特征n的均值来估计xnk,任意个体X1与X2距离d定义为:

3.根据权利要求1所述的构建方法,其特征在于,S3所述系数的计算基于遗传算法:首先编码一组二进制位串,每个二进制位串解码为一个取值范围0到1之间的小数,精度达到小数点后8位,以EM模型预测输出的ROC曲线下面积为优化目标,迭代计算使输出ROC曲线下面积最大的系数,新的二进制位串重组和变异方法与S2中相同。

4.根据权利要求3所述的构建方法,其特征在于,S3所述集成模型EM对每个患者的预测得分为probem,等于各基线模型mi输出的预测值probi与对应的系数ci的加权平均,公式如下:

5.一种预测新冠肺炎轻重症的方法,其特征在于,基于权利要求1‑4任一一项所述的构建方法获得的新冠肺炎轻重症预测模型,所述预测新冠肺炎轻重症的方法包括如下步骤:(1)将新冠肺炎患者的临床特征输入所述的新冠肺炎重症预测模型;

(2)根据所述新冠肺炎重症预测模型提供的预测得分probem计算公式,输出被测患者的得分probem,并依据probem将被测患者分为轻型和重型。

6.根据权利要求5所述的方法,其特征在于,所述轻型和重型的判断标准为:当0

说明书 :

一种新冠肺炎轻重症预测模型的构建方法及其应用

技术领域

[0001] 本发明属于医学疾病预测技术领域,具体涉及一种新冠肺炎轻重症预测模型的构建方法及其应用。

背景技术

[0002] 在新冠肺炎患者感染的早期阶段,精准预测轻重症患者有利于分级护理措施的实施,有利于对重症患者提前进行重点护理和治疗,从而有效提高 新冠肺炎患者的治愈率 ,减轻医疗系统的负担。
[0003] 然而,新冠肺炎轻重症患者预测技术的性能以及应用受到多方面因素的影响,其中比较重要的有这几点:1)缺失值的处理。用于构建预测模型的数据集中常含有异常值(以缺失值为主),这些异常值往往与真实值相差甚远,从而导致预测结果产生偏差。合理的处理这些异常值有助于提高预测技术的性能;2)能够反映患者轻重症发展风险的特征集合的构建。在众多临床特征中,只有部分特征能够反映病人病情发展情况,冗余的特征甚至会降低预测方法的性能。因此,正确的构建一组特征集对提升预测技术的性能尤为重要;3)高性能预测模型的构建。不同的预测模型在预测时往往有不同的判断方式,从而导致在不同的预测对象上的预测表现参差不齐。采取合理方式将这些模型进行优势互补,克服单一模型的缺点,可以取得更好更稳定的预测性能;4)缺失特征的处理。在预测方法的应用上,受到检测技术、医疗资源储备的影响,在对一些未知的病人预测时,可能会面临缺少所需临床特征的困难。对这些缺失特征进行扩展,有助于帮助拓宽预测方法的应用范围。

发明内容

[0004] 为了解决上述技术问题,本发明提供了一种新冠肺炎轻重症预测模型的构建方法,该方法包括如下步骤:
[0005] S1、将患者特征根据功能进行分组,对缺失值和极端值进行处理:根据患者存活情况将患者分成轻症组和重症组,求出各个特征中的95百分位数值,对于极端值,使用95百分位数值进行替换,排除极端值干扰;再根据临床特征的功能相似性,将轻症组与重症组的特征分别按照特征功能分成独立特征组、心血管组、肝肾功能组以及炎症组来分别对各组内缺失值进行填充;
[0006] S2、构建一组能反映患者轻重症发展风险的特征集FS:基于遗传算法,首先编码一组二进制位串,所述二进制位串的长度与原数据集中包含的特征数目相等,二进制位串上的每个位对应一个特征是否被选择,选择5种预测性能较好、但预测结果有差异的基线模型,再对于每个基线模型,分别构建一组特征集,最后将在半数以上基线模型特征集出现的特征进行合并,得到最终的一组特征集FS;
[0007] S3、构建集成模型EM来将多个基线模型优势互补:使用一组系数,将S2获得的5种预测性能良好、但在预测结果有差异的基线模型进行线性组合,获得集成模型EM;
[0008] S4、根据功能关联特征扩展缺失特征,并验证预测算法:对于在外部验证集中缺失的 FS中的特征,使用功能相关联的特征进行扩展取代,在外部验证集上重复上述S1‑S3三个步骤,来对预测算法进行验证。
[0009] 进一步地限定,S1所述缺失值填充的方法如下:对于心血管组、肝肾功能组及炎症组中某组内的某个特征的缺失值,选择根据组内在其他特征取值相近的3个个体在该特征的取值来估计,即某组内某一个体Xk特征为,其中xnk为缺失值,则以该组内与 Xk在其他特征距离d最近的3个个体在特征n的均值来估计xnk,任意个体X1与X2距离d 定义为:
[0010]
[0011] 进一步地限定,S2所述5种预测性能较好、但预测结果有差异的基线模型分别为梯度提升决策树、极度梯度提升、随机森林、线性回归以及支持向量机。
[0012] 进一步地限定,S2所述对于每个基线模型分别构建一组特征集的方法如下:分别以每个基线模型的预测输出的ROC曲线下面积作为优化目标,进行200轮迭代运算,每次迭代时,保留输出的ROC曲线下面积取值在前30%的二进制位串,并通过重组和变异产生新的二进制位串,不断迭代使目标结果最大化。
[0013] 进一步地限定,S3所述系数的计算基于遗传算法:首先编码一组二进制位串,每个二进制位串可解码为一个取值范围0到1之间的小数,精度达到小数点后8位,以EM模型预测输出的ROC曲线下面积为优化目标,迭代计算使输出ROC曲线下面积最大的系数,新的二进制位串重组和变异方法与S2相同。
[0014] 进一步地限定,S3所述集成模型EM对每个患者的预测得分为probem,等于各基线模型mi输出的预测值probi与对应的系数ci的加权平均,公式如下:
[0015]
[0016] 本发明还提供了一种预测新冠肺炎轻重症的方法,其特征在于,基于权利要求1‑6任一一项所述的构建方法获得的新冠肺炎轻重症预测模型,所述预测新冠肺炎轻重症的方法包括如下步骤:
[0017] (1)将新冠肺炎患者的临床特征输入所述的新冠肺炎重症预测模型;
[0018] (2)根据所述新冠肺炎重症预测模型提供的预测得分probem计算公式,输出被测患者的得分probem,并依据probem将被测患者分为轻型和重型。
[0019] 进一步地限定,所述轻型和重型的判断标准为:当0
[0020] 本发明的有益效果:
[0021] 本发明提供了一种新冠肺炎轻重症预测模型的构建方法,先在一个较大的数据集上进行了训练和测试,并在一个更大的独立验证集上对我们的方法进行了验证,结果表明: a)我们的数据预处理方法能够很好的处理缺失值和极端值;b)我们构建的特征集能够很好的帮助提升预测模型的多个预测性能;c)我们的优势互补融合方法生成的集成模型在多个预测指标上表现很好;d)通过结合关联特征扩展方法,我们的预测算法在独立验证集上仍能取得稳定的表现。因此,我们的预测算法在帮助人类战胜新冠疫情上具有很好的应用前景。因此,本发明所述的构建方法能够在新冠肺炎患者感染的早期阶段较为准确地预测轻重症患者,有利于分级护理措施的实施,有利于对重症患者提前进行重点护理和治疗,从而有效提高 新冠肺炎患者的治愈率 ,减轻医疗系统的负担。

附图说明

[0022] 图1为新冠肺炎轻重症预测模型的建模框图。

具体实施方式

[0023] 实施例1:新冠肺炎轻重症预测模型的构建方法
[0024] 本方法首先用一组由若干 名新冠确诊患者组成的样本集(队列1)来进行训练和测试,构建预测模型。样本集中患者的临床特征有20种(包括年龄、血氧饱和度、体温、血小板、平均动脉压、血尿素氮、肌酸、白细胞、钠离子、淋巴细胞、国际标准化比值、D‑二聚体、葡萄糖、谷草转氨酶、谷丙转氨酶、白细胞介素‑6、C‑反应蛋白、铁蛋白、降钙素原、肌钙蛋白),这些患者中的 治愈率达 75. 6% 。然后在另一组不同来源的由若干 名新冠确诊患者组成的样本集(队列2)上进行训练和测试,来验证我们的模型,队列2中患者的治愈率达 95.8% ,具体的模型构建方法如下:
[0025] 步骤一、将患者特征根据功能进行分组,对缺失值和极端值进行处理
[0026] 根据队列1中患者治疗 情况将患者分成轻症组和重症组两组,求出各个特征中的95百分位数值,对于极端值,使用95百分位数值进行替换,排除极端值干扰。再根据临床特征的功能相似性,将轻症组与重症组的特征分别按照特征功能分成独立特征组、心血管组、肝肾功能组以及炎症组来分别对各组内缺失值进行填充。对于心血管组、肝肾功能组及炎症组中某个特征的缺失值,选择根据组内在其他特征取值相近的3个个体在该特征的取值来估计。具体来说,某组内某一个体Xk特征为,其中xnk为缺失值,则以该组内与Xk在其他特征距离d最近的3个个体在特征n的均值来估计xnk。任意个体 X1与X2距离d定义为:
[0027]
[0028] 步骤二、构建一组能反映患者轻重症发展风险的特征集FS
[0029] 设计一个基于遗传算法的特征集构建方法:首先编码一组二进制位串(长度为与原数据集中包含的特征数目相等),二进制位串上的每个位对应一个特征是否被选择。选择5组预测性能较好,但预测结果有差异的基线模型,分别以每个基线模型的预测输出的ROC曲线下面积(AUC)作为优化目标,进行200轮迭代运算。每次迭代时,保留输出AUC取值在前
30%的二进制位串,并在通过重组和变异产生新的二进制位串,不断迭代使目标结果 (AUC)最大化。这样,对于每个基线模型,都将构建一组特征集。最终的特征集合FS由在超过半数基线模型特征集中出现的特征组成。
[0030] 获得5种预测性能较好、但预测结果有差异的基线模型分别为梯度提升决策树(GBDT)、极度梯度提升(XGBoost)、随机森林(RF)、线性回归(LR)以及支持向量机(SVM)。
[0031] 最终构建的特征集FS包含14种临床特征,分别为:年龄、血氧饱和度、血小板、平均动脉压、白细胞、淋巴细胞、国际标准化比值、D‑二聚体、葡萄糖、谷丙转氨酶、白细胞介素‑6、C‑反应蛋白、降钙素原、肌钙蛋白。
[0032] 步骤三、构建集成模型EM来将多个基线模型优势互补
[0033] 使用一组系数,将步骤二获得的5个预测性能良好、但在预测结果有差异的基线模型进行线性组合。使用特征集FS中的特征对应的数据集,对各个基线模型进行100轮半对半交叉验证,记录各个模型在每一次测试时的性能指标得分。EM模型对每个患者的预测得分为probem,等于各基线模型mi输出的预测值probi与对应的系数ci的加权平均,公式如下:
[0034]
[0035] 系数的计算基于遗传算法:首先编码一组二进制位串,每个二进制位串可解码为一个取值范围0到1之间的小数,精度达到小数点后8位。以EM模型预测输出的AUC为优化目标,迭代计算使输出AUC最大的系数。新的二进制位串重组和变异方法与步骤二中相同。
[0036] 最终求出的各个基线模型对应系数分别为:0.39620338(GBDT),0.9574559(XGBoost), 0.26222304(RF),0.0315571(LR)以及0.24549838(SVM)。EM模型对每个患者的预测得分为各基线模型输出的预测值与对应的系数的加权平均。
[0037] EM模型在队列1上的各个预测指标得分分别为:精确率为0.868,AUC为0.907,查准率为0.804,查全率为0.605;
[0038] 步骤五、根据功能关联特征扩展缺失特征,并验证预测算法
[0039] 根据关联特征扩展方法,先在队列2中的特征中选择与FS中的特征相同或者功能相似的特征,然后采用步骤2中的特征集构建方法来构建队列2的特征集。将队列1中患者选择与队列2中患者年龄分布范围一致的一个子集(子集1),进行100轮半对半交叉验证;对队列2中患者进行100次半对半交叉验证,每次验证时,根据患者确诊时间抽取与队列 1中未治愈 者 的比例一致的一个患者子集(子集2),比较方法在两个子集中的表现。
[0040] EM模型的在队列1的子集1上的各个预测指标得分分别为:精确率为0.854,AUC 为0.893,查准率为0.799,查全率为0.588。由于子集1属于队列1在一个特定年龄段的子集,因此模型的表现比在整体中(队列1)上表现要差一些。EM模型在子集2上的各个预测指标得分分别为:精确率为0.810,AUC为0.870,查准率为0.683,查全率为 0.511。虽然子集2所属数据集(队列2)中的特征与队列1的特征并不完全相同,但由于采取了关联特征扩展方法,也因此具有较好的预测表现。
[0041] 实施例2:一种预测新冠肺炎轻重症的方法
[0042] 基于实施例1获得的构建方法获得新冠肺炎轻重症预测模型,所述预测新冠肺炎轻重症的方法包括如下步骤:
[0043] (1)将新冠肺炎患者的临床特征输入所述的新冠肺炎重症预测模型;
[0044] (2)根据所述新冠肺炎重症预测模型提供的预测得分probem计算公式,输出被测患者的得分probem,并依据probem将被测患者分为轻型和重型。
[0045] 所述轻型和重型的判断标准为:当0
[0046] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。