一种基于机器学习的背景菌判定方法转让专利

申请号 : CN202111584121.1

文献号 : CN114038501B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 高建鹏韩朋饶冠华蒋智

申请人 : 广州金匙医学检验有限公司

摘要 :

本申请涉及生物信息学技术领域,具体公开一种采用机器学习的背景菌判定方法,所述方法可应用于临床血液样本等的背景菌预测,在不影响报告灵敏度的同时,有效提升报告的特异性,输出更接近临床诊断的结果。

权利要求 :

1.一种基于机器学习的测序数据背景菌判定方法,其特征在于,包括如下步骤:

1)获得样本特征数据步骤,所述样本特征数据包括核酸提取浓度、扩增效率、宿主比例和物种检出的标准化序列数;

2)模型训练步骤,基于特征数据采用随机森林模型进行模型训练;

3)背景菌预测步骤。

2.权利要求1所述的基于机器学习的测序数据背景菌判定方法,其特征在于,所述1)获得样本特征数据的步骤为:a、湿实验阶段特征数据提取:所述特征数据包括核酸提取环节核酸提取浓度及建库环节的扩增效率数据;

b、生信分析阶段特征数据提取:所述特征数据包括计算得到样本中宿主比例和样本中各微生物检出的标准化序列数。

3.权利要求2所述的基于机器学习的测序数据背景菌判定方法,其特征在于,所述样本特征数据需满足:提取浓度>0.3ng/ul,扩增效率>0.2,宿主比例>0.95。

4.权利要求1所述的基于机器学习的测序数据背景菌判定方法,其特征在于,所述2)模型训练的步骤为:a、数据汇总及预处理:将训练集特征数据汇总为观测‑特征二维Table格式,并对Reads数进行对数转化;

b、对待预测病原列表中的每个物种,选取不同检出频率的物种特征同其他特征一起进行随机森林回归模型训练,每次训练基于5折交叉验证选择R^2最大值作为最佳变量数目进而完成模型构建;

所述其他特征为核酸提取浓度、扩增效率和宿主比例。

5.权利要求4所述的基于机器学习的测序数据背景菌判定方法,其特征在于,所述检出频率为5%,10%,15%,20%,25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%和

90%;所述训练的次数为18次。

6.权利要求1所述的基于机器学习的测序数据背景菌判定方法,其特征在于,所述3)背景菌预测的步骤为:a、基于步骤2)采用不同频率物种特征重复构建的随机森林回归模型对样本检出背景菌序列数进行预测,计算预测结果的平均值mean及标准差std;

b、计算得到该物种的背景菌预测序列数阈值Cutoff=mean+2*std,如样本检出的实际序列数超过阈值,则判定为阳性,否则判定为阴性。

7.权利要求1‑6任一所述的基于机器学习的测序数据背景菌判定方法,其特征在于,所述测序数据来自一代、二代或三代测序数据。

8.权利要求7所述的基于机器学习的测序数据背景菌判定方法,其特征在于,所述测序数据来自NGS二代测序数据;

所述样本来自血液、脑脊液或灌洗液样本;

所述样本类型为宏基因组测序样本。

9.核酸提取浓度、扩增效率、宿主比例和物种检出的标准化序列数在测序数据背景菌判定中的用途,其特征在于,所述用途具体包括:获取样本特征数据:核酸提取浓度、扩增效率、宿主比例和物种检出的标准化序列数;针对特征数据采用随机森林模型进行模型训练;

基于训练结果进行背景菌预测。

10.一种基于机器学习的测序数据背景菌判定模型,其特征在于,包括如下模块:

1)获得样本特征数据模块,所述样本特征数据包括核酸提取浓度、扩增效率、宿主比例和物种检出的标准化序列数;

2)模型训练模块,基于步骤1)特征数据,采用随机森林回归模型进行模型训练;

3)背景菌预测模块。

11.一种电子设备,其特征在于,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1‑8任一项所述的方法。

12.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1‑8任一项所述的方法。

说明书 :

一种基于机器学习的背景菌判定方法

技术领域

[0001] 本申请涉及生物信息学技术领域,具体涉及一种基于机器学习的背景菌判定方法及其应用。技术背景
[0002] 已知可引起人类疾病的微生物多于1000种,病原学的探寻始终是感染性疾病诊治的重要环节,对于一些类型的感染性疾病,病因的探求仍然存在很大的困难,尤其对于血流感染,超过50%尚不能明确病因。宏基因组下一代测序(metagenomic next‑generation sequencing,mNGS)技术直接针对标本中核酸无偏倚检测病原微生物序列,经标本前处理、核酸提取、文库制备、上机测序、数据库比对、报告生成及结果解读等一系列过程,具有周期短、灵敏度高、广覆盖等技术优势,已成为感染检测的重要手段。
[0003] 但由于mNGS灵敏度高常常检出了较多背景菌,包括采样引入的污染菌、实验室环境污染菌、试剂工程菌等都容易被检测到,检出频率与序列数随着不同的批次实验,不同的背景菌也有各自特点,且肺炎克雷伯菌、铜绿假单胞菌、大肠埃希氏菌等临床重点关注的病原菌都可能以背景菌的形式被检测到,这直接影响到干扰后续的临床报告的解读。另外,当样本质量不佳,如发生溶血/血脂等,对后续实验提取等产生较大影响,进而放大环境背景菌,干扰报告解读的准确性。
[0004] 目前,对于背景菌的判断往往参考同批实验样本(包括阴性对照样本)检出情况及历史样本检出数据,如基于与同批阴性样本(或历史样本检出水平)检出序列数比值是否超过阈值等方法,然而历史样本与当下临床样本检出的背景菌会存在一定的波动,阴控样本与实际血液样本检出病原谱也存在差异,故基于历史样本或阴控背景菌判读方法存在假阳性高、滞后性的问题,误差大等问题。
[0005] 针对上述问题,本申请基于机器学习方法探索其背景菌水平判定的可行性,实践中主要技术门槛如下:
[0006] 1)样本量需要足够的积累:对某类样本类型,如血液,本申请依托金匙医学检验所近千例合格的临床血液样本(如样本未发生溶血),这些样本经过了相同的湿实验流程和干实验分析流程,有效的数据为模型构建奠定了基础。
[0007] 2)准确可靠的金匙病原湿实验分析流程:从样本前处理,到提取建库,上机环节均有标准SOP流程,部分实验方法进行流程优化,且进行专利保护。
[0008] 3)准确可靠的金匙病原检测软件:从生信分析软件(如创新性的生信假阳性过滤算法)和数据库(高效的去人源序列数据库,高质量的病原基因组库)两方面为准确分析样本检出物种谱奠定了坚实基础,且该流程经过了临床研究数据验证,相关数据已在高分文献中发表。
[0009] 4)初步确定影响背景菌检出的关键特征:在临床大量样本报告解读过程中锁定了影响背景菌检出的重要湿实验关键特征(提取浓度、扩增效率)和干实验指标(宿主比例、物种检出标准化序列数),这些有效特征为基于样本自身实时预测背景菌载量奠定了基础。
[0010] 5)将机器学习算法运用到mNGS背景菌载量预测场景且模型性能良好:利用机器学习算法如随机森林、逻辑回归、SVM等对宏基因组数据进行模型构建多见于肠道菌群与疾病预测方向,如基于粪便肠道菌群预测癌症的发生等。但在病原检测应用场景中,应用机器学习方法去尝试解决mNGS背景菌载量的可行性尚无报道。经验证,机器学习模型在实际临床样本实例数据中表现良好,可以有效预测样本背景菌载量,为报告解读人员加快解读效率的同时,排除背景菌干扰提供了有效依据,大大降低了漏报和误报的风险。

发明内容

[0011] 本申请目的是寻求一种基于机器学习的背景菌判定方法及应用,尤其对临床血液样本的背景菌判定方法及应用。
[0012] 为实现上述目的,本申请提出如下技术方案:
[0013] 本申请首先提供一种基于机器学习的测序数据背景菌判定方法,包括如下步骤:
[0014] 1)获得样本特征数据,
[0015] 所述样本特征数据包括核酸提取浓度、扩增效率、宿主比例和物种检出标准化序列数;
[0016] 2)模型训练,基于特征数据采用随机森林模型进行模型训练,
[0017] 3)背景菌预测。
[0018] 进一步的,所述1)获得样本特征数据的步骤为:
[0019] a、湿实验阶段特征数据提取:包括核酸提取环节核酸提取浓度及建库环节的扩增效率数据;
[0020] b、生信分析阶段特征数据提取:包括计算得到样本中宿主比例和样本中各微生物检出的标准化序列数;
[0021] 进一步的,所述宿主比例=测序数据中比对到人源基因组的序列数/数据质控后样本的测序总序列数;所述标准化序列数为完成病原数据库注释后得到样本中各微生物检出的标准化序列数,具体=物种实际检出序列数/数据质控后样本的测序总序列数*20000000。
[0022] 进一步的,所述样本特征数据需满足:提取浓度>0.3ng/ul,扩增效率>0.2,宿主比例>0.95。
[0023] 进一步的,所述2)模型训练的步骤为:
[0024] a、数据汇总及预处理:将训练集特征数据汇总为观测‑特征二维Table格式,并对Reads数进行对数转化;
[0025] b、对待预测病原列表中的每个物种,选取不同检出频率的物种特征同其他特征一起进行随机森林回归模型训练,每次训练基于5折交叉验证选择R^2最大值作为最佳变量数目进而完成模型构建;
[0026] 进一步的,所述其他特征为核酸提取浓度、扩增效率和宿主比例。
[0027] 进一步的,所述检出频率为5%,10%,15%,20%,25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%和90%;所述训练次数为18次。
[0028] 进一步的,所述3)背景菌预测的步骤为:
[0029] 1)基于步骤2)采用不同频率物种特征重复构建的随机森林回归模型对样本检出背景菌序列数进行预测(优选进行18次预测),计算预测结果的平均值mean及标准差std;
[0030] 2)计算得到该物种的背景菌预测序列数阈值Cutoff=mean+2*std,如样本检出的实际序列数超过该阈值,则判定为阳性,否则判定为阴性。
[0031] 进一步的,所述测序数据来自一代、二代或三代测序数据;优选的,来自NGS二代测序数据;
[0032] 进一步的,所述样本来自血液、脑脊液、灌洗液样本;优选的,来自为血液样本;
[0033] 进一步的,所述样本类型为宏基因组测序样本。
[0034] 本发明还提供一种基于机器学习的测序数据背景菌判定模型,包括如下模块:
[0035] 1)获得样本特征数据模块,所述样本特征数据包括核酸提取浓度、扩增效率、宿主比例和微生物检出的标准化序列数;
[0036] 2)模型训练模块,基于步骤1)特征数据,采用随机森林模型进行模型训练,[0037] 3)背景菌预测模块。
[0038] 进一步的,所述1)获得样本特征数据的步骤为:
[0039] a、湿实验阶段特征数据提取:包括核酸提取环节核酸提取浓度及建库环节的扩增效率数据;
[0040] b、生信分析阶段特征数据提取:包括计算得到样本中宿主比例和样本中各微生物检出的标准化序列数;
[0041] 进一步的,所述宿主比例=测序数据中比对到人源基因组的序列数/数据质控后样本的测序总序列数;所述标准化序列数为完成病原数据库注释后得到样本中各微生物检出的标准化序列数,具体=实际检出序列数/数据质控后样本的测序总序列数*20000000。
[0042] 进一步的,所述样本特征数据需满足:提取浓度>0.3ng/ul,扩增效率>0.2,宿主比例>0.95。
[0043] 进一步的,所述2)模型训练的步骤为:
[0044] a、数据汇总及预处理:将训练集特征数据汇总为观测‑特征二维Table格式,并对Reads数进行对数转化;
[0045] b、对待预测病原列表中的每个物种,选取不同检出频率的物种特征同其他特征一起进行随机森林回归模型训练,每次训练基于5折交叉验证选择R^2最大值作为最佳变量数目进而完成模型构建;
[0046] 进一步的,所述其他特征为核酸提取浓度、扩增效率和宿主比例。
[0047] 进一步的,所述检出频率为5%,10%,15%,20%,25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%和90%;所述训练次数为18次。
[0048] 进一步的,所述3)背景菌预测的步骤为:
[0049] 1)基于步骤2)采用不同频率物种特征重复构建的随机森林回归模型对样本检出背景菌序列数进行预测(优选进行18次预测),计算预测结果的平均值mean及标准差std;
[0050] 2)计算得到该物种的背景菌预测序列数阈值Cutoff=mean+2*std,如样本检出的实际序列数超过该阈值,则判定为阳性,否则判定为阴性。
[0051] 进一步的,所述测序数据来自一代、二代或三代测序数据;优选的,来自NGS二代测序数据;
[0052] 进一步的,所述样本来自血液、脑脊液、灌洗液样本;优选的,来自为血液样本;
[0053] 进一步的,所述样本类型为宏基因组测序样本。
[0054] 本发明还提供一种电子设备或产品,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行上述任一项所述的方法。
[0055] 本发明还提供一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行上述任一项所述的方法。
[0056] 本发明还提供了上述提及的核酸提取浓度、扩增效率、宿主比例和物种检出的标准化序列数在测序数据背景菌判定中的用途。
[0057] 进一步的,所述用途具体包括:获取样本特征数据:核酸提取浓度、扩增效率、宿主比例和物种检出的标准化序列数,针对特征数据采用随机森林模型进行模型训练,基于训练结果进行背景菌预测。
[0058] 进一步的,所述获取上述的样本特征数据、随后采用随机森林模型进行模型训练或进行背景菌预测的步骤,具体如上述具体方法所述。
[0059] 本申请有益技术效果:
[0060] 1)本申请基于机器学习的方法对背景菌进行判定,该方法有助于后续报告解读标准化及自动化报告解读的实现。
[0061] 2)本申请基于样本自身的“特征”数据(提取浓度、扩增效率、宿主比例以及病原物种检出标准化序列数)进行背景菌的预测,反映了样本当下的状态,具有实时性。
[0062] 3)本申请避免人工解读的主观误判,降低漏报及多报的风险,提升报告解读人员解读效率及报告准确率。
[0063] 4)本申请对干实验物种谱特征,根据其总体中的检出频率进行分级,并对不同层级的背景菌分别训练然后求平均值,降低了偶然污染物种或重要背景菌不稳定检出的影响。
[0064] 5)此外,本申请通过比较测试不同机器学习模型的预测性能,确定随机森林模型为最佳模型;本申请模型训练过程中基于5折交叉验证确定了最佳变量个数;本申请比较测试随机森林模型不同参数对预测结果的影响,确定最佳参数;通过阴性样本测试确定了血液样本关键的质控指标及阈值。

附图说明

[0065] 图1本申请预测背景菌的技术路线图;
[0066] 图2病原检测表单reads数;
[0067] 图3某批次血液样本物种检出谱,包含背景菌放大;
[0068] 图4核酸投入量对提取浓度、扩增效率、宿主比例指标影响散点图;
[0069] 图5不同核酸投入量阴性样本主要背景菌检出序列数热图;
[0070] 图6核酸投入量对常见背景菌检出序列数影响箱型图;
[0071] 图7总物种数箱型图;
[0072] 图8物种谱标准化序列数基于PCA主成分分析图,加权PCA结果和非加权PCA结果;
[0073] 图9核酸投入量对部分临床重要病原的检出序列数影响箱型图;
[0074] 图10 9种常见背景菌模型R^2性能比较热图(测试集);
[0075] 图11种常见背景菌模型R^2性能比较热图(验证集);
[0076] 图12随机森林回归模型对Burkholderia cepacia序列数预测结果折线图(测试集);
[0077] 图13随机森林回归模型对Burkholderia cepacia序列数预测结果折线图(验证集);
[0078] 图14对Burkholderia cepacia预测贡献特征权重排名;
[0079] 图15 887例临床血液样本部分物种检出情况统计;
[0080] 图16正态分布中不同概率与标准差对应关系;
[0081] 图17基于不同标准差下模型灵敏度与特异性数据;
[0082] 图18基于不同标准差下模型灵敏度与特异性数据;
[0083] 图19临床验证样本模型预测性能;
[0084] 图20临床验证样本模型预测结果混淆矩阵;
[0085] 图21临床培养阳性样本详细预测结果。

具体实施方式

[0086] 下面将结合实施例对本申请的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本申请,而不应视为限制本申请的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市场购买获得的常规产品。
[0087] 部分术语定义
[0088] 除非在下文中另有定义,本申请具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本申请。
[0089] 如本申请中所使用,在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”,“所述”,包括该名词的复数形式。
[0090] 如本申请中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
[0091] 本申请中的术语“大约”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10%,优选±5%。
[0092] 此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本申请描述的实施方案能以不同于本申请描述或举例说明的其它顺序实施。
[0093] 以上术语或定义仅仅是为了帮助理解本申请而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。
[0094] 本申请所述的基于机器学习的背景菌判定方法大体为这样一类方法,整体分为三部分内容,具体可参见图1所示:
[0095] 包括如下步骤:
[0096] 1)获得样本特征数据,所述样本特征数据包括核酸提取浓度、扩增效率、宿主比例和物种检出的标准化序列数;
[0097] 2)模型训练,基于特征数据进行模型训练,
[0098] 3)基于训练结果进行背景菌预测。
[0099] 在一些实施方式中,所述1)获得样本特征数据的步骤为:
[0100] a、湿实验阶段特征数据提取:包括核酸提取环节核酸提取浓度及建库环节的扩增效率数据;b、生信分析阶段特征数据提取:包括计算得到样本中宿主比例和样本中各微生物检出的标准化序列数;
[0101] 在一些实施方式中,所述宿主比例=测序数据中比对到人源基因组的序列数/数据质控后样本的测序总序列数;所述标准化序列数为完成病原数据库注释后得到样本中各微生物检出的标准化序列数,具体=实际检出序列数/数据质控后样本的测序总序列数*20000000。
[0102] 在一些实施方式中,所述样本特征数据需满足:提取浓度>0.3ng/ul,扩增效率>0.2,宿主比例>0.95。
[0103] 在一些实施方式中,所述2)模型训练的步骤为:a、数据汇总及预处理:将训练集特征数据汇总为观测‑特征二维Table格式,并对Reads数进行对数转化;b、对待预测病原列表中的每个物种,选取不同检出频率的物种特征同其他特征一起进行随机森林回归模型训练,每次训练基于5折交叉验证选择R^2最大值作为最佳变量数目进而完成模型构建;
[0104] 在一些实施方式中,所述其他特征为核酸提取浓度、扩增效率和宿主比例。
[0105] 在一些实施方式中,所述检出频率为5%,10%,15%,20%,25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%和90%;所述训练次数为18次。
[0106] 在一些实施方式中,所述3)背景菌预测的步骤为:a基于步骤2)采用不同频率物种特征重复构建的随机森林回归模型对样本检出背景菌序列数进行预测(优选进行18次预测),计算预测结果的平均值mean及标准差std;b计算得到该物种的背景菌预测序列数阈值Cutoff=mean+2*std,如样本检出的实际序列数超过该阈值,则判定为阳性,否则判定为阴性。
[0107] 可以理解,在知晓本发明的核心思想下,本发明的方法适用并不受限制,比如所述测序数据可以是来自一代、二代或三代测序数据;所述样本可以来自血液、脑脊液、灌洗液样本;本发明的特定实施例中,样本来自血液样本;所述样本类型也不做限制,本发明特定实施例为针对宏基因组测序样本。
[0108] 可以理解,本申请所述的样本来源可以多种,在一些实施方式中,比如说明书实施例中提及的血液、痰液、肺泡灌洗液等,这里不做限制。在一些优选的实施方式中,所述样本为血液样本。
[0109] 下面结合具体实施例来阐述本申请。
[0110] 实施例1影响背景菌检出的关键特征,以及血液样本质控指标确定
[0111] 在mNGS报告的表单中常检出如痤疮丙酸杆菌、表皮葡萄球菌、约氏不动杆菌、皮氏罗尔斯菌等来自于试剂、实验室、皮肤等环境的菌,且在表单中序列数排名靠前,也有重要病原可能以低序列的形式被检出,如粪肠球菌、鸟分支杆菌等,示例性如图2所示。
[0112] 提取浓度(从临床样本中分离出cfDNA分子的浓度)和扩增效率(二代测序文库构建过程中的一个环节)为湿实验环节反映样本实验过程是否异常的两个重要指标,前者的高低可以反映样本中核酸的总量,后者为建库过程中PCR环节核酸扩增效果好坏的指标,可以反映核酸质量的优劣,二者均为目前临床报告解读过程中参考的关键指标。当提取浓度低或者扩增效率低时,往往这些样本环境背景菌被放大严重,表单中物种序列数较正常水平均显著增加,如阴沟肠杆菌正常水平检出约500条,当背景菌被放大后可能会检出1000条,如何量化这种背景菌放大的水平将影响到后续报告解读的准确性。如图3所示,该图为某批次物种检出谱数据(后两行样本为背景菌放大样本)。
[0113] 为了验证上述背景菌检出影响因素,本申请设计了阴性样本实验,即将10ng,5ng,1ng,0ng共4个梯度起始量的人源核酸混入PBS溶液,每个梯度设计三个重复,然后采用与临床血液样本同样流程的湿实验方法进行建库测序,采用MGISEQ‑2000平台,基于金匙病原检测生信分析流程得到各个样本的病原检测表单。
[0114] 由图4可知,随着核酸投入量增加,提取浓度、扩增效率及宿主比例呈逐渐增加趋势。由图5和6可知,当核酸投入量低于5ng时,主要背景菌检出序列数同常规样本相比(图3中背景菌正常样本),已经严重放大。故可基于5ng量指标图4中横需线所示,提取浓度>0.3ng/ul,扩增效率>0.2,宿主比例>0.95作为样本实验环节是否合格的质控指标。
[0115] 进一步,以质控指标是否合格对临床血液样本分组(Good:质控合格;Bad:质控不合格),质控不合格组样本背景菌放大,检出物种总数显著增加(参见箱型图7)。对物种谱标准化序列数进行基于PCA主成分分析(加权PCA:基于物种检出种类及序列数进行降维分析;非加权PCA:仅基于物种检出种类),由图8可知,质控合格与质控不合格表单组成差异大,对血液样本也适用。
[0116] 由图9可知,随着核酸投入量的降低,部分临床重要病原(如肺炎克雷伯菌,大肠埃希菌等)检出序列数也呈增加趋势,即来自外界环境的少量关键病原核酸也会被放大,这样会对报告解读产生较大的干扰。
[0117] 综上,背景菌的序列数与实验环节样本核酸提取量及核酸质量密切相关。基于提取浓度、扩增效率、宿主比例以及病原检出谱数据,能否利用机器学习的方法通过对背景菌进行评估并预测出背景菌的水平为本申请探索的核心问题。
[0118] 实施例2、机器学习模型构建及判阳阈值确定
[0119] 1、机器学习模型的确立和构建
[0120] 为确定最佳回归分析模型,本实施例比较了线性回归(Linear Regression)、岭回归(Ridge Regression)、决策树回归(Decision Tree Regression)、SVM回归(SVM Regression)和随机森林回归模型(RandomForest Regression)在训练集和测试集中的预测性能R^2。
[0121] 首先,训练集及测试集纳入包括金匙医学医检所常规送检887例临床血液样本,收集这些样本的训练特征数据,包括湿实验特征(提取浓度、扩增效率)和干实验特征(宿主比例、物种标准化序列数)。然后,对每种模型均采用7:3比例划分训练集和测试集,基于5折交叉验证方法确定最大mean R^2点为最佳训练特征变量数目,最后,对训练集和验证集的预测(验证集为金匙医学医检所常规送检另外72例临床血液样本)。
[0122] 图10和图11分别展示了测试集和验证集中不同模型对9种常见背景菌的回归预测效果,结果显示不论在测试集还是验证集中,随机森林回归模型R^2都要优于其他模型,可能与随机森林算法不易过拟合、线性及非线性模型均适用的特点有关。
[0123] 图12和图13分别展示了测试集和验证集中Burkholderia cepacia的预测结果(随机森林回归模型)。图14展示了随机森林回归模型训练过程中对阴沟肠杆菌复合群预测的贡献度排名,权重排名前20特征中包括了常见背景菌特征如痤疮丙酸杆菌(Cutibacterium acnes),滕黄微球菌(Micrococcus  luteus),湿实验特征如提取浓度(ExtractionConcentration),扩增效率(AmplificationRatio)及干实验特征宿主比例(Hostrate),与实际生产场景吻合。
[0124] 综上,本申请选择随机森林回归算法进行模型构建。
[0125] 2、判阳阈值确定
[0126] 为了进一步提升背景菌预测的准确性,降低偶然污染或mNGS检出物种谱波动对模型训练的影响,设定不同物种检出频率阈值(报告解读过程中判定背景菌的重要参考指标,检出频率越高越可能是环境背景菌,图15为887例临床血液样本的物种检出情况统计表,如痤疮丙酸杆菌在样本总体中100%检出),即纳入5%,10%,15%,20%,25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%检出频率以上的物种各进行1次随机森林回归模型训练及预测,最终以18次模型预测结果的平均值+N倍标准差(Mean+N*std)作为最终的背景菌判定标准(N=1,2,3,各取值对应正态分布中的概率阈值见图
16)。然后,基于参考品数据集(阴性样本:仅包括人源核酸和阳性样本:不同病原核酸和人源核酸),通过比较N=1,2,3三种阈值下模型背景菌过滤的性能数据确定最终模型阈值(阈值=平均值+N倍标准差)。
[0127] 根据图17和18结果可知,在N=2时模型的灵敏度为90%,特异性为71%,整体优于N=1(特异性低,背景菌过滤效果差)及N=3(灵敏度低,漏报比例高)。假阳性意味着样本检出的病原序列数处于较高水平,可能为环境的偶然污染或强阳样本的气溶胶污染等,对报告解读也起到一定的提示作用。
[0128] 实施例3、本申请方法确立
[0129] 根据上述实施例1和2的探索优化,最终确立本申请的基于机器学习的背景菌判定方法,具体步骤如下:
[0130] 1、获得临床血液样本特征数据步骤;
[0131] 1)湿实验阶段特征数据提取:包括核酸提取环节提取浓度及建库环节的扩增效率数
[0132] 据
[0133] 2)生信分析阶段特征数据提取:包括计算得到各个样本宿主比例(比对到人源基因组的序列数/数据质控后样本的测序总序列数)和完成病原数据库注释后得到样本中各微生物检出的标准化序列数(标准化检出序列数=实际检出序列数/数据质控后样本的测序总序列数*20000000)。
[0134] 2、基于随机森林模型进行模型训练步骤:所述具体步骤包括
[0135] 1)数据汇总及预处理:将训练集特征数据汇总为观测‑特征二维Table格式并对Reads数进行对数转化(Log10)
[0136] 2)对待预测病原列表中的每个物种,选取
[0137] 5%,10%,15%,20%,25%,30%,35%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%检出频率以上的物种特征同其他特征一起共进行18次随机森林回归模型训练,每次训练过程中基于基于5折交叉验证选择R^2最大值作为最佳变量数目进而完成模型构建过程。
[0138] 3、背景菌预测:对待预测病原列表中的每个物种
[0139] 1)基于步骤2构建的随机森林回归模型对样本检出背景菌序列数进行预测(不同频率物种重复预测18次),计算18次重复预测结果的平均值mean及标准差std.
[0140] 2)计算得到该物种的背景菌预测序列数阈值Cutoff=mean+2*std,如样本检出的实际序列数超过该阈值,则判定为阳性,否则判定为阴性。对判定为阳性的物种后续可以结合临床症状,定植菌,是否为污染等进一步解读。
[0141] 实施例4、临床样本检测及性能评价
[0142] 收集金匙医学医检所临床研究培养阳性样本样本31例,且提取浓度、扩增效率和宿主比例均满足质控标准(见图21),对mNGS检出的重要细菌、真菌病原共进行了874次模型预测,以临床培养为金标准(临床培养阳性样本详细预测结果见图21),经模型预测分析,由图19、20可知,模型灵敏度81%,其中21次预测假阴性物种主要原因为样本检出病原序列数过低导致(图21深灰色背景),包括3例大肠杆菌,2例肺炎克雷伯菌,1例白色念珠菌,标准化序列数中值5,样本核酸载量在检测限附近,与背景均检出水平接近难以区分,易造成假阴性。此外,模型特异性84%,对mNGS有较好的背景菌过滤效果。
[0143] 综上,基于机器学习背景菌预测模型在不影响检测灵敏度的同时,有效提升了检测的特异性。
[0144] 最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。