一种肺癌诊断标志物及用途转让专利

申请号 : CN202111222066.1

文献号 : CN113913333B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 刘凯华王晓丹赵瑾邵阳朱柳青汪笑男

申请人 : 南京世和基因生物技术股份有限公司南京世和医疗器械有限公司

摘要 :

本发明涉及一种肺癌早期筛查和诊断标志物及用途,属于分子生物医学技术领域。本研究首次通过血浆cfDNA来研究肺癌和健康人的菌群差异,并筛选出具有明显差异的菌群,然后通过随机森林的方法,建立肺癌风险预测模型,适用于肺癌的筛查与诊断,用于筛查肺癌人群。

权利要求 :

1.诊断标志物的检测试剂在制备肺癌的诊断试剂中的应用,其特征在于,所述的诊断标志物包括:芽孢杆菌(Bacillus)、不动杆菌(Acinetobacter)、Sphingopyxis和代尔夫特菌(Delftia)的基因;

所述的应用中,还包括如下步骤:

S1:获取待测样本以及正常样本的血浆,提取cfDNA,采用高通量测序方法进行测序,获得测序读段;

S2;将测序读段比对至人类参考基因组,去除掉人源的DNA序列读段;

S3:将S2步骤中剩下的读段比对至微生物基因组数据库,获得能够比对至所述的诊断标志物的微生物序列的读段,统计读段数目;

S4:对于每个菌种,将读段数目对所述的菌种的基因全长做归一化处理,得到相对丰度;

S5:采用菌种的相对丰度作为输入值,通过机器学习分类算法判断待测样本与正常样本进行分类;

机器学习过程采用患病的概率作为输出值;

机器学习分类算法是随机森林算法;

高通量测序方法的测序深度为1‑10乘。

说明书 :

一种肺癌诊断标志物及用途

技术领域

[0001] 本发明涉及一种肺癌早筛诊断标志物及用途,属于分子生物医学技术领域。

背景技术

[0002] 肺癌作为全球最高致死原因的癌症。尽管手术、化疗、靶向及免疫治疗的综合应用显著提高了肺癌的生存率,但是与其他癌症相比,肺癌患者的预后仍然相对较差。主要原因为大部分肺癌是在晚期被诊断出来的,这与缺乏普及的肺癌早期筛查有关。据报道,晚期转移性肺癌的5年生存率为6%,局部尚未扩散肺癌的5年生存率为59%。所以提高肺癌生存率最有效的方法是早期筛查,以尽快采取治疗方案。
[0003] 现在,肺癌的早筛方法主要是依靠影像学(X线胸片和胸部CT),X线胸片等,它们虽然具有穿透力高、使用方便、辐射剂量小的特点,但分辨率低,很难发现直径<5~6mm的病变,且存在死角,临床不建议用于肺癌的筛查。胸部低剂量CT(LDCT)筛查目前是国际公认的检测肺结节和早期诊断肺癌的最有效方法,然而,由于其高灵敏度,也检测到许多非肿瘤性肺结节,假阳性结节的大量检出是LDCT筛查亟需解决的重要问题,需要其他筛查手段加以补充。

发明内容

[0004] 本发明的目的是:提供了一种对血浆样本cfDNA进行WGS测序,通过对高通量测序结果进行肺癌健康人差异菌群分析、构建模型,实现了对肺癌无创精准诊断的目的。
[0005] 一种肺癌诊断标志物,包括以下的菌:芽孢杆菌(Bacillus)、不动杆菌(Acinetobacter)、 Sphingopyxis、代尔夫特菌(Delftia)。
[0006] 上述的诊断标志物的检测试剂在应用于制备肺癌诊断试剂盒中的用途。
[0007] 还包括如下步骤:
[0008] S1:获取待测样本以及正常样本的血浆,提取cfDNA,采用高通量测序方法进行测序,获得测序读段;
[0009] S2;将测序读段比对至人类参考基因组,去除掉人源的DNA序列读段;
[0010] S3:将S2步骤中剩下的读段比对至微生物基因组数据库,获得能够比对至所述的诊断标志物的微生物序列的读段,统计读段数目;
[0011] S4:对于每种细菌,将读段数目对所述的细菌的基因全长做归一化处理,得到相对丰度;
[0012] S5:采用细菌的相对丰度作为输入值,通过机器学习分类算法判断待测样本与正常样本进行分类。
[0013] 机器学习过程采用患病的概率作为输出值。
[0014] 机器学习分类算法是随机森林算法。
[0015] 高通量测序方法的测序深度为1‑10乘。
[0016] 诊断标志物用于提高诊断特异性和敏感性。
[0017] 用于肺癌诊断的细菌种类的筛选方法,包括如下步骤:
[0018] S1,获取病人样本和正常样本的血浆,提取cfDNA,采用高通量测序方法进行测序,获得测序读段;
[0019] S2,将测序读段比对至人类参考基因组,去除掉人源的DNA序列读段;
[0020] S3,确定出候选细菌种类;
[0021] S4,将剩下的读段比对至微生物基因组数据库,获得能够比对至所述的候选细菌的序列的读段,统计读段数目;
[0022] S5,对于每种细菌,将数目对所述的细菌的基因全长做归一化处理,得到相对丰度;
[0023] S6,从病人样本和正常健康人样本中选取一部分作为训练集,另一部分作为验证集,采用机器学习方法进行分类模型构建,以采用每种细菌的相对丰度作为输入值,对病人样本和正常健康人样本进行分类,通过验证集进行模型的验证,找到具有显著性差异的菌种。
[0024] 采用是否为肺癌的概率作为输出值。
[0025] 机器学习采用随机森林算法。
[0026] 有益效果
[0027] 本发明基于液态活检探究了一种新的检测媒介,血浆cfDNA菌群的检测,旨在通过无创的方法评估微生物组作为肺癌的诊断能力,提高早期肺癌无创诊断的精确性。本发明首次基于血浆cfDNA高通量测序提供了菌群与肺癌关系的诊断模型,该模型能够诊断早期肺癌,具有无创检测、通量高、检测特异性和敏感性高的优点。
[0028] 本研究首次通过血浆cfDNA来研究肺癌和健康人的菌群差异,并筛选出4个具有明显差异的肺癌相关菌群,然后通过随机森林的方法,建立肺癌风险预测模型,适用于肺癌的筛查与诊断,用于鉴定早期肺癌。

附图说明

[0029] 图1:最佳建模差异菌群组合差异柱状图。
[0030] 图2:训练集一ROC曲线图
[0031] 图3:训练集二ROC曲线图
[0032] 图4:验证集ROC曲线图

具体实施方式

[0033] 本发明探究了一种新的检测媒介,血浆cfDNA用来进行菌群的检测。旨在通过无创的方法评估肺癌微生物组作为肺癌的诊断能力,提高早期肺癌无创诊断的精确性。
[0034] 本发明中的涉及到的人群样本的情况如表一所示。
[0035] 从2018.8‑2018.12收集了38例II期和III期肺癌和83例健康人,所有入组的患者签署知情同意书。肺癌患者均为活体组织经病理学确认结果,健康人为常规体检正常。将入组人员分为训练组一(肺癌n=28,健康人n=54)和验证组(肺癌n=10,健康人n=54),同时为了避免人群地域菌群的差异,从已发表文献中下载cfDNA WGS肺癌和健康人测序数据,为训练集二(肺癌n=24,健康人n=60)。所有数据信息如下:
[0036] 表一:建模样本信息
[0037]
[0038] 本发明中的血浆cfDNA样本的提取
[0039] 采用紫色血液收集管(EDTA抗凝管)收集患者8ml全血样本,及时离心分离血浆(2 小时内),转运至实验室后,血浆样本采用QIAGEN血浆DNA提取试剂盒按照说明书进行 ctDNA提取。
[0040] 本发明中所采用的测序方法:
[0041] 本发明中对采集到的cfDNA样本进行WGS~1乘测序。在获得了下机数据之后,首先将数据比对至人类参考基因组上,去除掉能够比对至人类基因组参考序列的读段;再将剩下的读段通过kraken软件比对至微生物基因组数据库中(https://ftp.ncbi.nih.gov/genbank/),本发明中的菌种信息可以在上述的数据库中查找得到;根据比对到该菌种上的读段数目来计算箘的丰度。将菌的长度与测序的读段进行均一化,使得菌群的丰度不受菌群基因大小的影响,计为菌的相对丰度(relative abundance)。
[0042] 模型的构建:
[0043] 将训练组一和训练组二中的肺癌和健康人进行差异菌群的筛选,使用多变量相关线性模型 (Multivariate association with linear models,Maaslin)来计算两组之间菌群丰度差异的概率。确立一个严格的显著阈值,P‑Value<0.05,定义菌群的特异性。筛选训练集一和训练集二有相同差异趋势且任意一组有显著差异的菌种,共7个,如表二所示。
[0044] 表二:训练集一和训练集二相同差异趋势菌列表
[0045]
[0046] 将P‑Value<0.05的7个species使用特征递归消除筛选(recursive feature elimination)算法做1‑7个菌种筛选,选择性能最好的菌种组合,其中在4个菌组合时ROC值在训练组一 (自身数据)中表现最优,同时在训练集一和训练集二总ROC值中表现优异,如表三所示。
[0047] 表三:训练组模型计算结果
[0048]
[0049]
[0050] 使用4个菌种组合(Bacillus,Acinetobacter,Sphingopyxis,Delftia)在训练组中用随机森林方法建模,模型的输入值为4个菌的相对丰度(relative abundance),并通过随机森林的模型输出样本在两个分类(肺癌和健康人)中的概率。计算模型通过ROC值和敏感性特异性评估模型的优异。在训练组一中,模型的AUC 为0.845,如图2所示,其敏感性和特异性分别为82.1%和88.9%,如表四所示。同时将训练组二的数据代入模型中,AUC值为0.701,如图3所示。
[0051] 表四:训练组一在模型中的预测结果
[0052]
[0053] 模型的验证:
[0054] 在验证组中该模型区分肺癌和健康人具有优异性能:将验证组10例肺癌和29例健康人输入肺癌风险预测模型,计算模型通过AUC值和敏感性特异性评估模型的优异。在验证组中,模型的AUC为0.886,如图4所示。模型的敏感性和特异性分别为80.0%和96.5%,如表五所示。
[0055] 表五:验证组在模型中的表现结果
[0056]