一种结直肠癌检测模型构建方法、系统及生物标志物转让专利

申请号 : CN202310770060.0

文献号 : CN116519954B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 高俊顺高俊莉李澜庆彭小军

申请人 : 杭州广科安德生物科技有限公司

摘要 :

本发明提供了一种结直肠癌检测模型构建方法、系统及生物标志物,利用蛋白组学的方法,通过分析结直肠癌患者和正常人的血液中具有显著性差异的蛋白质,筛选出能单独及组合作为生物标志物用于早期预示结直肠癌发生风险的蛋白质,以及包含以上生物标志物的用于预测个体是否是结直肠癌的产品、模型、系统、计算机可读取储存介质及信息数据处理终端,可用于便捷、无创、高效地预测个体是否患结直肠癌,满足临床所需。

权利要求 :

1.一种预测个体是否是结直肠癌的模型的构建方法,其特征在于,所述构建方法包括:(1)数据获取,设置模型组,获取模型组样本血清中生物标志物的浓度;其中,所述模型组中包括结直肠癌组样本和健康对照样本,所检测生物标志物为SPINK5与ORM1、ORM2、CD74、FBLN5、RNASE1、ITIH3、B3GNT2、CEA、CA199的组合;

(2)模型构建,包括如下步骤:

S201,采用模型组中样本的生物标志物浓度作为原始训练数据集,将原始训练数据集按K折交叉验证机制分割成K个子集,选取其中一个子集作为验证集Ddev,未选择的子集合并形成训练数据池Dtrain;

S202,选择广义线性模型算法用于构建预测模型以及算法的超参数优化过程中网格搜索范围,并确定预测模型构建的参数;

S203,基于S201所得训练数据池Dtrain,采用S202所选择的算法及超参数构建预测模型。

2.如权利要求1所述的预测个体是否是结直肠癌的模型的构建方法,其特征在于,还包括S204,根据S203所得到的预测模型,在验证集Ddev采用ROC方法计算模型AUC值,作为模型的最终性能评估值。

3.如权利要求2所述的预测个体是否是结直肠癌的模型的构建方法,其特征在于,其中,基于超参数组合构建模型的方程为:其中,Y为预测值,i表示第i个生物标志物,m表示生物标志物中

组合的蛋白质的个数,Xi表示生物标志物中包含的第i个蛋白质的检测值,Ki表示第i个生物标志物的系数,b为常数。

4.一种预测个体是否是结直肠癌的系统,其特征在于,所述系统包括:

数据采集模块:获取模型组样本血清中生物标志物的浓度,所检测生物标志物为SPINK5与ORM1、ORM2、CD74、FBLN5、RNASE1、ITIH3、B3GNT2、CEA、CA199的组合;其中所述模型组中包括结直肠癌组样本和健康对照样本;

构建模型模块:采用以下步骤构建模型:

S001,采用模型组中样本的生物标志物浓度作为原始训练数据集,将原始训练数据集按K折交叉验证机制分割成K个子集,选取其中一个子集作为验证集Ddev,未选择的子集合并形成训练数据池Dtrain;

S002,选择广义线性模型算法用于构建预测模型以及算法的超参数优化过程中网格搜索范围,并确定预测模型构建的参数;

S003,基于S001所得训练数据池Dtrain,采用S002所选择的算法及超参数构建预测模型;

预测模块:利用构建模型模块所构建的模型对个体进行预测。

5.如权利要求4所述的预测个体是否是结直肠癌的系统,其特征在于,还包括S004,根据S003所得到的预测模型,在验证集Ddev采用ROC方法计算AUC值,作为模型的最终性能评估值。

6.如权利要求5所述的预测个体是否是结直肠癌的系统,其特征在于,基于超参数组合构建模型的方程为:其中,Y为预测值,i表示第i个生物标志物,m表示生物标志物

中组合的蛋白质的个数,Xi表示生物标志物中包含的第i个蛋白质的检测值,Ki表示第i个生物标志物的系数,b为常数。

7.一种计算机可读取储存介质,其特征在于,该计算机可读取储存介质上存储有计算机程序;所述计算机程序被处理器执行时,实现权利要求1‑3任一项所述的预测个体是否是结直肠癌的模型的构建方法。

8.一种信息数据处理终端,其特征在于,用于实现权利要求1‑3任一项所述的预测个体是否是结直肠癌的模型的构建方法。

9.生物标志物在制备预测个体是否是结直肠癌的试剂中的用途,其特征在于,所述生物标志物为SPINK5与ORM1、ORM2、CD74、FBLN5、RNASE1、ITIH3、B3GNT2、CEA、CA199的组合。

10.如权利要求9所述的用途,其特征在于,所述试剂用于检测体液样本中的生物标志物。

11.如权利要求10所述的用途,其特征在于,所述检测体液样本中的标志物为检测个体的体液样本中生物标志物的有无或相对丰度或浓度。

12.一种预测个体是否是结直肠癌的产品,其特征在于,包括试剂盒或芯片,所述试剂盒或芯片包括用于检测生物标志物的试剂,其中,所述生物标志物为SPINK5与ORM1、ORM2、CD74、FBLN5、RNASE1、ITIH3、B3GNT2、CEA、CA199的组合。

说明书 :

一种结直肠癌检测模型构建方法、系统及生物标志物

技术领域

[0001] 本发明涉及医学领域,具体涉及利用蛋白组学筛选结直肠癌的生物标志物并将该生物标志物应用于预测个体是否是结直肠癌。

背景技术

[0002] 蛋白质组学(Proteomics)是研究细胞、组织或生物体中蛋白质组成、定位、变化及其相互作用规律的科学,包括对蛋白质表达模式和蛋白质组功能模式的研究。随着质谱技术的发展,液相色谱与质谱联用技术(LC‑MS/MS)已成为蛋白质组学研究中最主要的工具。蛋白质组学的发展对寻找疾病的诊断标志、筛选药物靶点、毒理学研究等有重要意义,也因此被广泛应用于医学研究。
[0003] 结直肠癌是临床最常见的恶性肿瘤之一,约60%的结直肠癌病人年龄大于65岁,受到人口老龄化及饮食解结构变化等多种因素的影响,结直肠癌的发病率也在逐年递增。据2022年全国癌症报告显示,结直肠癌的发病率仅次于肺癌,死亡率占所有癌症的9.5%,而在女性癌症中位居第二。
[0004] 值得注意的是,早期发现结直肠癌是降低结直肠癌死亡率的一个关键因素,因为当结直肠癌癌症被诊断为局限性疾病时,根治性手术后的5年生存率约为90%;然而,随着疾病的进展,只有5%被诊断为远处转移的患者能生存5年。在各种结直肠癌的筛查方法中,粪便隐血试验(FOBT)被认为是最有效的无创筛查方法,但该方法仍然存在一些目前无法克服的局限性。随着免疫学和分子生物学的发展,肿瘤相关蛋白标志物在结直肠癌的诊治中显示出越来越重要的临床价值,已成为必不可少的辅助诊断、观察疗效和判断预后的生物学指标。临床上已发现多种可以用于结直肠癌诊断、病理分型和临床分期、判断预后和疗效的肿瘤标志物,但目前常用的结直肠癌标志物(CEA和CA199)诊断效能并不理想,尚未发现一种特异的肿瘤标志物对结直肠癌诊断有较高的敏感度以及特异性。
[0005] 因此,寻找新的结直肠癌诊断相关的标志物及多种标志物组合,以及构建结直肠癌诊断预测模型具有重要的临床价值和意义。

发明内容

[0006] 针对现有技术中存在的问题,本发明提供了用于结直肠癌检测的生物标志物以及用于预测个体是否是结直肠癌的模型、系统、计算机可读取储存介质及信息数据处理终端,可用于便捷、无创、高效地预测个体是否患结直肠癌,满足临床所需。
[0007] 具体的,一方面,本发明提供了生物标志物在制备预测个体是否是结直肠癌的试剂中的用途,所述生物标志物选自ORM2、CD74、FBLN5、RNASE1、ITIH3、SPINK5、B3GNT2中的一种。
[0008] 本发明研发团队通过TMT标记定量蛋白质组学研究,用LC‑MS/MS超高效液相色谱‑串联质谱联用方法分析健康组和结直肠癌病人组两组血液样品,再通过正交偏最小二乘法判别在结直肠癌样品和对照样品之间有显著差异的蛋白质,得到与结直肠癌关联的蛋白质,并将这些蛋白质作为生物标志物可用于高效预测个体是否结直肠癌。
[0009] 另一方面,本发明提供了生物标志物在制备预测个体是否是结直肠癌的试剂中的用途,所述生物标志物选自ORM1、ORM2、CD74、FBLN5、RNASE1、ITIH3、SPINK5、B3GNT2、CEA、CA199中至少两种的组合。本发明研发团队结合ORM1,以及目前常用的结直肠癌标志物CEA和CA199,提供了选自以上共10种蛋白质中至少2种的生物标志物,基于生物标志物所构建的结直肠癌诊断模型具有较佳的诊断价值,即可更准确的预测个体是不是结直肠癌。
[0010] 进一步的,本发明研发团队对以上生物标志物所包含蛋白质的数量级组合进行了优选,所述生物标志物选自ORM2、CD74、FBLN5、RNASE1、ITIH3、SPINK5、B3GNT2中至少两种的组合,或选自ORM1、CEA、CA199中1种或多种与ORM2、CD74、FBLN5、RNASE1、ITIH3、SPINK5、B3GNT2中1种或多种的组合。
[0011] 更进一步的,所述生物标志物选自FBLN5、RNASE1、ITIH3、SPINK5、B3GNT2中至少两种的组合,或选自ORM1、ORM2、CD74、CEA、CA199中任意1种或多种与FBLN5、RNASE1、ITIH3、SPINK5、B3GNT2中任意1种或多种的组合。
[0012] 再进一步的,所述生物标志物可选为包含RNASE1和SPINK5;或RNASE1、SPINK5和B3GNT2;或ORM2、RNASE1、SPINK5和B3GNT2;或ITIH3、FBLN5、RNASE1、SPINK5和B3GNT2;或CA199、ORM2、RNASE1、ITIH3、SPINK5和B3GNT2;或CA199、CEA、ORM1、FBLN5、RNASE1、SPINK5和B3GNT2;或CA199、CEA、ORM2、CD74、RNASE1、ITIH3、SPINK5和B3GNT2;或CA199、CEA、ORM1、ORM2、CD74、FBLN5、RNASE1、SPINK5和B3GNT2;或CA199、CEA、ORM1、ORM2、CD74、FBLN5、RNASE1、ITIH3、SPINK5和B3GNT2。
[0013] 需注意,本发明中类粘蛋白1(ORM1)为UniProt数据库编号为P02763的蛋白或者氨基酸序列,类粘蛋白2(ORM2)为UniProt数据库编号为P19652的蛋白或者氨基酸序列CD74分子(CD74)为UniProt数据库编号为P04233的蛋白或者氨基酸序列,小鼠杂交瘤细胞5(FBLN5)为UniProt数据库编号为Q9UBX5的蛋白或者氨基酸序列,核糖核酸酶家族成员1(RNASE1)为UniProt数据库编号为P07998的蛋白或者氨基酸序列,α‑胰蛋白酶抑制剂重链3(ITIH3)为UniProt数据库编号为Q06033的蛋白或者氨基酸序列,丝氨酸肽酶抑制剂Kazal 5型(SPINK5)为UniProt数据库编号为Q9NQ38的蛋白或者氨基酸序列,β‑1,3‑N‑乙酰氨基葡萄糖转移酶2(B3GNT2)为UniProt数据库编号为Q9NY97的蛋白或者氨基酸序列,癌胚抗原(CEA)为UniProt数据库编号为P06731的蛋白或者氨基酸序列,糖类抗原199(CA199)UniProt数据库编号为A0A6B9HG46的蛋白或者氨基酸序列。
[0014] 另一方面,本发明提供了一种用于预测个体是否是结直肠癌的生物标志物,所述生物标志物选自ORM1、ORM2、CD74、FBLN5、RNASE1、ITIH3、SPINK5、B3GNT2、CEA、CA199中至少两种的组合。进一步的,本发明研发团队优选了试剂中所用的生物标志物,以达到更佳的预测个体是不是结直肠癌的技术效果。
[0015] 具体的,另一方面,本发明提供了一种预测个体是否是结直肠癌的产品,该产品包括试剂盒或芯片,所述试剂盒或芯片包括上述用途的生物标志物。在一些实施方式中,所述可用于预测个体是否是结直肠癌的生物标志物可用于以为检测目标制备检测试剂,例如样品前处理试剂、抗原或抗体等适用于所述生物标志物检测的生物试剂及试剂盒;也可以开发成适用于所述生物标志物的标准化试剂或试剂盒等;在一些方式中,所述检测试剂为如上所述生物标志物的抗体,所述抗体为单克隆抗体。进一步的,本发明研发团队对预测个体是否是结直肠癌的产品中试剂盒或芯片中包含的生物标记物进行了优化,以提高产品检测的准确性。
[0016] 另一方面,本发明提供了一种预测个体是否是结直肠癌的模型的构建方法,该方法包括:
[0017] (1)数据获取,设置模型组,获取模型组样本血清中生物标志物的浓度;其中,所述模型组中包括结直肠癌组样本和健康对照样本,所检测生物标志物选自ORM1、ORM2、CD74、FBLN5、RNASE1、ITIH3、SPINK5、B3GNT2、CEA、CA199中至少两种的组合;
[0018] (2)模型构建,包括如下步骤:
[0019] S201,采用模型组中样本的生物标志物浓度作为原始训练数据集,将原始训练数据集按K折交叉验证机制分割成K个子集,选取其中一个子集作为验证集Ddev,未选择的子集合并形成训练数据池Dtrain;
[0020] S202,选择选择广义线性模型(glmnet)算法用于构建预测模型以及算法的超参数优化过程中网格搜索范围,并确定预测模型构建的参数;
[0021] S203,基于S201所得训练数据池Dtrain,采用S202所选择的算法及超参数构建预测模型。
[0022] 进一步的,本发明研发团队对上述模型构建方法中所用采用的生物标志物的组成进行优化,并对通过对验证集Ddev进行评估得到AUC值,该AUC值可作为模型的最终性能评估值。
[0023] 另一方面,本发明公开了一种预测个体是否是结直肠癌的系统,该系统包括:
[0024] 数据采集模块,获取模型组样本血清中生物标志物的浓度,所检测生物标志物选自选自ORM1、ORM2、CD74、FBLN5、RNASE1、ITIH3、SPINK5、B3GNT2、CEA、CA199中至少两种的组合;
[0025] 构建模型模块:采用以下步骤构建模型:
[0026] S001,采用模型组中样本的生物标志物浓度作为原始训练数据集,将原始训练数据集按K折交叉验证机制分割成K个子集,选取其中一个子集作为验证集Ddev,未选择的子集合并形成训练数据池Dtrain;
[0027] S002,选择选择广义线性模型(glmnet)算法用于构建预测模型以及算法的超参数优化过程中网格搜索范围,并确定预测模型构建的参数;
[0028] S003,基于S001所得训练数据池Dtrain,采用S002所选择的算法及超参数构建预测模型。
[0029] 预测模块:利用构建模型模块所构建的模型对个体进行预测。
[0030] 另一方面,本发明公开了一种计算机可读取储存介质,该存储介质上存储有计算机程序;所述计算机程序被处理器执行时,实现上述预测个体是否是结直肠癌的模型的构建方法。
[0031] 可选地,所述存储介质包括ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0032] 另一方面,本发明公开了一种信息数据处理终端,用于实现上述预测个体是否是结直肠癌的模型的构建方法。
[0033] 可选地,所述信息数据处理终端包括处理器及存储器;所述的存储器可能包含RAM,也可能还包括非易失性存储器(NVRAM),例如至少一个磁盘存储器。所述处理器可以是通用处理器,包括CPU、网络处理器(NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0034] 可选地,所述信息数据处理终端包括处理器、存储器和通信器。
[0035] 本发明利用蛋白组学筛选出能单独用于早期预示结直肠癌发生风险的生物标记物ORM2、CD74、FBLN5、RNASE1、ITIH3、SPINK5、B3GNT2,并提出了选自ORM1、ORM2、CD74、FBLN5、RNASE1、ITIH3、SPINK5、B3GNT2、CEA、CA199中至少两种组合的用于预测个体是否是结直肠癌的生物标记物,以及包含以上生物标记物的预测个体是否是结直肠癌的产品、模型及系统、计算机可读取储存介质及信息数据处理终端,可在临床实践中便捷、无创、高效地预测个体是否患结直肠癌。

附图说明

[0036] 图1为实施例1中的健康对照与结直肠癌两组的Wilcoxon结果图;
[0037] 图2为实施例1中的健康对照与结直肠癌两组的ROC和OPLS‑DA分析结果图;
[0038] 图3为实施例3中的glmnet算法不同超参数组合下构建模型的AUC结果图;
[0039] 图4为实施例3中构建的结直肠癌联合诊断模型在模型组中的ROC曲线;
[0040] 图5为实施例3中构建的结直肠癌联合诊断模型在测试组中的ROC曲线;
[0041] 图6为实施例3中构建的结直肠癌联合诊断模型在测试组中的性能评估结果图;
[0042] 图7为实施例4中于不同蛋白质组合生物标志物所构建诊断模型的ROC曲线下面积比较;
[0043] 图8为实施例4中结直肠癌诊断模型(10MP)与传统标志物及其组合的ROC曲线下面积比较;
[0044] 图9为实施例5所示预测个体是否是结直肠癌的系统。
[0045] 需注意,附图中所示“对数转换校正后的P值”用于表征‑Log10 adjust p value;所示“广义线性模型超参数”用于表征glmnet模型超参数。
[0046] 详细说明
[0047] (1)诊断或者检测
[0048] 这里的诊断或者检测是指对于样本中的生物标志物进行检测或者化验,或者目的生物标志物的含量,例如绝对含量或者相对含量,然后通过目标标志物是否存在或者数量的多少来说明提供样本的个体是否可能具有或患某种疾病,或者具有某种疾病的可能性。这里的诊断与检测的含义可以互换。这种检测的结果或者诊断的结果是不能直接作为患病的直接结果,而是一种中间结果,如果获得直接的结果,还需通过病理学或者解剖学等其它辅助手段才能确认患有某种疾病。例如,本发明提供了多种与结直肠癌具有关联性的新的生物标志物,这些标志物的含量的变化与是否患有结直肠癌具有直接的关联性。
[0049] (2)标志物或生物标志物与结直肠癌的联系
[0050] 标志物和生物标志物在本发明中具有相同的含义。这里的联系是指某种生物标志物在样本中出现或者含量的变化与特定疾病具有直接的关联性,例如含量的相对升高或者降低,表示这种患有这种疾病的可能性相对健康人员更高。
[0051] 如果样本中多个不同的标志物同时出现或者含量的相对变化,表示这种患有这种疾病的可能性相对健康人员也更高。也就是说标志物种类中,某一些标志物与患病的关联性强,有些标志物与患病的关联性弱,或者有些甚至与某种特定的疾病无关联。对于那些关联性强的标志物中的一种或者多种,可以作为诊断疾病的标志物,与那些关联性弱的标志物可以与强的标志物组合来诊断某种疾病,增加检测结果的准确性。
[0052] 针对本发明发现的血清中的众多生物标志物,这些标志物都可以用来进行区分结直肠癌与健康人员。这里的标志物可以单独作为单个的标志物来进行直接的检测或者诊断,选择这样的标志物表示该标志物的含量的相对变化与结直肠癌具有强的关联性。当然,可以理解的是,可以选择与结直肠癌关联性强的一种或者多种标志物的同时检测。正常的理解是,在一些方式中,选择关联性强的生物标志物来进行检测或者诊断可以达到一定标准的准确性,例如60%,65%,70%,80%,85%,90%或者95%的准确性,则可以说明,这些标志物可以获得诊断某种疾病的中间值,但并不表示就能直接确认患有某种疾病。
[0053] 当然,也可以选择ROC值越大的差异蛋白质来作为诊断的标志物。所谓的强、弱一般通过一些算法来计算确认,例如标志物与结直肠癌贡献率或者权重分析。这样的计算方法可以是显著性分析(p值或FDR值)和倍数变化(Fold change),多元统计分析主要包括主成分分析(PCA)、偏最小二乘判别分析(PLS‑DA)和正交偏最小二乘判别分析(OPLS‑DA),当然还包括其他的方法,例如ROC分析等。当然,其它的模型预测方法也是可以的,在具体选择生物标志物的时候,可以选择本发明所公开的差异蛋白质,也可以选择或者结合其它现有公知的标志物组合通过模型方法进行预测。

具体实施方式

[0054] 下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。本实施例中使用的试剂均为已知产品,通过购买市售产品获得。
[0055] 实施例1利用蛋白组学筛选结直肠癌的生物标志物
[0056] 1.1样本的收集
[0057] 本研究小组从2021.7‑2021.12收集了50例结直肠癌和50例健康对照,所有入组的患者签署知情同意书。结直肠癌患者均为活体组织经病理学确认结果,健康对照为常规体检正常。结直肠癌患者的纳入标准:(a)无其他恶性肿瘤病史,(b)采血后一个月内进行手术治疗,且经术后病理证实为结直肠癌。对照组的健康人选自体检中心;经胃肠镜检查确诊无胃肠病变、体检无其他重大疾病、年龄性别与病例相匹配的受试者。在知情同意后,将收集的所有血清样品储存在-80℃的血清库中。
[0058] 样本的处理和酶解
[0059] 首先,血浆样本在离心机上离心15分钟(15000xg),取上清液并过滤后进行免疫亲和色谱脱出14种高丰度蛋白。然后用截止分子量为3kDa的浓缩管在离心机上(4000 xg,1小时)浓缩。回收浓缩液,用截止分子量为7kDa的脱盐柱在离心机上(1000xg,2分钟)进行溶液置换(Buffer Exchange),置换液为AEX‑A(20mM Tris,4M Urea,3% isopropanol,pH 8.0)。以AEX‑A为空白,使用BCA方法测定样本中蛋白质浓度。按照表1样本分组情况,加入TCEP至样本中,在37℃下孵育30分钟进行蛋白质还原。然后加入对应的6‑plex TMT试剂,室温下避光孵育1小时进行TMT标记反应。然后用Zeba柱对样本进行缓冲液置换,置换液是AEX‑A。将
6‑plex TMT标记好的样本混合后,加入2mLAEX‑A到混合后的样本中,最终体积为5.5 mL。使用0.22 m过滤器过滤样本并使用2D‑HPLC系统分离6‑plex TMT标记的样本。对收集的组分进行冷冻干燥,最后加入Trypsin‑Lysin C混合酶,于37℃下孵育5小时酶解样本,加入5 μL 
10%TFA以终止酶解反应。一共有60个酶解后的2D‑HPLC组分被用来进行nano‑LC‑MS/MS分析。
[0060] 表1:蛋白组学研究样本分组
[0061]
[0062] 1.3 LC‑MS/MS数据采集与搜库分析
[0063] LC‑MS/MS系统为Easy‑nLC 1200和Q Exactive HFX联用,流动相A为含0.1%甲酸和2%乙腈的水溶液;流动相B为含0.1%甲酸和80%乙腈的水溶液。自制分析柱长度为20cm,填料使用Dr. Maisch GmbH的ReproSil‑Pur C 18,1.9 μm颗粒。1 μg肽段用流动相A相溶解后使用EASY‑nLC 1200超高效液相系统进行分离。液相梯度设置:0‑26 min,7% 22%B;26‑34 ~
min,22% 32% B;34‑37 min,32% 80%B;37‑40 min,80% B,液相流速维持在450 nL/min。
~ ~
[0064] 高效液相系统分离后的肽段注入NanoFlex离子源雾化后进Q Exactive HF‑X进行质谱分析。离子源电压设置为2.1 kV,一级质谱扫描范围设置为400‑1200,分辨率为60,000(MS Resolution);二级质谱扫描范围的起点为100 m/z,分辨率设置为15,000 (MS2 Resolution)。数据依赖型扫描(DDA)模式设定TOP 20母离子依次进入HCD碰撞池碎裂后依次进行二级质谱分析。自动增益控制(AGC)设置为5E4,信号阈值设置为1E4,最大注入时间设置为22 ms。为了避免高丰度肽段的重复扫描,串联质谱分析的动态排除时间设置为30秒。
[0065] 通过LC‑MS/MS获得的质谱数据使用Maxquant (v1.6.15.0)进行检索。数据类型为基于二级报告离子定量的TMT蛋白质组学数据,用于定量的二级谱图要求一级谱图中母离子占比大于75%。数据库来源Uniprot数据库的Homo_sapiens_9606_proteome (release: 2021‑10‑14,sequence: 20614),并且在数据库中加入了常见的污染库,数据分析时删除污染蛋白;酶切方式设置为Trypsin/P;漏切位点数设为2;Firstsearch和Main search的母离子质量误差容忍度分别设为20 ppm和5 ppm,二级碎片离子的质量误差容忍度为20ppm。固定修饰为半胱氨酸烷基化,可变修饰为甲硫氨酸的氧化和蛋白N端的乙酰化。蛋白鉴定、PSM鉴定的FDR都设置为1%。
[0066] 利用正交偏最小二乘判别分析对样本分群,结合显著性分析,筛选差异蛋白质[0067] 采用单变量分析和多元统计分析结合的方式进行差异蛋白质的筛选,其中单变量分析主要包括特征离子在不同分组中的显著性分析(p值或FDR值)和倍数变化(Fold change),多元统计分析主要包括主成分分析(PCA)、偏最小二乘判别分析(PLS‑DA)和正交偏最小二乘判别分析(OPLS‑DA)。
[0068] 我们共计找到581种蛋白物质,其中包括部分新发现的与结直肠癌相关的标志物,和部分已知并被证实与结直肠癌有关的标志物(如癌胚抗原(CEA)、癌抗原(CA199)等)。
[0069] 针对发现的581种蛋白物质,经过分析获得了含量差异显著的蛋白物质。所有统计分析均使用R完成,具体的R相关信息见表2。
[0070] 表2:本发明所用的R及其相关信息
[0071]
[0072] 计算变量投影重要度(Variable Importance for the Projection,VIP)以衡量各蛋白质的表达模式对各组样本分类判别的影响强度和解释能力,进一步进行Wilcoxon秩和检验得到校正后的p值(FDR)。Wilcoxon秩结果如图1,发现581种蛋白物质中,共有90种蛋白在结直肠癌患者血清中含量明显降低,53种蛋白在结直肠癌患者血清中含量明显上升(详见图1)。
[0073] ROC和OPLS‑DA分析结果图见图2,横坐标为ROC分析得到的AUC,纵坐标为OPLS‑DA分析得到的VIP值,点的小大代表Wilcoxon检验计算得到的p value,点的颜色代表VIP值大小显著性评估。
[0074] 根据差异蛋白质的筛选标准:(1)当FC>1.2且adj.P.Val<0.01时,为显著差异下调蛋白。(2)当FC<0.83且adj.P.Val<0.01时,为显著差异上调蛋白。根据该筛选标准,共计找到8种更为显著的差异蛋白,包含生物标志物(类粘蛋白1(ORM1)、类粘蛋白2(ORM2)、CD74分子(CD74)、小鼠杂交瘤细胞5(FBLN5)、核糖核酸酶家族成员1(RNASE1)、α‑胰蛋白酶抑制剂重链3(ITIH3)、丝氨酸肽酶抑制剂Kazal 5型(SPINK5)、β‑1,3‑N‑乙酰氨基葡萄糖转移酶2(B3GNT2))。
[0075] 本发明发现主要显著上调的8种差异蛋白质见表3:
[0076] 表3:结直肠癌与正常健康的差异上调标志物
[0077]
[0078] 表3中LogFC值越大和/或adj.P.Val值越小,在一定程度上说明该差异化合物在两组间的差异性越显著,同时也说明该差异化合物可能具有更高的诊断价值。
[0079] 根据表2可验证,上述1256种结直肠癌患者和正常健康的血清差异物质中,发现了8种差异蛋白在结直肠癌组和非结直肠癌组间的差异更显著,可作为用于高效预测结直肠癌的标志物:类粘蛋白1(ORM1)、类粘蛋白2(ORM2)、CD74分子(CD74)、小鼠杂交瘤细胞5(FBLN5)、核糖核酸酶家族成员1(RNASE1)、α‑胰蛋白酶抑制剂重链3(ITIH3)、丝氨酸肽酶抑制剂Kazal 5型(SPINK5)、β‑1,3‑N‑乙酰氨基葡萄糖转移酶2(B3GNT2)。其中,鉴别结直肠癌与健康差异最显著的是类粘蛋白2(ORM2),随后依次为CD74分子(CD74)、小鼠杂交瘤细胞5(FBLN5)、丝氨酸肽酶抑制剂Kazal 5型(SPINK5)、类粘蛋白1(ORM1)、核糖核酸酶家族成员1(RNASE1)、β‑1,3‑N‑乙酰氨基葡萄糖转移酶2(B3GNT2)、α‑胰蛋白酶抑制剂重链3(ITIH3)。
[0080] 实施例2:单一生物标志物预测结直肠癌
[0081] 本实施例验证了实施例1中筛选出的单个生物标志物用于区分结直肠癌和非结直肠癌、或者从群体中筛选出结直肠癌患者、或者用于预测个体是否是结直肠癌患者或个体得结直肠癌的可能性。
[0082] 具体的,本实施例分别建立了实施例1所得8种蛋白质的ROC曲线,结果如表4所示。本实施例通过曲线下面积(AUC)的大小来判断实验结果的优劣。具体的,当AUC为0.5表示单个蛋白质无诊断价值;当AUC大于0.5,说明单个蛋白质具有诊断价值;AUC越大,则说明单个蛋白质的诊断价值越高。
[0083] 表4:ROC分析结直肠癌与正常健康样本各差异蛋白质的ROC值及相关信息
[0084]
[0085] 需注意,生物标志物的浓度变化与是否患结直肠癌的关联性的高低可通过表中的AUC值、敏感性、特异性等来区分,其中AUC值最为直观和明显。AUC值越高,表示该生物标志物越能准确区分结直肠癌人群和非结直肠癌人群。
[0086] 由表4可以验证,以上8种生物标志物的浓度变化与是否患结直肠癌都具有明显的关联性,单独采用以上生物标志物中的任意一种,其浓度变化用于区分结直肠癌人群和非结直肠癌人群的AUC值都能达到0.7以上,均具有较高的准确性;其中CD74分子(CD74)的关联性最高,AUC值达到0.838,其次为小鼠杂交瘤细胞5(FBLN5),AUC值达到0.816,再次是核糖核酸酶家族成员1(RNASE1),AUC值达到0.801,之后依次为β‑1,3‑N‑乙酰氨基葡萄糖转移酶2(B3GNT2)、α‑胰蛋白酶抑制剂重链3(ITIH3)、丝氨酸肽酶抑制剂Kazal 5型(SPINK5)、前类粘蛋白2(ORM2)、类粘蛋白1(ORM1)。
[0087] 实施例3:10种蛋白质组合生物标记物用于预测个体是不是结直肠癌
[0088] 结直肠癌差异生物标志物不仅可以单独作为结直肠癌与健康鉴别诊断的候选生物标志物,也可选择其中的一种或多种的组合用于结直肠癌的辅助诊断。一般来说,采用单一的生物标志物可用于区分结直肠癌与非结直肠癌血清样本或进行结直肠癌的预测,那么将多种生物标志物进行组合时其区分或预测的准确性更高。
[0089] 但值得注意的是,预测结直肠癌准确性更高的单一生物标志物,在与其他一种或多种生物标志物组合后,其在组合中起的作用不一定越大;此外,并非所采用的生物标志物的个数越多,其组合的预测准确性(AUC值)就越高。因此,为了获得预测准确性更佳的组合生物标志物,本发明研究团队进行了进行大量的验证实验。
[0090] 本实施例对由血清中的类粘蛋白1(ORM1)、类粘蛋白2(ORM2)、CD74分子(CD74)、小鼠杂交瘤细胞5(FBLN5)、核糖核酸酶家族成员1(RNASE1)、α‑胰蛋白酶抑制剂重链3(ITIH3)、丝氨酸肽酶抑制剂Kazal 5型(SPINK5)、β‑1,3‑N‑乙酰氨基葡萄糖转移酶2(B3GNT2)8种蛋白标志物,以及2种常规标志物癌胚抗原(CEA)和癌抗原199(CA199),共10种蛋白标志物(10MP)所构建的预测结直肠癌的模型进行研究。
[0091] 获取数据
[0092] 研究人群:从2021.7‑2021.12收集了300例结直肠癌和650例健康对照,所有入组的患者签署知情同意书。结直肠癌患者均为活体组织经病理学确认结果,健康对照为常规体检正常(含有结节还是不含有结节,或者是不是结直肠癌的人群)。将入组人员按照7:3的比例分为模型组(结直肠癌n=210,健康对照n=450)和测试组(结直肠癌n=90,健康对照n=200)。数据信息如表5:
[0093] 表5:建模样本信息
[0094]
[0095] 结直肠癌患者的纳入标准:(a)无其他恶性肿瘤病史,(b)采血后一个月内进行手术治疗,且经术后病理证实为结直肠癌。对照组的健康人选自体检中心;经胃肠镜检查确诊无胃肠病变、体检无其他重大疾病、年龄性别与病例相匹配的受试者。在知情同意后,将收集的所有血清样品储存在‑80℃的血清库中。
[0096] 本实施例对采集到的血清样本进行酶联免疫吸附剂检测(ELISA),获得血清中类粘蛋白1(ORM1)、类粘蛋白2(ORM2)、CD74分子(CD74)、小鼠杂交瘤细胞5(FBLN5)、核糖核酸酶家族成员1(RNASE1)、α‑胰蛋白酶抑制剂重链3(ITIH3)、丝氨酸肽酶抑制剂Kazal 5型(SPINK5)、β‑1,3‑N‑乙酰氨基葡萄糖转移酶2(B3GNT2)、癌胚抗原(CEA)和癌抗原199(CA199)10种蛋白标志物的浓度。
[0097] 实验数据统计分析
[0098] Shapiro Wilk的测试用于评估正态分布,并且使用非参数检验Wilcoxon测试分别分析模型组和测试组中结直肠癌患者和健康对照之间的血液标志物浓度的差异。
[0099] 在模型组中,采用多种机器学习方法相结合的方法构建10种结直肠癌标志物的联合诊断模型。使用预测概率值以95%置信区间(CI)估计接收器操作员特征(ROC)曲线下面积(AUC),以评估多变量诊断模型的辨别能力。
[0100] 使用测试组,计算Youden指数(YI)以确定用于区分结直肠癌患者与正常对照的预测概率cut‑off值。此外,构建并比较了单个标志物和不同亚组的ROC。计算标准描述性统计数据,例如频率,平均值,中位数,阳性预测值(PPV),阴性预测值(NPV)和标准偏差(SD)以描述研究群体的实验结果。使用R3.6.1进行统计学分析,p值小于0.05被认为是统计学上显著的。
[0101] 结直肠癌诊断模型的构建
[0102] 本实施例以包括10种蛋白质组合的生物标记物(10MP)为例来展示结直肠癌诊断模型的构建过程。
[0103] S201,将模型组中样本的类粘蛋白1(ORM1)、类粘蛋白2(ORM2)、CD74分子(CD74)、小鼠杂交瘤细胞5(FBLN5)、核糖核酸酶家族成员1(RNASE1)、α‑胰蛋白酶抑制剂重链3(ITIH3)、丝氨酸肽酶抑制剂Kazal 5型(SPINK5)、β‑1,3‑N‑乙酰氨基葡萄糖转移酶2(B3GNT2)、癌胚抗原(CEA)和癌抗原199(CA199)10种蛋白标志物的浓度矩阵作为原始训练数据集。
[0104] S201,将原始训练数据集按K折交叉验证机制,分割成K个子集。为确保每一折子集中,多数类样本和少数类样本比例与原始数据集相同,需采用分层K折交叉验证(Stratified K‑Folds cross validation)机制来进行数据分割,分割得到的K个训练数据子集,选择其中一个子集作为验证集Ddev,将未选择的训练数据子集合并形成训练数据池Dtrain。
[0105] S202,选择广义线性模型(glmnet)算法用于构建预测模型,以及算法的超参数优化过程中网格搜索范围。该步骤中,对每种算法设定模型的超参数优化的网格搜索范围如表6所示。
[0106] 表6:glmnet算法的参数网格搜索范围
[0107]
[0108] S203,根据步骤S202设定的算法和超参数设定范围,选择其中一种超参数组合方式,作为预测模型构建的参数,根据步骤S201得到的训练数据集Dtrain,基于所选择的有监督分类算法和超参数构建预测模型。
[0109] 此外,本实施例构建步骤还包括:
[0110] S204,根据步骤S203得到的预测模型,在验证集Ddev进行评估得到AUC值,并将当前预后预测模型与相应的AUC值存储在预测模型池Pool中,供以后基预测模型选择使用。该步骤中提到的评估,可以是AUC值,也可以是其他合理的对模型性能进行评估的指标。
[0111] S205,判断是否每个子集全部做过验证集。如果所有的子集均作为验证集并完成了训练,则继续执行接下来的步骤S206;若有子集并未作为验证集,则执行步骤S201,选择该子集为验证集Ddev。通过该步骤确保原始数据集中,每一个样本均做过验证集,提高模型稳定性,防止模型过拟合于某个子集。
[0112] S206,将得到预测模型池Pool所有模型的AUC平均值作为本次组合方式模型的最终性能评估值。并将模型参数和最终性能评估AUC值存入最优模型池Pool best。
[0113] S207,判断每种超参数组合方式是否全部构建预测模型。该步骤S202得到所有算法和对应的超参数组合方式是否都进行过预测模型的构建。如果所有组合方式均作完成了模型的构建,则执行步骤接下来的步骤S208;若有组合方式未完成模型的构建,则执行步骤S203。
[0114] S208,从步骤S207迭代结束后得到的最优模型池Pool best中,对于每种算法选择AUC值最高的预测模型,存入结直肠癌诊断的候选预测模型集M.set。
[0115] S209,从步骤S208获得的模型集M.set中选择AUC值最大的模型作为结直肠癌诊断的最终预测模型。
[0116] 结直肠癌诊断模型(10MP)参数优化
[0117] 通过上述模型构建步骤执行,我们得到了9种不同glmnet算法超参数的组合下构建的模型(图3),并通过AUC值评估模型性能。如表7和图3所示:当glmnet算法超参数组合为alpha=0.55,lambda=0.0551时,AUC达到最大值0.897(建模过程中采用10倍交叉验证方法计算AUC)。
[0118] 表7:glmnet算法不同超参数组合下构建模型的AUC
[0119]
[0120] 因此,本实施例中采用10种蛋白质组合的生物标志物所构建的基于最优超参数组合构建模型的方程为:
[0121]
[0122] 其中,Y为预测值,i表示第i个生物标志物,m表示生物标志物的个数(m=10),Xi表示第i个生物标志物的检测值(μg/mL),Ki表示第i个生物标志物的系数(表8),b为常数2.28584755043089。
[0123] 表8:模型中10种生物标志物的系数
[0124]
[0125] 3.5结直肠癌诊断模型(10MP)诊断阈值的确定
[0126] 以模型组中的预测值绘制ROC曲线,并根据约登(youden)指数值设置最佳诊断截断值为0.472。即当诊断模型预测值≤0.472时,认为待测者不为结直肠癌患者;当模型预测值>0.472时,认为待测者为结直肠癌患者。结果如图4所示:模型在模型组中AUC为0.886,灵敏度为90.6%,特异性为83.3%。
[0127] 结直肠癌诊断模型(10MP)验证
[0128] 以测试组中的预测值绘制ROC曲线,如图5所示,AUC为0.827。并根据约登(youden)指数值设置最佳诊断截断值为0.465。即当诊断模型预测值≤0.465时,认为待测者不为结直肠癌患者;当模型预测值>0.465时,认为待测者为结直肠癌患者。结果如图6所示:模型在测试组中的准确率为76.1%,Kappa值为0.457,灵敏度为59.4%,特异性为85.0%,阳性预测率为67.9%,阴性预测率为79.7%。
[0129] 实施例4:基于不同蛋白质组合的生物标志物所构建结直肠癌诊断模型的比较[0130] 为了进一步分析研究基于不同蛋白质组合的生物标志物所构建结直肠癌诊断模型的的诊断价值,本实施例中将基于不同蛋白质组合生物标志物所构建的诊断模型在测试组中进行了比较。结果如图7和表9所示,表10示出了表9中Max AUC Panel的生物标志物的系数。
[0131] 表9:基于不同蛋白质组合生物标志物所构建诊断模型的ROC曲线下面积比较[0132]
[0133] 表10: 2MP‑10MP生物标志物所构建的诊断模型Max AUC Panel的生物标志物的系数
[0134]
[0135] 理论上标志物越多可以给疾病诊断提供的信息越多。构建模型的过程就是解释每个标志物在疾病诊断中的作用。模型对部分标志物的解释可能存在偏差,在测试集中反而会降低模型性能。故需要优化模型参数提升标志物的解释能力,同时也需要排除那些容易对模型产生干扰的标志物。这个过程需要通过排列组合方式去找到最优的组合形式。
[0136] 如表9、表10和图7可验证,当生物标志物所包含蛋白质的数量增加时,所构建模型的平均AUC值不断增大,但具体模型的诊断价值则出现更多的不可预见性,比如,参见表9中的Max.组数据,随着生物标志物所包含蛋白质数量的增加,所构建模型的AUC值出现了先增大再变小的变化趋势,而Min.组、1st Qu.组、Median组、Mean组和3rd Qu.模型的AUC值则随着生物标志物中蛋白质数量的变化表现出了其他变化趋势。此外,表9也从一个侧面验证了,当生物标志物中所包含的蛋白质数量相同时,采用不同组合的蛋白质也将导致所构建结直肠癌诊断模型的诊断价值不同。
[0137] 此外,本实施例中将基于10MP生物标志物所构建模型的性能与传统标志物(CEA和CA199)和其组合(2MP,包括CEA和CA199),在测试组中进行了比较。结果如图8和表11所示:
[0138] 表11:结直肠癌诊断模型(10MP)与传统标志物及其组合的ROC曲线下面积比较[0139]
[0140] 如图8和表11可证实,采用AUC差异显著性检验方法DeLong's test结果表明结直肠癌诊断模型(10MP)诊断价值均显著(p<0.05)高于传统标志物或传统标志物组合模型的诊断价值。
[0141] 实施例5:一种预测个体是否是结直肠癌的系统
[0142] 本实施例展示一种预测个体是否是结直肠癌的系统,如图9所示,该系统包括:
[0143] 数据采集模块,获取模型组样本血清中生物标志物的浓度,所检测生物标志物选自ORM1、ORM2、CD74、FBLN5、RNASE1、ITIH3、SPINK5、B3GNT2中的一种,或选自ORM1、ORM2、CD74、FBLN5、RNASE1、ITIH3、SPINK5、B3GNT2、CEA、CA199中的至少两种;其中所述模型组中包括结直肠癌组样本和健康对照样本;
[0144] 构建模型模块:采用以下步骤构建模型:
[0145] S001,采用模型组中样本的生物标志物浓度作为原始训练数据集,将原始训练数据集按K折交叉验证机制分割成K个子集,选取其中一个子集作为验证集Ddev,未选择的子集合并形成训练数据池Dtrain;
[0146] S002,选择选择广义线性模型(glmnet)算法用于构建预测模型以及算法的超参数优化过程中网格搜索范围,并确定预测模型构建的参数;
[0147] S003,基于S001所得训练数据池Dtrain,采用S002所选择的算法及超参数构建预测模型。
[0148] 预测模块:利用构建模型模块所构建的模型对个体进行预测。
[0149] 需注意,本实施例提供的各个模块与实施例3和实施例3所提供的方法、实施方式类似,出于简要目的,此处不再赘述。
[0150] 本领域普通技术人员应理解,该实施例预测个体是否是结直肠癌的系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现过程中可全部或部分集成到一个物理实体上,或进行物理上的分开;且这些模块可全部经软件、通过处理元件调用的形式来实现;或全部以硬件的形式实现;或部分模块通过处理元件调用、部分模块通过硬件的形式实现。此外,需注意,本实施例中这些模块可全部、部分地集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路,具有信号处理能力。
[0151] 在本实施例实现过程中,上述方法的各个步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。例如,以上这些模块可以是被配置成本发明风险预测模型建模方法的一个或多个集成电路,如一个或多个特定的集成电路,或,一个或多个微处理器,或,一个或多个现场可编程门阵列等。再如,当以上模块通过处理元件程序代码的形式实现时,该处理元件可以是通用处理元件,例如中央处理器或其他可以调用程序代码的处理器。再如,这些模块可集成在一起,以片上系统的形式实现。
[0152] 虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。