生物标志物及其在预测和/或诊断UTUC进展时间中的应用转让专利

申请号 : CN202311050108.7

文献号 : CN117004729B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李明珠

申请人 : 上海爱谱蒂康生物科技有限公司

摘要 :

本发明提供了生物标志物及其在预测和/或诊断UTUC进展时间中的应用,具体涉及一种构建UTUC进展时间预测模型的方法、UTUC进展时间预测模型、样本是否为UTUC进展时间的预测方法、用于预测UTUC进展时间的系统、生物标志物在制备预测和/或诊断UTUC进展时间的试剂盒中的应用、用于检测生物标志物的试剂、用于检测生物标志物的试剂在制备预测和/或诊断UTUC进展时间的试剂盒中的应用及一种生物标志物组合。所述生物标志物与UTUC进展时间存在较高的相关性,所述UTUC进展时间预测模型在检测UTUC进展时间方面具有较高的准确率、灵敏度和特异性。

权利要求 :

1.一种用于检测生物标志物的试剂在制备预测和/或诊断UTUC进展时间的试剂盒中的应用;其特征在于,所述生物标志物由以下蛋白质组成:TMPO、NXF1、ARIH1、EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3;

所述试剂用于检测所述生物标志物的蛋白表达水平。

2.一种用于检测生物标志物的试剂,其特征在于,所述生物标志物由以下蛋白质组成:

TMPO、NXF1、ARIH1、EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3;所述试剂用于检测所述生物标志物的蛋白表达水平。

3.一种生物标志物组合,其特征在于,所述生物标志物组合由以下蛋白质组成:TMPO、NXF1、ARIH1、EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3。

4.一种试剂盒,其特征在于,所述试剂盒包含如权利要求2所述的试剂和如权利要求3所述的生物标志物组合。

5.一种UTUC进展时间预测模型的构建方法,其特征在于,所述构建方法包括:

将蛋白质表达量数据库中的蛋白质表达量数据LASSO‑Cox进行机器学习,构建得到所述UTUC进展时间预测模型;所述蛋白质表达量数据库中蛋白质表达量数据的来源包含未行术前化疗的UTUC患者的血浆样本,所述未行术前化疗的UTUC患者具有不同的UTUC进展时间;所述蛋白质表达量数据由以下生物标志物的蛋白质表达量数据组成:TMPO、NXF1、ARIH1、EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3;

所述蛋白质表达量数据通过LC‑MS技术得到,使用DIA检测方式或PRM检测方式采集;所述DIA检测方式采集的数据经Firmiana软件进行肽段匹配;所述肽段匹配的数据库为UniProt人类蛋白质数据库;采用DIA‑NN分析经Firmiana处理后的蛋白质表达量数据:使用iBAQ方法进行蛋白质定量,计算各蛋白质的FOT,并将各蛋白的FOT作为蛋白质表达量数据输入LASSO‑Cox模型;

所述蛋白质表达量数据输入LASSO‑Cox模型前,先将所述蛋白质表达量数据分为发现队列和验证队列,所述发现队列和验证队列的比例为2:1‑8:1;输入LASSO‑Cox模型的蛋白质满足:UTUC患者进展时间与该患者的蛋白表达量有显著相关性,即Spearman P < 0.05。

6. 如权利要求5所述的构建方法,其特征在于,所述UTUC进展时间预测模型为如下计算公式:Predicted PFS = 53.557609 + AK2×0.0634408 + IFITM3× 0.1816506 ‑ LRG1 × 0.020376 ‑ NDUFAF3 × 0.341377 ‑ PPP5C×0.052722‑SNRPB×0.159858‑ NXF1×

0.039298 – ARIH1×0.82372 + TMPO×1.5458147‑ EIF4H×0.845486,所述Predicted PFS的数值即为UTUC进展时间。

7.一种用于预测UTUC进展时间的系统,其特征在于,所述系统包括:

数据接收模块,用于接收或输入血浆样本中的蛋白质表达量数据,所述蛋白质表达量数据由以下生物标志物的蛋白质表达量数据组成:TMPO、NXF1、ARIH1、EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3;

判断并输出模块,用于在所述接收或输入完成后,通过如权利要求5或6所述的构建方法构建得到的UTUC进展时间预测模型,输出对所述血浆样本的个体UTUC进展时间的预测结果;

所述系统还包括数据处理模块,用于采集血浆样本中的蛋白质表达量数据;所述蛋白质表达量数据通过LC‑MS技术得到,使用DIA检测方式或PRM检测方式采集;所述DIA检测方式采集的数据经Firmiana软件进行肽段匹配;所述肽段匹配的数据库为UniProt人类蛋白质数据库;采用DIA‑NN分析经Firmiana处理后的蛋白质表达量数据:使用iBAQ方法进行蛋白质定量,计算各蛋白质的FOT,并将各蛋白的FOT作为蛋白质表达量数据输入LASSO‑Cox模型。

8.一种计算机辅助的UTUC进展时间预测方法,其特征在于所述UTUC进展时间预测方法包括以下步骤:

步骤1:接收或输入血浆样本中的蛋白质表达量数据,所述蛋白质表达量数据由以下生物标志物的蛋白质表达量数据组成:TMPO、NXF1、ARIH1、EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3;

步骤2:将步骤1接收或输入的蛋白质表达量数据输入如权利要求5或6所述的构建方法构建得到的UTUC进展时间预测模型,输出对所述血浆样本的个体UTUC进展时间的预测结果。

9.一种计算机可读存储介质,其存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,可实现如权利要求7所述的系统的功能。

10.一种电子设备,其包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器用于执行所述计算机程序以实现如权利要求7所述的系统的功能。

说明书 :

生物标志物及其在预测和/或诊断UTUC进展时间中的应用

技术领域

[0001] 本发明属于生物医药技术和诊断领域,具体涉及一种构建UTUC进展时间预测模型的方法、UTUC进展时间预测模型、用于预测UTUC进展时间的系统、生物标志物在制备预测和/或诊断UTUC进展时间的试剂盒中的应用、用于检测生物标志物的试剂、用于检测生物标志物的试剂在制备预测和/或诊断UTUC进展时间的试剂盒中的应用及一种生物标志物组合。

背景技术

[0002] 上尿路尿路上皮癌(Upper tract urothelial carcinoma,UTUC)包括输尿管和肾盂癌,相对不常见,仅占尿路上皮癌(UC)的5%~10%。约75%的UTUC患者表现为血尿(肉眼或镜下),较少见的症状是侧腹疼痛或可触及肿块。55%~59%的UTUC患者在诊断时有肌肉侵犯,肌层浸润性UTUC(MI‑UTUC)预后极差。肿瘤分期为pT2/pT3的UTUC患者的5年特异性生存率为小于50%,pT4的小于10%。疑似UTUC的患者需要接受侵入性检查,如计算机断层扫描(CT)尿路造影、逆行肾盂造影或输尿管镜检查,以明确诊断。但这些方法很难在疾病的早期发现。尿细胞学是一种无创性检测方法,但其诊断UTUC或MI‑UTUC的灵敏度和特异性均较低。因此,寻找可靠的生物标志物来诊断UTUC是否肌肉浸润是改善临床管理和患者预后的关键任务。
[0003] 血浆样本易于获得且是无创的,血浆蛋白是血浆的主要功能成分,在信号传导、转运和抗感染等多种生物学过程中发挥关键作用。目前,血浆蛋白质组学技术已被广泛应用于各种疾病的研究,如前列腺癌、新型冠状病毒、以及酒精相关性肝病等。蛋白质组学肿瘤诊断具有灵敏度高、特异性强、背景机理明确的优点,近年来被越来越多地运用于肿瘤检测。而且,这些肿瘤标志物的研究往往是基于一定量的实验数据,所涉及的癌症种类和样本量都相对有限。因此,通过收集血浆蛋白质组数据,利用大数据分析方法,建立预测模型,有助于更好地诊断和监测UTUC患者的病程进展,对于帮助指导UTUC患者的咨询、随访安排、辅助治疗、临床决策等具有重要意义。

发明内容

[0004] 针对现有技术中缺少便捷且准确的诊断UTUC(Upper  tract urothelial carcinoma,上尿路尿路上皮癌)是否肌肉浸润的技术的缺陷,基于高灵敏度、高分辨率、高精准的现代质谱技术,结合生物信息学分析及机器学习,本发明提供了一种构建UTUC进展时间预测模型的方法、UTUC进展时间预测模型、样本是否为UTUC进展时间的预测方法、用于预测UTUC进展时间的系统、生物标志物在制备预测和/或诊断UTUC进展时间的试剂盒中的应用、用于检测生物标志物的试剂、用于检测生物标志物的试剂在制备预测和/或诊断UTUC进展时间的试剂盒中的应用及一种生物标志物组合。所述生物标志物与UTUC进展时间存在较高的相关性,所述UTUC进展时间预测模型在检测UTUC进展时间方面具有较高的准确率、灵敏度和特异性。
[0005] 为解决上述技术问题,本发明提供的一个技术方案为:一种生物标志物在制备预测和/或诊断UTUC进展时间的试剂盒中的应用;其中,所述生物标志物包括以下一种或多种蛋白质:TMPO、NXF1和ARIH1。
[0006] 在本发明一较佳实施方案中,所述生物标志物还包括EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3。
[0007] 为解决上述技术问题,本发明提供的一个技术方案为:一种用于检测生物标志物的试剂,所述生物标志物包括以下一种或多种蛋白质:TMPO、NXF1和ARIH1。
[0008] 在本发明一较佳实施方案中,所述生物标志物还包括EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3。
[0009] 在本发明一较佳实施方案中,所述试剂用于检测所述生物标志物的表达水平;所述表达水平为蛋白表达水平和/或mRNA转录水平。
[0010] 在本发明一较佳实施方案中,所述试剂为用于转录组和/或蛋白质组测序的试剂。
[0011] 在本发明一较佳实施方案中,所述试剂为与所述生物标志物特异性结合,或者与编码所述生物标志物的核酸特异性杂交的生物分子试剂。
[0012] 在本发明一较佳实施方案中,所述生物分子试剂选自引物、探针和抗体。
[0013] 为解决上述技术问题,本发明提供的一个技术方案为:一种用于检测生物标志物的试剂在制备预测和/或诊断UTUC进展时间的试剂盒中的应用;所述生物标志物包括以下一种或多种蛋白质:TMPO、NXF1和ARIH1。
[0014] 在本发明一较佳实施方案中,所述生物标志物还包括EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3。
[0015] 在本发明一较佳实施方案中,所述试剂如本发明前文所述。
[0016] 为解决上述技术问题,本发明提供的一个技术方案为:一种生物标志物组合,所述生物标志物组合包括以下一种或多种蛋白质:TMPO、NXF1和ARIH1。
[0017] 在本发明一较佳实施方案中,所述生物标志物还包括EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3。
[0018] 为解决上述技术问题,本发明提供的一个技术方案为:一种试剂盒,所述试剂盒包含如发明所述的试剂和如本发明所述的生物标志物组合。
[0019] 为解决上述技术问题,本发明提供的一个技术方案为:一种检测UTUC进展时间的方法,所述方法包括检测待测血浆样本中的生物标志物的表达水平;所述生物标志物包括以下一种或多种蛋白质:TMPO、NXF1和ARIH1。
[0020] 在本发明一较佳实施方案中,所述生物标志物还包括EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3。
[0021] 在本发明一较佳实施方案中,所述表达水平为蛋白表达水平和/或mRNA转录水平。
[0022] 在本发明一较佳实施方案中,所述检测UTUC进展时间的方法为非诊断目的的。
[0023] 本发明中,所述“非诊断目的”是指出于科学研究、病理数据统计的目的,适用场景包括验证动物模型是否成功构建、体外药效实验、肿瘤的流行病学统计等。
[0024] 为解决上述技术问题,本发明提供的一个技术方案为:一种UTUC进展时间预测模型的构建方法,所述构建方法包括:
[0025] 将蛋白质表达量数据库中的蛋白质表达量数据LASSO‑Cox进行机器学习,构建得到所述UTUC进展时间预测模型;所述蛋白质表达量数据库中蛋白质表达量数据的来源包含未行术前化疗的UTUC患者的血浆样本(具有不同的UTUC进展时间,例如进展时间为12个月、72个月和60个月,12个月、72个月和60个月的血浆样本的比例例如为21%、36%和44%,也可为18%、27%和32%);所述蛋白质表达量数据包括以下生物标志物的蛋白质表达量数据TMPO、NXF1和ARIH1。
[0026] 在本发明一较佳实施方案中,所述生物标志物还包括EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3。
[0027] 在本发明一较佳实施方案中,所述不同UTUC患者进展时间是按患者进展时间将UTUC患者样本分为1年、3年和5年三组。
[0028] 在本发明一较佳实施方案中,所述蛋白质表达量数据通过LC‑MS技术得到,使用DIA(data‑independent acquisition,数据非依赖性)检测方式或PRM(parallel reaction monitoring,平行反应检测)检测方式采集。
[0029] 在本发明一更佳实施方案中,所述DIA检测方式采集的数据经Firmiana软件进行肽段匹配。优选地,所述肽段匹配的数据库为UniProt人类蛋白质数据库;和/或,采用DIA‑NN分析经Firmiana处理后的蛋白质表达量数据:使用iBAQ(Intensity‑based absolute‑protein‑quantification,无标签的基于强度的绝对定量)方法进行蛋白质定量,计算各蛋白质的FOT(Fraction of total,定义为该蛋白质的iBAQ值除以样品中所有已鉴定蛋白质的总iBAQ值),并将各蛋白的FOT作为蛋白质表达量数据输入LASSO‑Cox模型。
[0030] 在本发明一更佳实施方案中,所述PRM检测方式可参考PMID:36347856和PMID:27958391。优选地,PRM原始数据由Skyline‑daily(4.2.1.19004,华盛顿大学,美国)搜索,并用Skyline‑daily报道的片段总面积对蛋白质进行量化;选择多肽,并在样本中测试其信号的稳定性和峰的形状,以供最终量化,并参考skyline提供的排名。例如所述PRM检测方式中使用的靶向肽段如表1中的SEQ ID NO:1‑6所示。
[0031] 在本发明一较佳实施方案中,所述蛋白质表达量数据输入LASSO‑Cox模型前,先将所述蛋白质表达量数据分为发现队列和验证队列。优选地,所述发现队列和验证队列的比例为2:1‑8:1,更优选为4:1。
[0032] 在本发明一较佳实施方案中,输入LASSO‑Cox模型的蛋白质满足:UTUC患者进展时间与该患者的蛋白表达量有显著相关性,即Spearman P<0.05。
[0033] 在本发明一较佳实施方案中,所述LASSO‑Cox模型为先将蛋白质的FOT输入Cox回归模型的R包,再将筛选得到的蛋白质的FOT输入LASSO模型的R包。
[0034] 在本发明一更佳实施方案中,Cox回归模型的R包为:
[0035] library(survival)
[0036] library(survminer)
[0037] data=read.csv("UTUC OS 365.csv")
[0038] survival_dat=data
[0039] my.surv<‑Surv(survival_dat$Time,survival_dat$Status)
[0040] cox_results<‑apply(survival_dat[,5:length(survival_dat)],2,function(values1){
[0041] group=ifelse(values1>median(values1),'xHigh','Low')#mean median[0042] survival_dat<‑data.frame(group=group,stringsAsFactors=F)
[0043] m=coxph(my.surv~group,data=survival_dat)
[0044] beta<‑coef(m)
[0045] se<‑sqrt(diag(vcov(m)))
[0046] HR<‑exp(beta)
[0047] HRse<‑HR*se
[0048] #summary(m)
[0049] tmp<‑round(cbind(coef=beta,se=se,z=beta/se,p=1‑pchisq((beta/se)^2,1),HR=HR,HRse=HRse,HRz=(HR‑1)/HRse,HRp=1‑pchisq(((HR‑1)/HRse)^2,1),HRCILL=exp(beta‑qnorm(.95,0,1)*se),HRCIUL=exp(beta+qnorm(.95,0,1)*se)),3)[0050] return(tmp['groupxHigh',])
[0051] })
[0052] (df=cox_results[,cox_results[4,]<1.5])
[0053] df_surv=data.frame(t(cox_results))
[0054] write.csv(df_surv,'all new351xx OSmedian c.csv')。
[0055] 在本发明一更佳实施方案中,所述LASSO模型的R包为:library(glmnet)
[0056] library(foreign)
[0057] rm=(list=ls())
[0058] x=read.csv("UTUC21gene.csv",header=T,row.names=1)
[0059] y=read.csv("UTUCPFS.csv",header=T,row.names=1)
[0060] x=t(as.matrix(x))
[0061] y=t(as.matrix(y))
[0062] f1=glmnet(x,y,family="gaussian",nlambda=100,alpha=1)
[0063] #f1=glmnet(x,y,family="binomial",nlambda=100,alpha=1)print(f1)[0064] plot(f1,xvar="lambda",label=TRUE)
[0065] cvfit=cv.glmnet(x,y)
[0066] plot(cvfit)
[0067] cvfit$lambda.min
[0068] cvfit$lambda.1se
[0069] l.coef2<‑coef(cvfit$glmnet.fit,s=cvfit$lambda.min,exact=F)
[0070] l.coef2@x
[0071] data=l.coef2@x
[0072] dataName=l.coef2@Dimnames[[1]]
[0073] dataIndex=l.coef2@i+1
[0074] dataName2=dataName[dataIndex]
[0075] data=data.frame(dataName2,data)
[0076] write.csv(data,"genenewlianxu21.csv")
[0077] mod=glm(y~x[,'ARIH1']+x[,'EIF4H']+x[,'PPP5C']+x[,'NDUFAF3']+x[,'LR G1']+x[,'NXF1']+x[,'SNRPB']+x[,'AK2']+x[,'TMPO']+x[,'IFITM3'],family="gaussian")
[0078] summary(mod)
[0079] p=predict(mod,as.data.frame(x))
[0080] p
[0081] p=as.data.frame(p)。
[0082] 为解决上述技术问题,本发明提供的一个技术方案为:一种UTUC进展时间预测模型,所述UTUC进展时间预测模型由如本发明所述的UTUC进展时间预测模型的构建方法建构得到。
[0083] 在本发明一较佳实施方案中,所述构建方法中输入LASSO‑Cox模型的蛋白质由TMPO、NXF1和ARIH1构成。
[0084] 在本发明一较佳实施方案中,所述生物标志物由SPAG9、HNRNPL、ATP6AP1、TWF2、EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3构成。
[0085] 在本发明一较佳实施方案中,所述UTUC进展时间预测模型为如下计算公式:Predicted PFS=53.557609+AK2×0.0634408+IFITM3×0.1816506‑LRG1×0.020376‑NDUFAF3×0.341377‑PPP5C×0.052722‑SNRPB×0.159858‑NXF1×0.039298–ARIH1×
0.82372+TMPO×1.5458147‑EIF4H×0.845486,所述Predicted PFS的数值即为UTUC进展时间,所述Predicted PFS的数值的单位为月。
[0086] 为解决上述技术问题,本发明提供的一个技术方案为:一种样本UTUC进展时间的预测方法,所述预测方法包括将样本的蛋白质表达量数据输入如本发明所述的UTUC进展时间预测模型,得到样本的UTUC进展时间的预测结果;所述蛋白质表达量数据包括以下生物标志物的蛋白质表达量数据:TMPO、NXF1和ARIH1。
[0087] 在本发明一较佳实施方案中,所述生物标志物还包括EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3。
[0088] 优选地,所述预测方法为非诊断目的的。
[0089] 在本发明一较佳实施方案中,所述蛋白质表达量数据通过LC‑MS技术得到,使用DIA(data‑independent acquisition,数据非依赖性)检测方式或PRM(parallel reaction monitoring,平行反应检测)检测方式采集。
[0090] 在本发明一更佳实施方案中,所述DIA检测方式采集的数据经Firmiana软件进行肽段匹配。优选地,所述肽段匹配的数据库为UniProt人类蛋白质数据库;和/或,采用DIA‑NN分析经Firmiana处理后的蛋白质表达量数据:使用iBAQ(Intensity‑based absolute‑protein‑quantification,无标签的基于强度的绝对定量)方法进行蛋白质定量,计算各蛋白质的FOT(Fraction of total,定义为该蛋白质的iBAQ值除以样品中所有已鉴定蛋白质的总iBAQ值),并将各蛋白的FOT作为蛋白质表达量数据输入LASSO‑Cox模型。
[0091] 在本发明一更佳实施方案中,所述PRM检测方式可参考PMID:36347856和PMID:27958391。优选地,PRM原始数据由Skyline‑daily(4.2.1.19004,华盛顿大学,美国)搜索,并用Skyline‑daily报道的片段总面积对蛋白质进行量化;选择多肽,并在样本中测试其信号的稳定性和峰的形状,以供最终量化,并参考skyline提供的排名。例如所述PRM检测方式中使用的靶向肽段如表1中的SEQ ID NO:1‑6所示。
[0092] 在本发明一较佳实施方案中,所述预测结果为Predicted PFS的数值,所述Predicted PFS的数值通过以下公式计算得到:Predicted PFS=53.557609+AK2×0.0634408+IFITM3×0.1816506‑LRG1×0.020376‑NDUFAF3×0.341377‑PPP5C×0.052722‑SNRPB×0.159858‑NXF1×0.039298–ARIH1×0.82372+TMPO×1.5458147‑EIF4H×
0.845486。
[0093] 为解决上述技术问题,本发明提供的一个技术方案为:一种用于预测UTUC进展时间的系统,所述系统包括:
[0094] 数据接收模块,用于接收或输入血浆样本中的蛋白质表达量数据,所述蛋白质表达量数据包括以下生物标志物的蛋白质表达量数据:TMPO、NXF1和ARIH1;
[0095] 判断并输出模块,用于在所述接收或输入完成后,通过如本发明所述的UTUC进展时间预测模型,输出对所述血浆样本的个体UTUC进展时间的预测结果。
[0096] 在本发明一较佳实施方案中,所述生物标志物还包括EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3。
[0097] 在本发明一较佳实施方案中,所述系统还包括数据处理模块,用于采集血浆样本中的蛋白质表达量数据。优选地,所述蛋白质表达量数据通过LC‑MS技术得到,使用DIA(data‑independent acquisition,数据非依赖性)检测方式或PRM(parallel reaction monitoring,平行反应检测)检测方式采集。
[0098] 在本发明一更佳实施方案中,所述DIA或PRM检测方式采集的数据经Firmiana软件进行肽段匹配。更优选地,所述肽段匹配的数据库为UniProt人类蛋白质数据库;和/或,采用DIA‑NN分析经Firmiana处理后的蛋白质表达量数据:使用iBAQ(Intensity‑based absolute‑protein‑quantification,无标签的基于强度的绝对定量)方法进行蛋白质定量,计算各蛋白质的FOT(Fraction of total,定义为该蛋白质的iBAQ值除以样品中所有已鉴定蛋白质的总iBAQ值),并将各蛋白的FOT作为蛋白质表达量数据输入LASSO‑Cox模型。
[0099] 在本发明一更佳实施方案中,所述PRM检测方式为对蛋白质表达量数据通过各蛋白质的2‑3种靶向肽进行PRM。优选地,所述PRM检测方式可参考PMID:36347856和PMID:27958391。更优选地,PRM原始数据由Skyline‑daily(4.2.1.19004,华盛顿大学,美国)搜索,并用Skyline‑daily报道的片段总面积对蛋白质进行量化;选择多肽,并在样本中测试其信号的稳定性和峰的形状,以供最终量化,并参考skyline提供的排名。例如所述PRM检测方式中使用的靶向肽段如表1中的SEQ ID NO:1‑6所示。
[0100] 为解决上述技术问题,本发明提供的一个技术方案为:一种计算机辅助的UTUC进展时间预测方法,所述UTUC进展时间预测方法包括以下步骤:
[0101] 步骤1:接收或输入血浆样本中的蛋白质表达量数据,所述蛋白质表达量数据包括以下生物标志物的蛋白质表达量数据:TMPO、NXF1和ARIH1;
[0102] 步骤2:将步骤1接收或输入的蛋白质表达量数据输入如本发明所述的UTUC进展时间预测模型,输出对所述血浆样本的个体UTUC进展时间的预测结果。
[0103] 在本发明一较佳实施方案中,所述UTUC进展时间预测方法还包括步骤0:采集血浆样本中的蛋白质表达量数据。优选地,所述蛋白质表达量数据通过LC‑MS技术得到,使用DIA(data‑independent acquisition,数据非依赖性)检测方式或PRM(parallel reaction monitoring,平行反应检测)检测方式采集。
[0104] 在本发明一更佳实施方案中,所述DIA检测方式采集的数据经Firmiana软件进行肽段匹配。优选地,所述肽段匹配的数据库为UniProt人类蛋白质数据库;和/或,采用DIA‑NN分析经Firmiana处理后的蛋白质表达量数据:使用iBAQ(Intensity‑based absolute‑protein‑quantification,无标签的基于强度的绝对定量)方法进行蛋白质定量,计算各蛋白质的FOT(Fraction of total,定义为该蛋白质的iBAQ值除以样品中所有已鉴定蛋白质的总iBAQ值),并将各蛋白的FOT作为蛋白质表达量数据输入LASSO‑Cox模型。
[0105] 在本发明一更佳实施方案中,所述PRM检测方式为对蛋白质表达量数据通过各蛋白质的2‑3种靶向肽进行PRM。优选地,所述PRM检测方式可参考PMID:36347856和PMID:27958391。更优选地,PRM原始数据由Skyline‑daily(4.2.1.19004,华盛顿大学,美国)搜索,并用Skyline‑daily报道的片段总面积对蛋白质进行量化;选择多肽,并在样本中测试其信号的稳定性和峰的形状,以供最终量化,并参考skyline提供的排名。例如所述PRM检测方式中使用的靶向肽段如表1中的SEQ ID NO:1‑6所示。
[0106] 在本发明一较佳实施方案中,所述生物标志物还包括EIF4H、PPP5C、NDUFAF3、LRG1、SNRPB、AK2和IFITM3。
[0107] 为解决上述技术问题,本发明提供的一个技术方案为:一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,可实现如本发明所述的系统的功能,或实现如本发明所述的UTUC进展时间预测方法的步骤。
[0108] 本发明中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
[0109] 在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现如本发明所述的系统的功能,或实现如本发明所述的UTUC进展时间预测方法的步骤。
[0110] 其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
[0111] 为解决上述技术问题,本发明提供的一个技术方案为:一种电子设备,其包括存储器和处理器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实现如本发明所述的系统的功能,或实现如本发明所述的UTUC进展时间预测方法的步骤。
[0112] 在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
[0113] 本发明所用试剂和原料均市售可得。
[0114] 本发明的积极进步效果在于:
[0115] 本发明提供的UTUC进展时间预测模型和生物标志物可以检测UTUC的病程进展程度,具有高灵敏度和高特异性的优点,并且随着UTUC进展时间边长,模型的预测效率逐渐提高。具有广泛的科研价值并为个体提供个性化的UTUC进展时间检测,有利支持了UTUC进展时间的检测,对治疗UTUC患者的临床决策具有重要意义。
[0116] 具有广泛的科研价值并为上尿路尿路上皮癌患者提供个性化预测,对于帮助指导UTUC患者的咨询、随访安排、辅助治疗、临床决策等具有重要意义。

附图说明

[0117] 图1为本发明所述检测UTUC进展的血浆生物标志物组合在发现队列的受试者工作特征曲线(ROC)图。
[0118] 图2为本发明所述检测UTUC进展的血浆生物标志物组合在验证队列的受试者工作特征曲线(ROC)图。
[0119] 图3为鉴定蛋白的累计曲线图。
[0120] 图4为检测UTUC进展的系统的结构示意图。
[0121] 图5为电子设备的结构示意图。

具体实施方式

[0122] 下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。下列实施例中未注明具体条件的实验方法,按照常规方法和条件,或按照商品说明书选择。
[0123] 实施例中所需的确诊为上尿路尿路上皮癌患者的术前血浆样本的451例,其中362例为发现队列(通过随访记录患者的无进展生存期PFS,1年、3年和5年发生进展比例分别是21%、36%和44%),89例为独立验证队列(通过随访记录患者的无进展生存期PFS,1年、3年和5年发生进展比例分别是18%、27%和32%)。本研究的设计和实施由医学伦理委员会通过伦理投票批准和监督。已获得所有患者的书面知情同意。
[0124] 实施例1上尿路尿路上皮癌术前的血浆临床样本的预处理
[0125] 临床样本为术前血浆样本。样品预处理:收集新鲜血液加入到盛有抗凝剂的管中,颠倒混匀,充分抗凝,1000‑2000×g离心10min,取上层淡黄色透明液体即为血浆,存至离心管中,‑80冻存备用。
[0126] 实施例2临床样本的蛋白质及肽段提取
[0127] 2μL血浆样品与100μL 50mM碳酸氢铵缓冲液混合,混合液在95℃金属浴5min后冷却至室温,在37℃恒温箱中,酶蛋白质量比为1:25的条件下用胰蛋白酶(Promega,Catalog:V528A)消化17小时。然后在每个管中加入5μL的氨水,旋涡混匀,终止酶解。在60℃真空干燥器(SpeedVac,Eppendorf)中进行抽干。抽干后,取100μL 0.1%甲酸复溶,并漩涡震荡3min,离心5min(12000g),取上清进行脱盐。脱盐前需要制备并活化柱子(2片3M C18膜),活化顺序为:90μL 100%乙腈2次,90μL 50%乙腈和80%乙腈依次1次,90μL 50%乙腈1次。90μL 
0.1%甲酸平衡柱2次后,将管上清装入柱2次,90μL 0.1%甲酸脱盐2次。最后,加入90μL洗脱缓冲液(0.1%甲酸,50%乙腈)2次,收集洗脱液。60℃真空抽干,获得用于质谱检测所需的肽段。
[0128] 实施例3临床样本的质谱检测
[0129] 用Q‑Exactive HF‑X混合四极轨道阱质谱仪(Thermo Fisher Scientific,Rockford,IL,USA)和高效液相色谱系统(EASY nLC 1200,Thermo Fisher)进行检测,并得到该肽样品对应的质谱数据。具体操作为:
[0130] 抽干的肽样品重新溶解在溶剂A(0.1%甲酸的水溶液)中,60℃,150μm I.D.×8cm色谱柱上分离(C18,1.9μm, Dr.Maisch GmbH)。流动相A和B分别为99.9/0.1%水/甲酸(v/v)和80/20/0.1%乙腈/水/甲酸(v/v/v)。质谱条件设置为数据非依赖性(data‑independent acquisition,DIA)或平行反应检测(parallel reaction monitoring,PRM)。
[0131] DIA采集的循环模式为1个一级全扫描+30个可变窗口DIA扫描;一级扫描范围为300‑1400m/z;一级检测:轨道阱质量分析器,分辨率:60k(@200m/z);离子选择模式:四级杆;AGC:4.0e5;二级碎裂模式:高能碰撞解离;碰撞能量:30%;二级检测:轨道阱质量分析器;分辨率:15k@200m/z;30个可变窗口具体为:300‑346m/z,346‑414m/z,414‑453.5m/z,
453.5‑484.5m/z,484.5‑512.5m/z,512.5‑541.5m/z,541.5‑570.5m/z,570.5‑597m/z,597‑
621m/z,621‑645m/z,645‑668m/z,668‑691m/z,691‑714.5m/z,714.5‑738m/z,738‑762.5m/z,762.5‑787m/z,787‑809.5m/z,809.5‑832m/z,832‑856.5m/z,856.5‑881.5m/z,881.5‑
908m/z,908‑936m/z,936‑963.5m/z,963.5‑993.5m/z,993.5‑1027.5m/z,1027.5‑1062.5m/z,1062.5‑1104m/z,1104‑1157m/z,1157‑1224.5m/z,1224.5‑1331.5m/z。液相色谱串联质谱系统使用Xcalibur软件(Thermo Scientific)控制进行数据采集。
[0132] 在验证队列中,选择血浆生物标志物的2‑3种靶向肽进行平行反应检测(parallel reaction monitoring,PRM)。在PRM模式下,离子选择模式为四极杆,碎裂模式为高能碰撞解离。流动相与DIA方法中提到的相同。一级检测:分辨率为60,000,AGC为3E6,最大IT为20MS,扫描范围为300~1400m/z。然后通过1.2Th的m/z窗口分离目标前体,随后在27%归一化碰撞能量下碎裂。产物离子扫描分辨率为15,000,AGC为1E6,最大注入时间为25ms。
[0133] 实施例4质谱数据的收集和处理
[0134] 所有DIA数据均使用Firmiana(V1.0)进行处理。Firmiana是一个基于Galaxy系统的工作流,由用户登录界面、原数据、识别与量化、数据分析和知识挖掘等多个功能模块组成。使用FragPipe(v12.1)和MSFragger(2.2)(DIA数据)和Mascot搜索引擎(DDA数据)在UniProt人类蛋白质数据库(更新于2019.12.17,20406项)中搜索数据。选择胰蛋白酶作为蛋白水解酶,最大允许两个漏切位点,固定修饰为carbamidomethyl(C),动态修饰为protein acetyl(protein N‑term),oxidation(M)。第一个搜索质量耐受性为20ppm,主要搜索肽耐受性为0.5da。数据根据诱饵数据库进行搜索,蛋白质鉴定以1%的错误发现率(FDR)被接受。利用SpectraST软件将DDA数据的结果合并到谱图库中。共有327个库作为参考谱图库。
[0135] DIA数据采用DIA‑NN(v1.7.0)进行分析。DIA‑NN采用默认设置(前驱体FDR:5%,Log lev:1,质量精度:20ppm,MS1精度:10ppm,扫描窗口:30,隐式蛋白组:基因,定量策略:稳健LC(高精度))。通过所有参考谱图库的色谱片段离子峰面积的平均值来计算识别肽的定量。使用无标签的基于强度的绝对定量(iBAQ)方法进行蛋白质定量。计算了峰面积值作为相应蛋白质的一部分。总分数(FOT)用于表示样品中特定蛋白质的标准化丰度。FOT定义为特定蛋白质的iBAQ除以样品中所有已鉴定蛋白质的总iBAQ。
[0136] PRM原始数据由Skyline‑daily(4.2.1.19004,华盛顿大学,美国)搜索。用Skyline‑daily报道的片段总面积对蛋白质进行量化。选择多肽,并在样本中测试其信号的稳定性和峰的形状,以供最终量化,并参考skyline提供的排名。
[0137] 实施例5筛选蛋白质标记物
[0138] 分析蛋白质标记物的表达量,选取有效鉴定蛋白。
[0139] 在发现队列的362例样本中,鉴定的蛋白质数目在1586‑2257之间。如图3所示的累计曲线图,在362个样本中,总共鉴定到8890种蛋白质。本发明以每种蛋白质在特定样本中的表达量占该样本中所有蛋白质表达量的比例(fraction of total,FOT)作为其归一化的表达量,再将FOT值乘以1e5作为最终的输入值。
[0140] 实施例6建立预测模型
[0141] 将上述451例UTUC患者的血浆样本分为包括362例的发现队列和89例的验证队列。
[0142] 首先,通过Spearman P<0.05,筛选出842种与患者PFS显著相关的蛋白质。然后再通过多因素Cox回归模型筛选出P<0.05的93种蛋白质,分别为:ACTR1B,AK2,APOA2,APOF,ARPC1B,BCHE,C4BPA,C9,CCS,COTL1,CPT1A,CRP,F13A1,F9,FCN3,GGT1,GGT2,GGT3P,HK1,HPR,IFITM3,KRT10,LASP1,LCP1,LRG1,METAP1,NDUFAF3,P4HB,PI16,PPP5C,RCN1,S100A9,SAA1,SAA2,SAA4,SCARB2,SNRPB,SNRPN,ABHD11,ACADS,CAPZB,CDH11,EIF4A1,GNAQ,MACF1,MCM7,MKI67,MRPL23,MYL4,MYL6,NXF1,PCYT1A,SERPINA11,SLC25A3,UBA6,ARIH1,CCT4,CD200,PPP2R2A,PRRC2C,SIPA1,CDC42EP5,EARS2,ENOPH1,SLC25A4,STXBP2,TMPO,ARL3,EIF4H,HECTD4,SMPD4,FAT2,FES,HSPB6,ARSL,EPS8L2,PMEL,SAMM50,TNIK,PRRT3,RUFY1,TBCB,CLNS1A,RPL4,MSRA,CFTR,RPS19,ACOX1,MRPL28,MRPL55,CPNE9,CCDC58,POFUT2进一步进行LASSO回归模型,最后筛选出10种蛋白质作为候选标志物,分别为ARIH1,EIF4H,PPP5C,NDUFAF3,LRG1,NXF1,SNRPB,AK2,TMPO,IFITM3。
[0143] 上述筛选和建立预测UTUC进展时间的模型的具体操作如下:
[0144] 将与UTUC患者PFS显著相关的蛋白质的FOT值输入如下所示的Cox回归模型的R包进行处理:
[0145] library(survival)
[0146] library(survminer)
[0147] data=read.csv("UTUC OS 365.csv")
[0148] survival_dat=data
[0149] my.surv<‑Surv(survival_dat$Time,survival_dat$Status)
[0150] cox_results<‑apply(survival_dat[,5:length(survival_dat)],2,function(values1){
[0151] group=ifelse(values1>median(values1),'xHigh','Low')#mean median[0152] survival_dat<‑data.frame(group=group,stringsAsFactors=F)
[0153] m=coxph(my.surv~group,data=survival_dat)
[0154] beta<‑coef(m)
[0155] se<‑sqrt(diag(vcov(m)))
[0156] HR<‑exp(beta)
[0157] HRse<‑HR*se
[0158] #summary(m)
[0159] tmp<‑round(cbind(coef=beta,se=se,z=beta/se,p=1‑
[0160] pchisq((beta/se)^2,1),HR=HR,HRse=HRse,
[0161] HRz=(HR‑1)/HRse,HRp=1‑pchisq(((HR‑1)/HRse)^2,1),
[0162] HRCILL=exp(beta‑qnorm(.95,0,1)*se),
[0163] HRCIUL=exp(beta+qnorm(.95,0,1)*se)),3)
[0164] return(tmp['groupxHigh',])
[0165] })
[0166] (df=cox_results[,cox_results[4,]<1.5])
[0167] df_surv=data.frame(t(cox_results))
[0168] write.csv(df_surv,'all new351xx OSmedian c.csv')
[0169] 再将上一步所筛的93种蛋白质输入如下所示的LASSO模型的R包进行建模:
[0170] library(glmnet)
[0171] library(foreign)
[0172] rm=(list=ls())
[0173] x=read.csv("UTUC21gene.csv",header=T,row.names=1)
[0174] y=read.csv("UTUCPFS.csv",header=T,row.names=1)
[0175] x=t(as.matrix(x))
[0176] y=t(as.matrix(y))
[0177] f1=glmnet(x,y,family="gaussian",nlambda=100,alpha=1)
[0178] #f1=glmnet(x,y,family="binomial",nlambda=100,alpha=1)
[0179] print(f1)
[0180] plot(f1,xvar="lambda",label=TRUE)
[0181] cvfit=cv.glmnet(x,y)
[0182] plot(cvfit)
[0183] cvfit$lambda.min
[0184] cvfit$lambda.1se
[0185] l.coef2<‑coef(cvfit$glmnet.fit,s=cvfit$lambda.min,exact=F)
[0186] l.coef2@x
[0187] data=l.coef2@x
[0188] dataName=l.coef2@Dimnames[[1]]
[0189] dataIndex=l.coef2@i+1
[0190] dataName2=dataName[dataIndex]
[0191] data=data.frame(dataName2,data)
[0192] write.csv(data,"genenewlianxu21.csv")
[0193] mod=glm(y~x[,'ARIH1']+x[,'EIF4H']+x[,'PPP5C']+x[,'NDUFAF3']+x[,'LRG1']+x[,'NXF1']+x[,'SNRPB']+x[,'AK2']+x[,'TMPO']+x[,'IFITM3'],family="gaussian")
[0194] summary(mod)
[0195] p=predict(mod,as.data.frame(x))
[0196] p
[0197] p=as.data.frame(p)
[0198] 得到蛋白质生物标志物对于UTUC患者进展时间的计算公式:Predicted PFS=53.557609+AK2×0.0634408+IFITM3×0.1816506‑LRG1×0.020376‑NDUFAF3×0.341377‑PPP5C×0.052722‑SNRPB×0.159858‑NXF1×0.039298–ARIH1×0.82372+TMPO×
1.5458147‑EIF4H×0.845486。
[0199] 在发现队列中,最终在建立的DIA数据库中筛选得到UTUC患者血浆样本的10种蛋白质分子生物标志物(ARIH1、EIF4H、PPP5C、NDUFAF3、LRG1、NXF1、SNRPB、AK2、TMPO和IFITM3)相对表达水平计算其预测准确度,灵敏度及特异性。362例发现队列中,上述模型在对进展时间为1年、3年和5年的预测ROC‑AUC分别为0.742、0.816和0.877(见图1);89例验证队列,在1年、3年和5年ROC‑AUC为0.812、0.880和0.905(见图2)。可见随着UTUC进展时间边长,模型的预测效率逐渐提高。
[0200] 由上述结果可知,上述血浆生物标志物可用于预测UTUC进展时间。
[0201] 实施例7 PRM数据的独立验证
[0202] 在验证队列中通过PRM数据筛选出UTUC不同进展时间患者血浆样本的3种蛋白质分子生物标志物(TMPO、NXF1和ARIH1,每个标志物选取2‑3种靶向肽,肽段信息见表1的SEQ ID NO:1‑6所示),89例验证队列中,上述模型对进展时间为1年、3年和5年的预测ROC‑AUC分别为0.812、0.880和0.905(见图2)。对于UTUC患者,上述3中蛋白质分子生物标志物可以用来预测样本的UTUC进展时间。
[0203] 表1靶向肽信息
[0204] 组别 蛋白 肽段 SEQ ID NO: 质荷比[Da]无进展生存期预测模型 TMPO KVHTSKGDLPR 1 619.36285
无进展生存期预测模型 TMPO QLPSLACKYPVSSR 2 803.43314
无进展生存期预测模型 NXF1 HTRLNVVAFLNELPK 3 876.00063
无进展生存期预测模型 NXF1 SCMAATLR 4 455.2134
无进展生存期预测模型 ARIH1 EKLMERYFDGNLEK 5 596.6157
无进展生存期预测模型 ARIH1 LMERYFDGNLEK 6 510.90713
[0205] 实施例8检测UTUC进展时间的系统
[0206] 检测UTUC进展时间的系统61:数据接收模块52和判断并输出模块53,优选还包括数据处理模块51(见图4)。
[0207] 数据处理模块51用于采集血浆样本中的蛋白质表达量数据,并将其传输给数据接收模块。
[0208] 数据接收模块52用于将接收或输入血浆样本中的蛋白质表达量数据输入判断并输出模块53。其中,所述蛋白质表达量数据可通过数据处理模块51进行收集,亦可从其他来源获取所述蛋白质表达量数据。
[0209] 判断并输出模块53用于在所述接收或输入完成后,通过如实施例6所述的UTUC进展时间预测模型,输出对血浆样本的个体的UTUC进展时间的预测结果。
[0210] 实施例9电子设备
[0211] 本实施例提供了一种电子设备,电子设备可以通过计算设备的形式表现(例如可以为服务器设备),包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中处理器执行计算机程序时可以实现本发明实施例6中检测UTUC进展时间的方法。
[0212] 图5示出了本实施例的硬件结构示意图,电子设备9具体包括:
[0213] 至少一个处理器91、至少一个存储器92以及用于连接不同系统组件(包括处理器91和存储器92)的总线93,其中:
[0214] 总线93包括数据总线、地址总线和控制总线。
[0215] 存储器92包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
[0216] 存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0217] 处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例4的数据分析方法。
[0218] 电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备9使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
[0219] 应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
[0220] 实施例10计算机可读存储介质
[0221] 本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现本发明实施例6中检测UTUC进展时间的方法的步骤。
[0222] 其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
[0223] 在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现本发明实施例4中检测UTUC进展时间的方法的步骤。
[0224] 其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
[0225] 最后,上述具体实施方法仅用以说明本发明的技术方案,而非对其限制。