一种用于预测肺腺癌总生存时间高低分类的标志物及其应用转让专利
申请号 : CN202110911223.3
文献号 : CN113355425B
文献日 : 2021-12-07
发明人 : 王凯 , 黄璐嘉 , 王丛茂
申请人 : 至本医疗科技(上海)有限公司 , 上海至本医学检验所有限公司
摘要 :
权利要求 :
1.一种基因组合,其特征在于,所述的基因组合包括以下29个基因;
所述的29个基因如下表所示:
序号 基因 基因编号
1 KCNJ14 ENSG00000182324
2 LRRC66 ENSG00000188993
3 ZNF682 ENSG00000197124
4 DRP2 ENSG00000102385
5 LINC01600 ENSG00000164385
6 LINGO2 ENSG00000174482
7 PITX3 ENSG00000107859
8 ZNF781 ENSG00000196381
9 PRR15 ENSG00000176532
10 FKBP6 ENSG00000077800
11 CYP17A1 ENSG00000148795
12 IGFBP1 ENSG00000146678
13 FETUB ENSG00000090512
14 FAM131C ENSG00000185519
15 FDPSP2 ENSG00000233980
16 TMEM130 ENSG00000166448
17 FAM215A ENSG00000267496
18 CHIT1 ENSG00000133063
19 CRYBA4 ENSG00000196431
20 DHDH ENSG00000104808
21 TNNC2 ENSG00000101470
22 TCN1 ENSG00000134827
23 CRHR2 ENSG00000106113
24 CYP1A2 ENSG00000140505
25 MRPL42P5 NCBI Entrez Gene:359821
26 RTL1 ENSG00000254656
27 EPGN ENSG00000182585
28 SCN10A ENSG00000185313
29 KLRG2 ENSG00000188883 。
2.如权利要求1所述的基因组合,其特征在于,所述的基因组合是对肺腺癌总生存时间高低分类的标志物;
对肺腺癌总生存时间高低分类基于该基因组合中的基因的表达量;
基于基因组合标志物对肺腺癌总生存时间高低分类,总生存时间小于肺腺癌总生存时间中位数且发生进展的样本标记为0,总生存时间大于肺腺癌总生存时间第三四分位数的样本标记为1;
所述的肺腺癌总生存时间中位数、肺腺癌总生存时间第三四分位数是基于肺腺癌样本的总生存时间计算得到的;
所述的基因组合用作对肺腺癌总生存时间高低分类的标志物时,包括以下步骤:获取待检测肺腺癌样本,对待检测肺腺癌样本进行基因检测;
提取待检测肺腺癌样本中作为样本总生存时间高低分类标志物的基因组合的基因表达量;
将待检测肺腺癌样本的基因表达量结果输入Lasso回归模型,获得肺腺癌总生存时间高低分类结果;
使用Lasso回归方法预测肺腺癌总生存时间时,lambda在29‑76之间。
3.检测权利要求1所述基因组合的试剂在制备用于对肺腺癌总生存时间高低分类的产品中的应用,其特征在于,所述的基因组合是对肺腺癌总生存时间高低分类的标志物;
基于基因组合标志物对肺腺癌总生存时间高低分类,总生存时间小于肺腺癌总生存时间中位数且发生进展的样本标记为0,总生存时间大于肺腺癌总生存时间第三四分位数的样本标记为1;
所述的肺腺癌总生存时间中位数、肺腺癌总生存时间第三四分位数是基于肺腺癌样本的总生存时间计算得到的。
4.如权利要求3所述的应用,其特征在于,所述的基因组合用作对肺腺癌总生存时间高低分类的标志物时,其应用方法包括以下步骤:对待检测肺腺癌样本进行基因检测;
获取待检测肺腺癌样本中所述基因组合的基因表达量;
将待检测肺腺癌样本的基因表达量结果输入Lasso回归模型计算得到模型评分和分类截断点,获得肺腺癌总生存时间高低分类结果;
所述分类是指,模型评分低于分类截断点的样本标记为0,模型评分高于分类截断点的样本标记为1;
模型评分计算方法:
model_score=predict(model,newx=t(test.data), s=c(model$lambda.min, model$lambda.1se));
分类截断点计算方法:
①pred_data=prediction(as.numeric(model_score[,3]), model_score [,1]),②pred_cutoff=pred_data@cutoffs,分类截断点的计算方法为,总生存时间小于肺腺癌总生存时间中位数且发生进展的样本标记为0,总生存时间大于肺腺癌总生存时间第三四分位数的样本标记为1。
5.如权利要求4所述的应用,其特征在于,在Lasso回归模型基础上改进,具体建立模型参数如下:
cv.glmnet(x, y, family = "binomial", type.measure = "auc")。
6.如权利要求3‑5中任意一项所述的应用,其特征在于,标记为0的样本总生存时间小于22.51个月。
7.如权利要求3‑5中任意一项所述的应用,其特征在于,标记为1的样本总生存时间大于38.57个月。
8.如权利要求4所述的应用,其特征在于,使用Lasso回归方法预测肺腺癌总生存时间时,lambda在29‑76之间。
9.一种非诊断非治疗目的的检测肺腺癌样本中基因标志物的方法,其特征在于,检测基因标志物的表达量;
所述的基因标志物包括权利要求1或者2中所述的29个基因。
10.如权利要求9所述的方法,其特征在于,该方法还包括以下步骤:根据29个基因的表达量的结果对肺腺癌样本预测总生存时间的高低分类;
基于基因组合标志物对肺腺癌总生存时间高低分类,总生存时间小于肺腺癌总生存时间中位数且发生进展的样本标记为0,总生存时间大于肺腺癌总生存时间第三四分位数的样本标记为1;
所述的肺腺癌总生存时间中位数、肺腺癌总生存时间第三四分位数是基于肺腺癌样本的总生存时间计算得到的。
11.如权利要求10所述的方法,其特征在于,包括以下步骤:S1,肺腺癌样本测序,获得权利要求1或者2中所述的29个基因的表达量;
S2,根据29个基因的表达量,使用Lasso回归模型计算得到模型评分和分类截断点;
S3,根据模型评分和分类截断点,得到肺腺癌样本总生存时间高低的预测分类结果;
所述分类是指,模型评分低于分类截断点的样本标记为0,模型评分高于分类截断点的样本标记为1;
模型评分计算方法:
model_score=predict(model,newx=t(test.data), s=c(model$lambda.min, model$lambda.1se));
分类截断点计算方法:
①pred_data=prediction(as.numeric(model_score[,3]), model_score [,1]),②pred_cutoff=pred_data@cutoffs,分类截断点的计算方法为,总生存时间小于肺腺癌总生存时间中位数且发生进展的样本标记为0,总生存时间大于肺腺癌总生存时间第三四分位数的样本标记为1。
12.如权利要求10所述的方法,其特征在于,所述的方法的AUC不小于0.9。
13.如权利要求10‑12中任意一项所述的方法,其特征在于,标记为0的样本的模型评分低于分类截断点,表示该样本的总生存时间低;标记为1的样本的模型评分高于分类截断点,表示该样本的总生存时间高。
说明书 :
一种用于预测肺腺癌总生存时间高低分类的标志物及其应用
技术领域
背景技术
素作用下的综合结局,即受到治疗疗效的影响,也受到副作用的影响,甚至可能受到药物相
互作用的影响。
气管的粘液腺,主要来自小支气管的粘液腺体,表现为周围性肺癌。肺腺癌的发病年龄较肺
鳞状细胞癌和小细胞肺癌年轻,女性发病率较高,但在我国,男性发病数仍然高于女性。早
期一般没有明显的临床症状,往往在胸部X线检查时被发现。表现为圆形或椭圆形肿块,一
般生长较慢,但有时早期即发生血行转移。淋巴转移则发生较晚。肺癌在早期并没有什么特
殊症状,仅为一般呼吸系统疾病所共有的症状,如咳嗽、痰血、低热、胸痛、气闷等,很容易忽
略。其他恶性肿瘤的标记物对肺癌的确诊尚无应用价值,临床医师对中年以上久咳不愈或
出现血痰以及肺部X线检查发现性质未明的块影或炎变的病例,均应高度警惕。肺癌患者应
尽早发现,早诊断、早治疗,减少肺癌晚期转移与恶化的可能性,提高患者生存率。对于肺腺
癌患者,抗癌药物疗效和预后判断是临床上决定采用何种方式治疗的重要依据,然而,目前
尚无统一的权衡参数。
样本量较大,研究资金要求也较高,并且由于伦理要求,大多数患者因为交叉到后线治疗,
不同药物的作用将导致观测组药物总生存时间无法有效且正确的评估。
发明内容
后,通过治疗希望能够提高患者的生存率。预测总生存时间高低分类最大的意义用于作为
临床试验入组的参考条件之一,为医务人员进行医疗决策提供科学依据。
型,预测总生存时间高低分类。在众多指标中,本发明考虑使用总生存时间作为评判标准,
优势在于总生存时间客观,不存在研究者的主观偏倚。本发明提供的评估基因群能预测总
生存时间高低分类,可应用于临床试验,作为试验入组参考的条件之一,为医务人员进行医
疗决策提供科学依据。本发明在上述基础上完成。
筛选,总生存时间小于中位数且生存状态发生进展的95个样本标记为0,总生存时间大于第
三四分位数的123个样本标记为1。对于0和1两组,进行差异分析,从20529个基因中筛选出
113个差异基因(p值<0.05)。
作为肺腺癌样本总生存时间高低分类的标志物,例如,选择其中29个基因组成标志物。
FDPSP2(FDPSL2A),TMEM130,FAM215A(C17orf88),CHIT1,CRYBA4,DHDH,TNNC2,TCN1,CRHR2,
CYP1A2,MRPL42P5,RTL1,EPGN,SCN10A,KLRG2。
合适的基因作为肺腺癌样本总生存时间高低的分类标志物。
征该基因的序列。
低分类的标志物。
腺癌总生存时间第三四分位数的样本标记为1。
类。
ceiveroperatingcharacteristiccurve,简称ROC曲线),又称为感受性曲线
(sensitivitycurve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同
一信号刺激的反应,只不过是在两种不同的判定标准下所得的结果而已。受试者工作特征
曲线就是以假阳性概率(Falsepositiverate)为横轴,真阳性(Truepositiverate)为纵轴
所组成的坐标图,和受试者在特定刺激条件下由于采用不同的判断标准得出的不同结果画
出的曲线。
个共同的特点,必须将试验结果分为两类,再进行统计分析。ROC曲线的评价方法与传统的
评价方法不同,无须此限制,而是根据实际情况,允许有中间状态,可以把试验结果划分为
多个有序分类,如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。
少的最好阈值,其假阳性和假阴性的总数最少。ROC曲线可以用于比较两种或两种以上不同
诊断试验对疾病识别能力。在对同一种疾病的两种或两种以上诊断方法进行比较时,可将
各试验的ROC曲线绘制到同一坐标中,以直观地鉴别优劣,靠近左上角的ROC曲线所代表的
受试者工作最准确。亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较,哪一
种试验的AUC最大,则哪一种试验的诊断价值最佳。本发明的方法的AUC不小于0.9。更好的,
本发明的分类方法的AUC不小于0.94。
的死亡,耗时长,工作量大。而总生存时间常常被认为是肿瘤临床试验中最佳的疗效终点。
若该指标能有小幅度的提高,可以认为是有意义的临床收益证据。本发明提供的评估基因
群能准确、快捷的对总生存时间高低分类,检测和判断方法简便客观,操作性强,能够快速
的获得分类结果,可应用于临床试验,作为试验入组参考的条件之一,为医务人员进行医疗
决策提供科学依据。
附图说明
域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附
图。
据分位数分布进行筛选,总生存时间小于中位数且发生进展的样本标记为0(OS小于22.51
个月),总生存时间大于第三四分位数的样本标记为1(OS大于38.57个月)。结果标记为0的
样本为95个,标记为1的样本123个。对于0和1两组,进行基因差异分析,筛选获得113个差异
基因(p值<0.05)。将先前标记过的临床样本随机分成80%训练集和20%验证集。利用80%临
床样本构建的训练集样本,通过Lasso回归方法对113个差异基因构建立Lasso回归模型(分
类器模型)预测标签0和标签1。根据这80%训练集随机组成的训练组,反复筛选和测试差异
基因的有效性和稳定性。通过反复筛选和人为的调整优化,得到准确率和重复率最高的29
个表达基因群组合模型。
基因数量少,而lambda.min得到的基因数量多一点。
具体实施方式
技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范
围。
布进行筛选,总生存时间小于中位数且发生进展的95个样本标记为0(OS小于22.51个月),
总生存时间大于第三四分位数的123个样本标记为1(OS大于38.57个月)。对于0和1两组,进
行差异分析,从20529个基因中筛选出113个差异基因(p值<0.05)。将218个肺腺癌样本随
机分成80%训练集和20%验证集,利用训练集样本和113个差异基因,验证验证集样本标签0
和标签1的准确率,结果并不理想。
回归方法,建立分类器模型,预测标签0和标签1。首选目标是建立由15个基因组成的基因
群,作为肺腺癌总生存时间高低的分类评估标志物。
型,验证标签0和标签1的准确率,得出ROC曲线和AUC值。如图3所示,AUC虽然超过了0.5,但
是最终只达到了0.61。这个AUC值提示,这个基于此15个基因标志物的模型,用于肺腺癌总
生存时间高低分类的评估,虽然能够获得分类结果,对总生存时间高低的评估起到辅助判
断作用,但是其可信度仍有待提高。
建立分类器模型,预测标签0和标签1,通过改进建立的模型参数(cv.glmnet(x, y, family
= "binomial", type.measure = "auc"),其中binomial和auc两个参数适用于分类模型),
经过交叉验证得到29个表达基因群组合模型。利用验证集样本和29个表达基因群模型,验
证标签0和标签1的准确率,得出ROC曲线和AUC值。如图4所示,使用本发明的模型对肺腺癌
样本分类,AUC高达0.94。
得肺腺癌样本分类结果。模型结果中包含模型评分和分类截断点。当模型评分低于分类截
断点的样本标记为0,反之,当模型评分高于分类截断点的样本标记为1。