一种用于预测肺腺癌总生存时间高低分类的标志物及其应用转让专利

申请号 : CN202110911223.3

文献号 : CN113355425B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 王凯黄璐嘉王丛茂

申请人 : 至本医疗科技(上海)有限公司上海至本医学检验所有限公司

摘要 :

本发明属于生物医药领域,涉及一种用于预测肺腺癌患者总生存时间高低分类的标志物及其应用。本发明还包括该方法的应用以及相关的预测肺腺癌患者总生存时间高低分类标志物的检测方法。本发明提供了一种基因组合,包括如表1所示的29个基因。本发明还包括基于该29个基因表达量对肺腺癌患者总生存时间高低分类的应用和检测方法。本发明的肺腺癌患者总生存时间高低分类的方法操作简便,准确率高,为肺腺癌临床样本的分类和研究提供了有力的物质基础。

权利要求 :

1.一种基因组合,其特征在于,所述的基因组合包括以下29个基因;

所述的29个基因如下表所示:

序号 基因 基因编号

1 KCNJ14 ENSG00000182324

2 LRRC66 ENSG00000188993

3 ZNF682 ENSG00000197124

4 DRP2 ENSG00000102385

5 LINC01600 ENSG00000164385

6 LINGO2 ENSG00000174482

7 PITX3 ENSG00000107859

8 ZNF781 ENSG00000196381

9 PRR15 ENSG00000176532

10 FKBP6 ENSG00000077800

11 CYP17A1 ENSG00000148795

12 IGFBP1 ENSG00000146678

13 FETUB ENSG00000090512

14 FAM131C ENSG00000185519

15 FDPSP2 ENSG00000233980

16 TMEM130 ENSG00000166448

17 FAM215A ENSG00000267496

18 CHIT1 ENSG00000133063

19 CRYBA4 ENSG00000196431

20 DHDH ENSG00000104808

21 TNNC2 ENSG00000101470

22 TCN1 ENSG00000134827

23 CRHR2 ENSG00000106113

24 CYP1A2 ENSG00000140505

25 MRPL42P5 NCBI Entrez Gene:359821

26 RTL1 ENSG00000254656

27 EPGN ENSG00000182585

28 SCN10A ENSG00000185313

29 KLRG2 ENSG00000188883 。

2.如权利要求1所述的基因组合,其特征在于,所述的基因组合是对肺腺癌总生存时间高低分类的标志物;

对肺腺癌总生存时间高低分类基于该基因组合中的基因的表达量;

基于基因组合标志物对肺腺癌总生存时间高低分类,总生存时间小于肺腺癌总生存时间中位数且发生进展的样本标记为0,总生存时间大于肺腺癌总生存时间第三四分位数的样本标记为1;

所述的肺腺癌总生存时间中位数、肺腺癌总生存时间第三四分位数是基于肺腺癌样本的总生存时间计算得到的;

所述的基因组合用作对肺腺癌总生存时间高低分类的标志物时,包括以下步骤:获取待检测肺腺癌样本,对待检测肺腺癌样本进行基因检测;

提取待检测肺腺癌样本中作为样本总生存时间高低分类标志物的基因组合的基因表达量;

将待检测肺腺癌样本的基因表达量结果输入Lasso回归模型,获得肺腺癌总生存时间高低分类结果;

使用Lasso回归方法预测肺腺癌总生存时间时,lambda在29‑76之间。

3.检测权利要求1所述基因组合的试剂在制备用于对肺腺癌总生存时间高低分类的产品中的应用,其特征在于,所述的基因组合是对肺腺癌总生存时间高低分类的标志物;

基于基因组合标志物对肺腺癌总生存时间高低分类,总生存时间小于肺腺癌总生存时间中位数且发生进展的样本标记为0,总生存时间大于肺腺癌总生存时间第三四分位数的样本标记为1;

所述的肺腺癌总生存时间中位数、肺腺癌总生存时间第三四分位数是基于肺腺癌样本的总生存时间计算得到的。

4.如权利要求3所述的应用,其特征在于,所述的基因组合用作对肺腺癌总生存时间高低分类的标志物时,其应用方法包括以下步骤:对待检测肺腺癌样本进行基因检测;

获取待检测肺腺癌样本中所述基因组合的基因表达量;

将待检测肺腺癌样本的基因表达量结果输入Lasso回归模型计算得到模型评分和分类截断点,获得肺腺癌总生存时间高低分类结果;

所述分类是指,模型评分低于分类截断点的样本标记为0,模型评分高于分类截断点的样本标记为1;

模型评分计算方法:

model_score=predict(model,newx=t(test.data), s=c(model$lambda.min, model$lambda.1se));

分类截断点计算方法:

①pred_data=prediction(as.numeric(model_score[,3]), model_score [,1]),②pred_cutoff=pred_data@cutoffs,分类截断点的计算方法为,总生存时间小于肺腺癌总生存时间中位数且发生进展的样本标记为0,总生存时间大于肺腺癌总生存时间第三四分位数的样本标记为1。

5.如权利要求4所述的应用,其特征在于,在Lasso回归模型基础上改进,具体建立模型参数如下:

cv.glmnet(x, y, family = "binomial", type.measure = "auc")。

6.如权利要求3‑5中任意一项所述的应用,其特征在于,标记为0的样本总生存时间小于22.51个月。

7.如权利要求3‑5中任意一项所述的应用,其特征在于,标记为1的样本总生存时间大于38.57个月。

8.如权利要求4所述的应用,其特征在于,使用Lasso回归方法预测肺腺癌总生存时间时,lambda在29‑76之间。

9.一种非诊断非治疗目的的检测肺腺癌样本中基因标志物的方法,其特征在于,检测基因标志物的表达量;

所述的基因标志物包括权利要求1或者2中所述的29个基因。

10.如权利要求9所述的方法,其特征在于,该方法还包括以下步骤:根据29个基因的表达量的结果对肺腺癌样本预测总生存时间的高低分类;

基于基因组合标志物对肺腺癌总生存时间高低分类,总生存时间小于肺腺癌总生存时间中位数且发生进展的样本标记为0,总生存时间大于肺腺癌总生存时间第三四分位数的样本标记为1;

所述的肺腺癌总生存时间中位数、肺腺癌总生存时间第三四分位数是基于肺腺癌样本的总生存时间计算得到的。

11.如权利要求10所述的方法,其特征在于,包括以下步骤:S1,肺腺癌样本测序,获得权利要求1或者2中所述的29个基因的表达量;

S2,根据29个基因的表达量,使用Lasso回归模型计算得到模型评分和分类截断点;

S3,根据模型评分和分类截断点,得到肺腺癌样本总生存时间高低的预测分类结果;

所述分类是指,模型评分低于分类截断点的样本标记为0,模型评分高于分类截断点的样本标记为1;

模型评分计算方法:

model_score=predict(model,newx=t(test.data), s=c(model$lambda.min, model$lambda.1se));

分类截断点计算方法:

①pred_data=prediction(as.numeric(model_score[,3]), model_score [,1]),②pred_cutoff=pred_data@cutoffs,分类截断点的计算方法为,总生存时间小于肺腺癌总生存时间中位数且发生进展的样本标记为0,总生存时间大于肺腺癌总生存时间第三四分位数的样本标记为1。

12.如权利要求10所述的方法,其特征在于,所述的方法的AUC不小于0.9。

13.如权利要求10‑12中任意一项所述的方法,其特征在于,标记为0的样本的模型评分低于分类截断点,表示该样本的总生存时间低;标记为1的样本的模型评分高于分类截断点,表示该样本的总生存时间高。

说明书 :

一种用于预测肺腺癌总生存时间高低分类的标志物及其应用

技术领域

[0001] 本发明属于生物医药领域,涉及一种通过患者样本预测肺腺癌总生存时间高低分类的标志物及其应用。本发明还包括该方法的应用以及相关标志物的检测方法。

背景技术

[0002] 一直以来,总生存时间(overallsurvival,OS)有统计学显著性和临床意义,是评价一个抗癌药物疗效的金标准。总生存时间能够侧重反映肿瘤治疗的整体结果,它是多因
素作用下的综合结局,即受到治疗疗效的影响,也受到副作用的影响,甚至可能受到药物相
互作用的影响。
[0003] 肺腺癌(lungadenocarcinoma)是肺癌的一种,属于非小细胞癌。不同于肺鳞状细胞癌,肺腺癌较容易发生于女性及不抽烟者。多数起源于支气管粘膜上皮,少数起源于大支
气管的粘液腺,主要来自小支气管的粘液腺体,表现为周围性肺癌。肺腺癌的发病年龄较肺
鳞状细胞癌和小细胞肺癌年轻,女性发病率较高,但在我国,男性发病数仍然高于女性。早
期一般没有明显的临床症状,往往在胸部X线检查时被发现。表现为圆形或椭圆形肿块,一
般生长较慢,但有时早期即发生血行转移。淋巴转移则发生较晚。肺癌在早期并没有什么特
殊症状,仅为一般呼吸系统疾病所共有的症状,如咳嗽、痰血、低热、胸痛、气闷等,很容易忽
略。其他恶性肿瘤的标记物对肺癌的确诊尚无应用价值,临床医师对中年以上久咳不愈或
出现血痰以及肺部X线检查发现性质未明的块影或炎变的病例,均应高度警惕。肺癌患者应
尽早发现,早诊断、早治疗,减少肺癌晚期转移与恶化的可能性,提高患者生存率。对于肺腺
癌患者,抗癌药物疗效和预后判断是临床上决定采用何种方式治疗的重要依据,然而,目前
尚无统一的权衡参数。
[0004] 本发明使用的评判标准为总生存时间,其优势在于客观,不存在研究者的主观偏倚。不足的在于观测时间较长,需要记录所有事件的发生,即所有患者的死亡。研究所需的
样本量较大,研究资金要求也较高,并且由于伦理要求,大多数患者因为交叉到后线治疗,
不同药物的作用将导致观测组药物总生存时间无法有效且正确的评估。

发明内容

[0005] 本发明要解决的技术问题是提供一种使用基因标记物以及对肺腺癌患者的总生存时间高低分类的方法。肿瘤作为不可治愈的疾病,治疗目标非常明确,自肿瘤被诊断之
后,通过治疗希望能够提高患者的生存率。预测总生存时间高低分类最大的意义用于作为
临床试验入组的参考条件之一,为医务人员进行医疗决策提供科学依据。
[0006] 为了解决上述技术问题,本发明对于TCGA肺腺癌样本进行数据清洗,根据总生存时间高低划分为两组,样本随机分为训练集和验证集,结合基因表达数据,建立分类器模
型,预测总生存时间高低分类。在众多指标中,本发明考虑使用总生存时间作为评判标准,
优势在于总生存时间客观,不存在研究者的主观偏倚。本发明提供的评估基因群能预测总
生存时间高低分类,可应用于临床试验,作为试验入组参考的条件之一,为医务人员进行医
疗决策提供科学依据。本发明在上述基础上完成。
[0007] 一方面,本发明提供了一种基因组合,使用该基因组合可以对肺腺癌患者总生存时间高低进行预测和分类。
[0008] 本发明用了已经报道的肺腺癌的基因表达数据及相应的临床总生存时间数据,经过初步数据清洗,挑选了517个肺腺癌样本。根据肺腺癌样本总生存时间的分位数分布进行
筛选,总生存时间小于中位数且生存状态发生进展的95个样本标记为0,总生存时间大于第
三四分位数的123个样本标记为1。对于0和1两组,进行差异分析,从20529个基因中筛选出
113个差异基因(p值<0.05)。
[0009] 用于建立模型的肺腺癌数据集的总生存时间高低分类,是基于总生存时间中位数和第三四分位数的分类结果。较好的,本发明可以从这113个差异基因中挑选基因并组合,
作为肺腺癌样本总生存时间高低分类的标志物,例如,选择其中29个基因组成标志物。
[0010] 所述的29个基因包括但不限于:KCNJ14,LRRC66,ZNF682,DRP2,LINC01600(C6orf195),LINGO2,PITX3,ZNF781,PRR15,FKBP6,CYP17A1,IGFBP1,FETUB,FAM131C,
FDPSP2(FDPSL2A),TMEM130,FAM215A(C17orf88),CHIT1,CRYBA4,DHDH,TNNC2,TCN1,CRHR2,
CYP1A2,MRPL42P5,RTL1,EPGN,SCN10A,KLRG2。
[0011] 在本发明的一个优选实施例中,限定了上述29基因的来源,具体参见表1。
[0012] 用于验证的肺腺癌数据的总生存时间高低分类,是基于29个基因群的表达量输入模型后,得到的分类结果。
[0013] 较好的,所述的基因组合是作为对肺腺癌总生存时间高低分类的标志物。本发明的实验结果表明,上述113个基因是肺腺癌总生存时间高低分类的差异基因,可以从中选择
合适的基因作为肺腺癌样本总生存时间高低的分类标志物。
[0014] 本发明中,对肺腺癌总生存时间高低分类基于该基因组合中的基因的表达量。检测基因表达量时,可以基于基因的开放阅读框、编码序列、全长、活性片段或者其他可以表
征该基因的序列。
[0015] 本发明中,使用Lasso回归方法预测肺腺癌总生存时间时,lambda在29‑76之间。例如,使用29、30、35、45、55、60、65、67、69、71、73、75、76个基因群。
[0016] 本发明还提供了所述的基因组合的应用,即检测上述基因组合的试剂在制备用于对肺腺癌总生存时间高低分类的产品中的应用,所述的基因组合是对肺腺癌总生存时间高
低分类的标志物。
[0017] 所述的基因组合用作对肺腺癌总生存时间高低分类的标志物时,可以包括以下步骤:
[0018] 获取待检测肺腺癌样本,对待检测肺腺癌样本进行基因检测;
[0019] 提取待检测肺腺癌样本中作为样本总生存时间高低分类标志物的基因组合的基因表达量;
[0020] 将待检测肺腺癌样本的基因表达量结果输入Lasso回归模型,获得肺腺癌总生存时间高低分类结果。
[0021] 本发明中,基于基因组合标志物对肺腺癌总生存时间高低分类,所述的分类是指,总生存时间小于肺腺癌总生存时间中位数且发生进展的样本标记为0,总生存时间大于肺
腺癌总生存时间第三四分位数的样本标记为1。
[0022] 所述的肺腺癌总生存时间中位数、肺腺癌总生存时间第三四分位数是基于肺腺癌样本的总生存时间计算得到的。
[0023] 在本发明的一个优选实施例中,标记为0的样本OS小于22.51个月。标记为1的样本OS大于38.57个月。
[0024] 另一方面,本发明还提供了一种检测肺腺癌样本中基因标志物的方法,检测所述的29个基因的表达量,根据表达量结果对肺腺癌样本根据模型评分进行总生存时间高低分
类。
[0025] 具体的,所述的方法包括如下步骤:
[0026] S1,肺腺癌样本测序,获得表1中的29个基因的表达量;
[0027] S2,根据29个基因的表达量,使用Lasso回归模型计算得到模型评分和分类截断点;
[0028] S3,根据模型评分和分类截断点,得到肺腺癌样本总生存时间高低的预测分类结果。
[0029] 较好的,对肺腺癌样本测序时,首先提取肺腺癌样本的核糖核酸,然后进行测序。
[0030] 较好的,此处的分类是指,模型评分低于分类截断点的样本标记为0,模型评分高于分类截断点的样本标记为1。
[0031] 模型评分计算方法:
[0032] model_score=predict(model, newx=t(test.data), s=c(model$lambda.min, model$lambda.1se))。
[0033] 分类截断点计算方法:
[0034] ①pred_data=prediction(as.numeric(model_score[,3]), model_score [,1]);
[0035] ②pred_cutoff=pred_data@cutoffs。
[0036] 分类截断点的计算方法为,总生存时间小于肺腺癌总生存时间中位数且发生进展的样本标记为0,总生存时间大于肺腺癌总生存时间第三四分位数的样本标记为1。
[0037] 使用时,本发明的检测方法使用时可以归纳性的分为三步:对待检测的肺腺癌样本进行测序,输入29个标志物基因的表达量,然后得到分类结果。受试者工作特征曲线(re
ceiveroperatingcharacteristiccurve,简称ROC曲线),又称为感受性曲线
(sensitivitycurve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同
一信号刺激的反应,只不过是在两种不同的判定标准下所得的结果而已。受试者工作特征
曲线就是以假阳性概率(Falsepositiverate)为横轴,真阳性(Truepositiverate)为纵轴
所组成的坐标图,和受试者在特定刺激条件下由于采用不同的判断标准得出的不同结果画
出的曲线。
[0038] ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(TPR灵敏度)为纵坐标,假阳性率(1‑特异度)为横坐标绘制的曲线。传统的诊断试验评价方法有一
个共同的特点,必须将试验结果分为两类,再进行统计分析。ROC曲线的评价方法与传统的
评价方法不同,无须此限制,而是根据实际情况,允许有中间状态,可以把试验结果划分为
多个有序分类,如正常、大致正常、可疑、大致异常和异常五个等级再进行统计分析。
[0039] ROC曲线能很容易地查出任意界限值时的对疾病的识别能力。选择最佳的诊断界限值。ROC曲线越靠近左上角,试验的准确性就越高。最靠近左上角的ROC曲线的点是错误最
少的最好阈值,其假阳性和假阴性的总数最少。ROC曲线可以用于比较两种或两种以上不同
诊断试验对疾病识别能力。在对同一种疾病的两种或两种以上诊断方法进行比较时,可将
各试验的ROC曲线绘制到同一坐标中,以直观地鉴别优劣,靠近左上角的ROC曲线所代表的
受试者工作最准确。亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较,哪一
种试验的AUC最大,则哪一种试验的诊断价值最佳。本发明的方法的AUC不小于0.9。更好的,
本发明的分类方法的AUC不小于0.94。
[0040] 较好的,标记为0的样本OS小于22.51个月,标记为1的样本OS大于38.57个月。
[0041] 本发明使用总生存时间对肺腺癌样本进行分类,总生存时间的优势在于客观,不存在研究者的主观偏倚,不足的在于观测时间较长,需要记录所有事件的发生,即所有患者
的死亡,耗时长,工作量大。而总生存时间常常被认为是肿瘤临床试验中最佳的疗效终点。
若该指标能有小幅度的提高,可以认为是有意义的临床收益证据。本发明提供的评估基因
群能准确、快捷的对总生存时间高低分类,检测和判断方法简便客观,操作性强,能够快速
的获得分类结果,可应用于临床试验,作为试验入组参考的条件之一,为医务人员进行医疗
决策提供科学依据。

附图说明

[0042] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领
域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附
图。
[0043] 图1是构建模型的流程示意图。
[0044] 收集TCGA数据库中肺腺癌的基因表达数据和TCGA肺腺癌的临床总生存时间数据,经过初步数据清洗,挑选到517个肺腺癌临床样本。对517个肺腺癌样本总生存时间排序,根
据分位数分布进行筛选,总生存时间小于中位数且发生进展的样本标记为0(OS小于22.51
个月),总生存时间大于第三四分位数的样本标记为1(OS大于38.57个月)。结果标记为0的
样本为95个,标记为1的样本123个。对于0和1两组,进行基因差异分析,筛选获得113个差异
基因(p值<0.05)。将先前标记过的临床样本随机分成80%训练集和20%验证集。利用80%临
床样本构建的训练集样本,通过Lasso回归方法对113个差异基因构建立Lasso回归模型(分
类器模型)预测标签0和标签1。根据这80%训练集随机组成的训练组,反复筛选和测试差异
基因的有效性和稳定性。通过反复筛选和人为的调整优化,得到准确率和重复率最高的29
个表达基因群组合模型。
[0045] 图2是最佳模型图。
[0046] 其中,两条虚线分别指示了两个特殊的系数,一个是lambda.min,一个是lambda.1se,这两个值之间的lambda都认为是合适的。lambda.1se构建的模型简单,得到的
基因数量少,而lambda.min得到的基因数量多一点。
[0047] 图3是随机选取15个基因群的对照结果。
[0048] 其中,真正类率(True positive rate),即真阳性率:在所有实际为阳性的样本中,被正确地判断为阳性之比率,公式为TPR=TP/P;
[0049] 伪正类率(False positive rate),即假阳性率:在所有实际为阴性的样本中,被错误地判断为阳性之比率,公式为FPR=FP/P。
[0050] AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,是ROC用来评价模型好坏的重要参数。AUC越接近1.0,检测方法真实性越高。
[0051] 所列举的随机选取15个基因群给出总生存时间分类结果的AUC为0.61,而模型构建的29个基因群组合的结果更优。
[0052] 图4是29个基因群组合的模型验证结果。
[0053] 可见,本发明的优选实施例中,这29个基因组成的基因群AUC高达0.94。

具体实施方式

[0054] 下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通
技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范
围。
[0055] 实施例1
[0056] 本发明用了TCGA肺腺癌的基因表达数据和TCGA肺腺癌的临床总生存时间数据,经过初步数据清洗,挑选了517个肺腺癌样本。根据517个肺腺癌样本总生存时间的分位数分
布进行筛选,总生存时间小于中位数且发生进展的95个样本标记为0(OS小于22.51个月),
总生存时间大于第三四分位数的123个样本标记为1(OS大于38.57个月)。对于0和1两组,进
行差异分析,从20529个基因中筛选出113个差异基因(p值<0.05)。将218个肺腺癌样本随
机分成80%训练集和20%验证集,利用训练集样本和113个差异基因,验证验证集样本标签0
和标签1的准确率,结果并不理想。
[0057] 实施例2
[0058] 本发明在113个基因的基础上进行分类标志物的进一步筛选。利用218个标记的肺腺癌样本,随机分成80%训练集和20%验证集。利用训练集样本和113个差异基因,通过Lasso
回归方法,建立分类器模型,预测标签0和标签1。首选目标是建立由15个基因组成的基因
群,作为肺腺癌总生存时间高低的分类评估标志物。
[0059] 使用Lasso回归方法,以lambda.min和lambda.1se之间的lambda构建模型,得到准确率和重复率较高的15个表达基因群组合模型。利用验证集样本验证这15个表达基因群模
型,验证标签0和标签1的准确率,得出ROC曲线和AUC值。如图3所示,AUC虽然超过了0.5,但
是最终只达到了0.61。这个AUC值提示,这个基于此15个基因标志物的模型,用于肺腺癌总
生存时间高低分类的评估,虽然能够获得分类结果,对总生存时间高低的评估起到辅助判
断作用,但是其可信度仍有待提高。
[0060] 实施例3
[0061] 后续的研究,本发明没有限定基因标志物的数量。利用218个肺腺癌标记的样本,随机分成80%训练集和20%验证集。利用训练集样本和113个差异基因,通过Lasso回归方法,
建立分类器模型,预测标签0和标签1,通过改进建立的模型参数(cv.glmnet(x, y, family 
= "binomial", type.measure = "auc"),其中binomial和auc两个参数适用于分类模型),
经过交叉验证得到29个表达基因群组合模型。利用验证集样本和29个表达基因群模型,验
证标签0和标签1的准确率,得出ROC曲线和AUC值。如图4所示,使用本发明的模型对肺腺癌
样本分类,AUC高达0.94。
[0062] 其中,29个表达基因的名称和基因编号如表1所示。
[0063]
[0064] 实施例4
[0065] 本发明的总生存时间模型可以用于肺腺癌样本。收集待检测的肺腺癌样本,进行基因检测,获得29个标志物的基因表达量。将29个基因表达量结果输入Lasso回归模型,获
得肺腺癌样本分类结果。模型结果中包含模型评分和分类截断点。当模型评分低于分类截
断点的样本标记为0,反之,当模型评分高于分类截断点的样本标记为1。
[0066]
[0067] 结果表明,本发明的预测的总生存时间高低分类结果与实际的总生存时间高低分类匹配率高,具体结果如表2所示。