基于免疫相关基因的MSI预测模型构建方法转让专利

申请号 : CN202111481486.1

文献号 : CN113921079B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 路顺邓思瑶

申请人 : 四川省肿瘤医院

摘要 :

本发明涉及基于免疫相关基因的MSI预测模型构建方法,包括以下步骤:从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集;从免疫学数据库中选择免疫相关基因,并从中筛选出差异基因;根据筛选出的差异基因,通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs;使用免疫相关MSI预测模型irMSIs对预后风险进行验证。本发明提供了免疫相关基因在MSI状态预测上的应用,结合免疫相关基因,找到了一组可以在消化道肿瘤特别是结肠癌中稳定预测MSI的特征基因,并且能够很好的预测结肠癌预后风险。

权利要求 :

1.基于免疫相关基因的MSI预测模型构建方法,其特征在于:包括以下步骤:步骤S1:从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集;

步骤S2:从免疫学数据库中选择免疫相关基因,并从中筛选出差异基因;

步骤S3:根据筛选出的差异基因,通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs;

步骤S4:使用免疫相关MSI预测模型irMSIs对预后风险进行验证;

所述从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集的步骤,包括:

从癌症基因组图谱数据库中下载四个癌症队列,四个所述癌症队列包括结肠癌COAD、直肠癌READ、胃癌STAD、食管癌ESCA的mRNA表达谱和临床信息;

将结肠癌COAD队列作为差异基因的筛选和免疫相关MSI预测模型irMSIs的训练集,其他队列作为免疫相关MSI预测模型irMSIs的验证集;

所述从免疫学数据库中选择免疫相关基因,并从中筛选出差异基因的步骤,包括:从免疫学数据库中下载N个免疫相关基因,从中选取M个配对基因进行分析,N>M;使用edgeR软件包筛选结肠癌COAD队列中微卫星不稳定性高MSI‑H的组和微卫星稳定MSS的组之间的差异基因,或微卫星不稳定性高MSI‑H的组和微卫星不稳定性低MSI‑L的组之间的差异基因,筛选标准为:

假发现率FDR<0.05

|log2(Fold Change)| ≥ 1其中FDR为假发现率,其值是针对多次检验调整确定的;Fold Change表示两组间某基因的测序数据的counts表达量的差异倍数;

从而鉴定出m个差异基因,m

2.根据权利要求1所述的基于免疫相关基因的MSI预测模型构建方法,其特征在于:所述根据筛选出的差异基因,通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs的步骤,包括:

在结肠癌COAD队列中以7:3的比例随机分为训练集和测试集,采用递归特征消除随机森林算法,鉴定出c个鲁棒性基因,c≥5,选择鲁棒性基因最强的前5个基因作为最小绝对收缩算法LASSO的输入,进行LASSO逻辑回归算法的得分计算;

在结肠癌COAD队列的测试集、直肠癌READ队列、胃癌STAD队列、食管癌ESCA队列中进行免疫相关MSI预测模型irMSIs的验证;通过ROC曲线下的面积AUC值来评估免疫相关MSI预测模型irMSIs的预测效能。

3.根据权利要求2所述的基于免疫相关基因的MSI预测模型构建方法,其特征在于:所述使用免疫相关MSI预测模型irMSIs对预后风险进行验证的步骤,包括:在结肠癌COAD队列中,根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的临界值,将患者分为irMSIs高组和irMSIs低组;

根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的中位数,将患者分为微卫星稳定MSS、微卫星不稳定性低MSI‑L中的高组和微卫星稳定MSS、微卫星不稳定性低MSI‑L中的低组;

根据ROC值最高Yoden指数的临界值和ROC值最高Yoden指数的中位数,将患者分为irMSIs高组、irMSIs中组和irMSIs低组,比较三组患者之间的预后差别。

说明书 :

基于免疫相关基因的MSI预测模型构建方法

技术领域

[0001] 本发明涉及生物信息技术领域,特别涉及一种与结肠癌相关的基于免疫相关基因的MSI预测模型构建方法。

背景技术

[0002] 近年来,针对结肠癌的肿瘤免疫治疗被认为是一种不可忽视的治疗方法,其重点是通过激活人体的免疫系统,达到识别、控制和清除肿瘤的疗效。以免疫检查点抑制剂
(ICIs)为靶点的药物,如细胞毒性T淋巴系统相关蛋白4(CTLA‑4)单抗、程序性死亡抑制因
子蛋白及其配体(PD‑1/PD‑L1)单抗等,为治疗多种肿瘤带来了新的曙光,包括晚期黑色素
瘤、非小细胞肺癌和膀胱癌。结肠癌患者也可以从免疫治疗中获益,目前美国FDA已批准PD‑
1免疫治疗单抗pembrolizumab、ipilimumab和nivolumab作为治疗结肠癌患者的有效药物
上市。
[0003] 肿瘤免疫治疗作为一线治疗方案之一,生物标志物的选择显得尤为重要。微卫星不稳定性(MSI)作为关注度最热的生物标志物之一,是指由于在DNA复制时插入或缺失突变
引起的微卫星序列长度改变的现象,常由错配修复功能缺陷引起,与恶性肿瘤的形成密切
相关。
[0004] 美国NCCN发布的结肠癌指南中,建议MSI检测应在所有结肠癌史的病人中进行,以指导临床用药。研究证实,微卫星不稳定性高(MSI‑H)的晚期结肠癌患者对ICIs的敏感性明
显高于微卫星稳定(MSS)/微卫星不稳定性低(MSI‑L)的结肠癌患者,可通过对PD‑1/PD‑L1
的靶向抑制,促使机体免疫系统攻击和杀灭肿瘤细胞,但微卫星不稳定性(MSI)并不直接治
疗或诊断肿瘤。此外,MSI与结肠癌的预后有着密切关系,预后是指对某种疾病最后结果的
预测。MSI‑H结肠癌患者相比MSS/MSI‑L患者具有显著的生存优势,临床表现较差,但总生存
期及无病生存期明显延长。
[0005] 因此免疫相关基因对结肠癌的发生和发展起了至关重要的作用,传统检测MSI的方法主要为免疫组织化学(IHC)和聚合酶链式反应(PCR),但由于IHC和PCR检测手段均需要
在大型医疗机构进行,且成本较高、操作繁琐,很难在临床实践中推广至每一个患者,因此
无法为大量潜在的免疫疗法敏感患者提供及时的ICIs治疗,从而丧失了临床获益机会。

发明内容

[0006] 本发明的目的在于克服传统检测MSI方法的不足,提供一种基于免疫相关基因的MSI预测模型构建方法,无需额外的实验室进行IHC和PCR检测分析,以癌症基因组图谱
(TCGA)和免疫学数据库(ImmPort)为基础,获取差异表达的免疫相关基因。
[0007] 为了实现上述发明目的,本发明实施例提供了以下技术方案:
[0008] 基于免疫相关基因的MSI预测模型构建方法,包括以下步骤:
[0009] 步骤S1:从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集;
[0010] 步骤S2:从免疫学数据库中选择免疫相关基因,并从中筛选出差异基因;
[0011] 步骤S3:根据筛选出的差异基因,通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs;
[0012] 步骤S4:使用免疫相关MSI预测模型irMSIs对预后风险进行验证。
[0013] 所述从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集的步骤,包括:
[0014] 从癌症基因组图谱数据库中下载四个癌症队列,四个所述癌症队列包括结肠癌COAD、直肠癌READ、胃癌STAD、食管癌ESCA的mRNA表达谱和临床信息;
[0015] 将结肠癌COAD队列作为差异基因的筛选和免疫相关MSI预测模型irMSIs的训练集,其他队列作为免疫相关MSI预测模型irMSIs的验证集。
[0016] 所述从免疫学数据库中选择免疫相关基因,并从中筛选出差异基因的步骤,包括:
[0017] 从免疫学数据库中下载N个免疫相关基因,从中选取M个配对基因进行分析,N>M;使用edgeR软件包筛选结肠癌COAD队列中微卫星不稳定性高MSI‑H的组和微卫星稳定MSS的
组之间的差异基因,或微卫星不稳定性高MSI‑H的组和微卫星不稳定性低MSI‑L的组之间的
差异基因,筛选标准为:
[0018] 假发现率FDR<0.05
[0019] |log2(Fold Change)| ≥ 1
[0020] 其中FDR为假发现率,其值是针对多次检验调整确定的;Fold Change表示两组间某基因的测序数据的counts表达量的差异倍数;
[0021] 从而鉴定出m个差异基因,m
[0022] 所述根据筛选出的差异基因,通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs的步骤,包括:
[0023] 在结肠癌COAD队列中以7:3的比例随机分为训练集和测试集,采用递归特征消除随机森林算法,鉴定出c个鲁棒性基因,c≥5,选择鲁棒性基因最强的前5个基因作为最小绝
对收缩,进行LASSO逻辑回归算法的得分计算;
[0024] 在结肠癌COAD队列的测试集、直肠癌READ队列、胃癌STAD队列、食管癌ESCA队列中进行免疫相关MSI预测模型irMSIs的验证;通过ROC曲线下的面积AUC值来评估免疫相关MSI
预测模型irMSIs的预测效能。
[0025] 在上述方案中,选择鲁棒性基因最强的前5个基因分别为TGFBR2基因、GNLY基因、ULBP2基因、SEMA5A基因、R3HDML基因,经最小绝对收缩的系数依次为‑0.077、0.084、
0.070、‑0.064、‑0.055,然后可以进行LASSO逻辑回归算法的得分计算:
[0026] irMSIs = 0.683 ‑0.077 * TGFBR2表达水平+ 0.084 * GNLY表达水平+ 0.070 * ULBP2表达水平‑ 0.064 * SEMA5A表达水平‑ 0.055 * R3HDML表达水平。
[0027] 所述使用免疫相关MSI预测模型irMSIs对预后风险进行验证的步骤,包括:
[0028] 在结肠癌COAD队列中,根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的临界值,将患者分为irMSIs高组和irMSIs低组;
[0029] 根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的中位数,将患者分为微卫星稳定MSS、微卫星不稳定性低MSI‑L中的高组和微卫星稳定MSS、微卫星不稳定性低
MSI‑L中的低组;
[0030] 根据ROC值最高Yoden指数的临界值和ROC值最高Yoden指数的中位数,将患者分为irMSIs高组、irMSIs中组和irMSIs低组,比较三组患者之间的预后差别。
[0031] 与现有技术相比,本发明的有益效果:
[0032] 本发明提供了免疫相关基因在MSI状态预测上的应用,结合免疫相关基因,找到了一组可以在消化道肿瘤特别是结肠癌中稳定预测MSI的特征基因,并且能够很好的预测结
肠癌预后风险。

附图说明

[0033] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍, 应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是
对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
这些附图获得其他相关的附图。
[0034] 图1为本发明流程示意图;
[0035] 图2为本发明实施例筛选出的差异基因火山图;
[0036] 图3为本发明实施例预测模型irMSIs的建立和评估示意图;其中图3(A)为采用LASSO逻辑回归算法建立预测模型irMSIs的参数示意图;图3(B)为采用LASSO逻辑回归算法
建立预测模型irMSIs的系数示意图;图3(C)为在结肠癌COAD队列中通过训练集和验证集的
ROC曲线对预测模型irMSIs进行评价的示意图;图3(D)为在直肠癌READ、胃癌STAD、食管癌
ESCA队列中通过ROC曲线对预测模型irMSI进行评价的示意图。
[0037] 图4为本发明实施例各组间的OS和DSS的生存分析示意图;其中图4(A)为结肠癌COAD队列中MSS/MSI‑L的OS和DSS生存情况示意图;图4(B)为MSI‑H组的OS和DSS生存情况示
意图;图4(C)为结肠癌COAD队列中irMSIs高组和irMSIs低组之间的OS生存情况示意图;图4
(D)为结肠癌COAD队列中irMSIs高组和irMSIs低组之间的DSS生存情况示意图;图4(E)为结
肠癌COAD队列中MSS/MSI‑L中的高组和MSS/MSI‑L中的低组之间的OS生存情况示意图;图4
(F)为结肠癌COAD队列中MSS/MSI‑L中的高组和MSS/MSI‑L中的低组之间的DSS生存情况示
意图;图4(G)为结肠癌COAD队列中irMSIs高组、irMSIs中组和irMSIs低组之间的OS生存情
况示意图;图4(H)为结肠癌COAD队列中irMSIs高组、irMSIs中组和irMSIs低组之间的DSS生
存情况示意图。

具体实施方式

[0038] 下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在
此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因
此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的
范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做
出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0039] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的
描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性,或
者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0040] 实施例:
[0041] 本发明通过下述技术方案实现,请参见图1,基于免疫相关基因的MSI预测模型构建方法,包括以下步骤:
[0042] 步骤S1:从癌症基因组图谱数据库中收集构建免疫相关MSI预测模型irMSIs的训练集和验证集。
[0043] 从癌症基因组图谱数据库TCGA(以下简称TCGA)中下载四个癌症队列,四个所述癌症队列包括结肠癌COAD(n=551)、直肠癌READ(n=177)、胃癌STAD(n=407)、食管癌ESCA(n=
173)的mRNA表达谱和临床信息。将结肠癌COAD队列作为差异基因的筛选和免疫相关MSI预
测模型irMSIs的训练集,其他队列作为免疫相关MSI预测模型irMSIs的验证集。
[0044] 将上述队列中每百万每千碱基的片段(FKPM)转化为每百万转录本数(TPM),再加1和log2进行表达数据归一化。排除重复、复发和正常的组织样本,或缺乏MSI状态的组织样
本后,共有1028个样本被纳入。
[0045] 步骤S2:从免疫学数据库中选择免疫相关基因,并从中筛选出差异基因。
[0046] 从免疫学数据库ImmPort(以下简称ImmPort)中下载N个免疫相关基因,从中选取M个配对基因进行分析,N>M;使用edgeR软件包筛选结肠癌COAD队列中微卫星不稳定性高
MSI‑H的组和微卫星稳定MSS的组/微卫星不稳定性低MSI‑L的组之间的差异基因。
[0047] 本实施例中下载了2428个免疫相关基因,从中选取1229个配对基因进行进一步分析,使用R软件包edgeR筛选步骤S1中结肠癌COAD队列中微卫星不稳定性高MSI‑H的组和微
卫星稳定MSS的组之间的差异基因,或微卫星不稳定行高MSI‑H的组和微卫星不稳定性低
MSI‑L的组之间的差异基因。
[0048] 需要说明的是,在后续微卫星不稳定性高MSI‑H的组简称为MSI‑H,微卫星稳定MSS的组简称为MSS,微卫星不稳定性低MSI‑L的组简称为MSI‑L,MSS/MSI‑L表示微卫星稳定MSS
的组或微卫星不稳定性低MSI‑L的组。
[0049] 筛选方式为:对原始测序的read counts数据计算count‑per‑million(CPM),利用TMM法进行归一化,计算每个样本的size factor;使用likelihood ratio test (似然比检
验)对比MSI‑H与MSS/MSI‑L两组之间的差异表达基因,其中筛选标准为:假发现率FDR<
0.05,|log2(Fold Change)| ≥ 1。其中FDR为假发现率,其值是针对多次检验调整确定的P
值(通过Benjamini‑Hochberg法);Fold Change表示两组间某基因的测序数据的counts表
达量的差异倍数。从而鉴定出233个差异基因,233个差异基因中包括112个上调基因和121
个下调基因,请参见图2所示的火山图。
[0050] 步骤S3:根据筛选出的差异基因,通过LASSO逻辑回归算法构建免疫相关MSI预测模型irMSIs。
[0051] 在结肠癌COAD队列中以7:3的比例随机分为训练集和测试集,将上述所鉴定的233个差异基因,利用“caret”包剔除低方差的稀疏变量及高度相关变量,变量系数均为0.8,随
后利用“randomForest”包采用随机森林递归特征消除算法,鉴定出65个鲁棒性基因。选择
如表1所示的鲁棒性基因最强的前5个基因作为最小绝对收缩算法(LASSO)的输入,请参见
图3(A)、图3(B),进行LASSO逻辑回归算法的得分计算:
[0052] irMSIs = 0.683 ‑0.077 * TGFBR2表达水平+ 0.084 * GNLY表达水平+ 0.070 * ULBP2表达水平‑ 0.064 * SEMA5A表达水平‑ 0.055 * R3HDML表达水平。
[0053] 表1
[0054]
[0055] 在结肠癌COAD队列的测试集、直肠癌READ队列、胃癌STAD队列、食管癌ESCA队列中进行免疫相关MSI预测模型irMSIs的验证,通过ROC曲线下的面积AUC值来评估免疫相关MSI
预测模型irMSIs的预测效能。其中,训练集AUC值为0.974(95%CI:0.954‑0.994),验证集AUC
值为0.999(95%CI:0.985‑1.000),表明免疫相关MSI预测模型irMSIs具有显著性预测效果。
[0056] 此外,请参见图3(C)、图3(D),还使用免疫相关MSI预测模型irMSIs对直肠癌READ队列、胃癌STAD队列、食管癌ESCA队列进行预测,AUC值分别为0.845(95%CI:0.800‑0.899)、
0.855(95%CI:0.608‑1.000)、0.824(95%CI:0.582‑1.000)。
[0057] 步骤S4:使用免疫相关MSI预测模型irMSIs对预后风险进行验证。
[0058] 在结肠癌COAD队列中,根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的临界值(0.325),将患者分为irMSIs高组和irMSIs低组时,irMSIs高组和irMSIs低组之
间的生存差异没有统计学意义,这与实际MSI状态相对应,请参见图4(A)‑图4(D)。
[0059] 而根据免疫相关MSI预测模型irMSIs达到ROC值最高Yoden指数的中位数,将患者分为MSS、MSI‑L中的高组和MSS、MSI‑L中的低组时,5年内总生存期OS和疾病特异性生存期
DSS有显著性差异。MSS、MSI‑L中的低组生存率明显高于MSS、MSI‑L中的高组(OS:P = 
0.0063;DSS:P = 0.0026;P表示两组生存分析的差异显著性),请参见图4(E)、图4(F)。
[0060] 因此,根据ROC值最高Yoden指数的临界值和ROC值最高Yoden指数的中位数,将患者分为irMSIs高组、irMSIs中组和irMSIs低组,比较三组患者之间的预后差别,结果显示
irMSIs低组的患者预后最好,而irMSIs中组的患者预后最差(OS:P = 0.0130;DSS:P = 
0.0055),请参见图4(G)、图4(H)。
[0061] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵
盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。