一种针对病灶基质的分型方法、装置及计算机可读介质转让专利

申请号 : CN202210928847.0

文献号 : CN114999569B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 纪洪辰张红梅王祥旭戚扬

申请人 : 北京汉博信息技术有限公司纪洪辰

摘要 :

本发明公开了一种针对病灶基质的分型方法、装置及计算机可读介质,属于临床医疗数据处理技术领域。该方法一具体实施方式包括:获取目标对象病灶基质所对应的转录组数据,并将转录组数据作为样本,得到若干样本;针对任一样本:基于病灶基质相关通路,确定样本的基因集变异分析GSVA评分;基于GSVA评分,对若干样本进行层次聚类,得到第一组样本和第二组样本;将第一组样本和第二组样本进行基因比对,得到显著差异基因;基于显著差异基因,利用Lasso回归方法构建模型,生成病灶基质分类模型。由此,能够基于病灶基质对病灶生物学行为进行有效区分,从而有利于对病灶实现精准治疗,进而改善病灶的预后影响。

权利要求 :

1.一种针对病灶基质的分型方法,其特征在于,包括:获取目标对象病灶基质所对应的转录组数据,并将所述转录组数据作为样本,得到若干样本;

针对任一样本:基于病灶基质相关通路,确定所述样本的基因集变异分析GSVA评分;

基于若干所述GSVA评分,对所述样本进行层次聚类,获得若干类样本;

针对任一类样本:对该类样本所对应的目标对象进行生存分析,得到生存分析结果;基于若干所述生存分析结果以及目标对象的生存曲线,对若干类样本再次进行分组,得到第一组样本和第二组样本;

将所述第一组样本和所述第二组样本进行基因比对,得到显著差异基因;

利用Lasso回归方法对所述显著差异基因进行筛选,得到特征基因;利用所述特征基因构建模型,生成病灶基质评分模型;基于所述病灶基质评分模型的输出结果进行分类,生成病灶基质分类模型。

2.根据权利要求1所述的方法,其特征在于,所述基于病灶基质相关通路,确定所述样本的GSVA评分,包括:从基因标注数据库和/或反应组学数据中选取与病灶基质成分相关的通路,获得若干第一通路;

从若干所述第一通路中选取与患者预后相关的通路,得到若干第二通路;

针对任一所述第二通路:利用GSVA方法计算所述样本在所述第二通路上的得分,获得所述样本的GSVA评分。

3.根据权利要求1所述的方法,其特征在于,所述将所述第一组样本和所述第二组样本进行基因比对,得到显著差异基因;包括:分别将所述第一组样本和所述第二组样本进行标准化;

对标准化第一组样本和标准化第二组样本进行基因比对,得到差异基因;

基于基因比对结果,选取满足预设条件的差异基因,得到显著差异基因。

4.根据权利要求1所述的方法,还包括:

获取待测目标对象病灶基质所对应的转录组数据;

利用所述病灶基质分类模型对所述转录组数据进行分类,得到第一分类结果和第二分类结果。

5.一种针对病灶基质的分型装置,其特征在于,包括:获取模块,用于获取目标对象病灶基质所对应的转录组数据,并将所述转录组数据作为样本,得到若干样本;

确定模块,用于针对任一样本:基于病灶基质相关通路,确定所述样本的基因集变异分析GSVA评分;

层次聚类模块,用于基于若干所述GSVA评分,对所述样本进行层次聚类,获得若干类样本;针对任一类样本:对该类样本所对应的目标对象进行生存分析,得到生存分析结果;基于若干所述生存分析结果以及目标对象的生存曲线,对若干类样本再次进行分组,得到第一组样本和第二组样本;

比对模块,用于将所述第一组样本和所述第二组样本进行基因比对,得到显著差异基因;

模型生成模块,用于利用Lasso回归方法对所述显著差异基因进行筛选,得到特征基因;利用所述特征基因构建模型,生成病灶基质评分模型;基于所述病灶基质评分模型的输出结果进行分类,生成病灶基质分类模型。

6.根据权利要求5所述的装置,其特征在于,所述确定模块包括:通路获取单元,用于从基因标注数据库和/或反应组学数据中选取与病灶基质成分相关的通路,获得若干第一通路;

通路选取单元,用于从若干所述第一通路中选取与病灶预后相关的通路,得到若干第二通路;

计算单元,用于针对任一所述第二通路:利用GSVA方法计算所述样本在所述第二通路上的得分,获得所述样本的GSVA评分。

7.一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1‑4中任一项所述的方法。

说明书 :

一种针对病灶基质的分型方法、装置及计算机可读介质

技术领域

[0001] 本发明属于临床医疗数据处理技术领域,尤其涉及一种针对病灶基质的分型方法、装置及计算机可读介质。

背景技术

[0002] 胰腺癌是一种恶性程度极高、预后极差的恶性肿瘤,5年生存率不足10%。在世界范围内,胰腺癌发病率排名第5位,死亡率排名第3位。约有80%的胰腺癌患者在首诊时即为晚期或局部晚期,失去手术治疗机会。有些胰腺癌患者即使接受了根治性切除治疗,多数患者也会在5年内出现复发。因此对于复发或不可切除的胰腺癌患者,药物治疗几乎是唯一可以延长患者寿命的方法。尽管目前新型药物的开发在一定程度上延长了胰腺癌患者的寿命;但是胰腺癌患者对药物治疗的敏感性依然不理想。例如:在临床研究中,胰腺癌化疗仅有
20‑40%的有效率。新型抗肿瘤药物(例如:靶向药物、免疫检查点抑制剂等)在恶性肿瘤临床治疗中展现了良好的前景,但仅适用于极少数特殊分子类型的胰腺癌患者,未在胰腺癌整体人群中获得确切疗效。胰腺癌异质性强,不同患者肿瘤生物学性质差异极大,在细胞增殖速度、代谢水平、细胞周期、肿瘤血管生成等方面均有不同,这导致目前有限的抗肿瘤治疗手段对于胰腺癌敏感性差异大。为此,需要根据患者肿瘤特点,选择适合的药物,但此方面研究尚非常有限。
[0003] 由于蛋白质是细胞实现生物功能的主要载体,而且肿瘤组织的基因转录水平决定了蛋白质水平,因此肿瘤组织的基因转录水平是影响肿瘤生物学行为的核心因素。在现有技术条件下,提高胰腺癌药物治疗效果的关键途径之一,就是通过患者基因组转录水平,对肿瘤组织的生物学特性进行区分,根据个体化治疗原则,选择最适合该个体的治疗方案。多项研究提示,基质微环境在胰腺癌的构建过程中发挥重要作用。胰腺癌的基质包含胶原、透明质酸、纤连蛋白、层黏连蛋白等。不同基质成分在比例和含量上的差异可以影响胰腺癌患者预后。例如:Whatcott等的研究提示高表达透明质酸的胰腺癌患者中位生存期为9.3个月,而低表达透明质酸的患者中位生存期为24.3个月,两者存在显著差异;I型胶原蛋白的水平同样会影响患者的生存;但是在另一项研究中,当依据整体胶原水平(I、II、III、IV型)和比例差异对患者进行分类时,患者的生存并没有显示出明显的差异。这说明一方面在对胰腺癌基质成分的分析中需要纳入更多成分;另一方面也提示需要对影响胰腺癌基质微环境的因素进行进一步挖掘。但目前的研究尚无针对胰腺癌基质整体特征的胰腺癌药敏及预后影响因素分析。
[0004] 综上,胰腺癌基质成分的差异影响了胰腺癌患者的生存期和药物敏感性。因此,针对胰腺癌基质进行分型,以实施个体化的精准治疗,对改善胰腺癌患者的的预后具有重要意义。为此,急需要构建一种胰腺癌基质分型方法,以确定胰腺癌基质的类型,从而对患者实施精准药物治疗,提高胰腺癌药物治疗效果。

发明内容

[0005] 本发明提供一种针对病灶基质的分型方法、装置及计算机可读介质。该方法能够对胰腺癌生物学行为进行有效区分,从而有利于对胰腺癌实现精准治疗,进而改善胰腺癌的预后影响。
[0006] 为实现上述目的,根据本申请实施例第一方面提供一种针对病灶基质的分型方法,所述方法包括:获取目标对象病灶基质所对应的转录组数据,并将所述转录组数据作为样本,得到若干样本;针对任一样本:基于病灶基质相关通路,确定所述样本的基因集变异分析GSVA评分;基于所述GSVA评分,对若干所述样本进行层次聚类,得到第一组样本和第二组样本;将所述第一组样本和所述第二组样本进行基因比对,得到显著差异基因;基于所述显著差异基因,利用Lasso回归方法构建模型,生成病灶基质分类模型。
[0007] 可选的,所述基于病灶基质相关通路,确定所述样本的GSVA评分,包括:从基因标注数据库和/或反应组学数据中选取与病灶基质成分相关的通路,获得若干第一通路;从若干所述第一通路中选取与病灶预后相关的通路,得到若干第二通路;针对任一所述第二通路:利用GSVA方法计算所述样本在所述第二通路上的得分,获得所述样本的GSVA评分。
[0008] 可选的,所述基于所述GSVA评分,对若干所述样本进行层次聚类,得到第一组样本和第二组样本;包括:基于若干所述GSVA评分,对所述样本进行层次聚类,获得若干类样本;针对任一类样本:对该类样本所对应的目标对象进行生存分析,得到生存分析结果;基于若干所述生存分析结果以及目标对象的生存曲线,对若干类样本再次进行分组,得到第一组样本和第二组样本。
[0009] 可选的,所述将所述第一组样本和所述第二组样本进行基因比对,得到显著差异基因;包括:分别将所述第一组样本和所述第二组样本进行标准化;对标准化第一组样本和标准化第二组样本进行基因比对,得到差异基因;基于基因比对结果,选取满足预设条件的差异基因,得到显著差异基因。
[0010] 可选的,所述基于所述显著差异基因,利用Lasso回归方法构建模型,生成病灶基质分类模型,包括:利用Lasso回归方法对所述显著差异基因进行筛选,得到特征基因;利用所述特征基因构建模型,生成病灶基质评分模型;基于所述病灶基质评分模型的输出结果进行分类,生成病灶基质分类模型。
[0011] 可选的,所述的方法还包括:获取待测目标对象病灶基质所对应的转录组数据;利用所述病灶基质分类模型对所述转录组数据进行分类,得到第一分类结果和第二分类结果。
[0012] 为实现上述目的,根据本申请实施例第二方面提供一种针对病灶基质的分型装置,所述装置包括:获取模块,用于获取目标对象病灶基质所对应的转录组数据,并将所述转录组数据作为样本,得到若干样本;确定模块,用于针对任一样本:基于病灶基质相关通路,确定所述样本的基因集变异分析GSVA评分;层次聚类模块,用于基于所述GSVA评分,对若干所述样本进行层次聚类,得到第一组样本和第二组样本;比对模块,用于将所述第一组样本和所述第二组样本进行基因比对,得到显著差异基因;生成模块,用于基于所述显著差异基因,利用Lasso回归方法构建模型,生成病灶基质分类模型。
[0013] 可选的,所述生成模块包括:通路获取单元,用于从基因标注数据库和/或反应组学数据中选取与病灶基质成分相关的通路,获得若干第一通路;通路选取单元,用于从若干所述第一通路中选取与病灶预后相关的通路,得到若干第二通路;计算单元,用于针对任一所述第二通路:利用GSVA方法计算所述样本在所述第二通路上的得分,获得所述样本的GSVA评分。
[0014] 可选的,所述层次聚类模块包括:层次聚类单元,用于基于若干所述GSVA评分,对所述样本进行层次聚类,获得若干类样本;生存分析单元,用于针对任一类样本:对该类样本所对应的目标对象进行生存分析,得到生存分析结果;样本分组单元,用于基于若干所述生存分析结果以及目标对象的生存曲线,对若干类样本再次进行分组,得到第一组样本和第二组样本。
[0015] 为实现上述目的,根据本申请实施例第三方面提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述的方法。
[0016] 为实现上述目的,根据本申请实施例第四方面还提供一种电子设备,所述电子设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
[0017] 与现有技术相比,本发明实施例提供一种针对病灶基质的分型方法、装置及计算机可读介质;所述方法包括:首先,获取目标对象病灶基质所对应的转录组数据,并将所述转录组数据作为样本,得到若干样本;其次,针对任一样本:基于病灶基质相关通路,确定所述样本的基因集变异分析GSVA评分;之后,基于所述GSVA评分,对若干所述样本进行层次聚类,得到第一组样本和第二组样本;最后,将所述第一组样本和所述第二组样本进行基因比对,得到显著差异基因;并基于所述显著差异基因,利用Lasso回归方法构建模型,生成病灶基质分类模型。本实施例基于病灶基质对应的转录组数据在通路上获取GSVA评分,并基于GSVA评分进行聚类以获取差异基因,最后通过Lasso回归方法构建病灶基质分类模型;由此,能够基于病灶基质对病灶生物学行为进行有效区分,从而有利于对病灶实现精准治疗,进而改善病灶的预后影响。

附图说明

[0018] 后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
[0019] 图1为本发明一实施例提供的针对病灶基质的分型方法的流程示意图;
[0020] 图2为本发明一实施例中基于GSVA评分对若干样本进行层次聚类的流程示意图;
[0021] 图3为本发明一实施例中基于基因比对获得显著差异基因的流程示意图;
[0022] 图4为本发明一实施例中构建病灶基质评分模型的流程示意图;
[0023] 图5为本发明一实施例中基于病灶基质分类模型进行预测的流程示意图;
[0024] 图6为CPTAC‑3数据集和TCGA数据集所对应样本的PECMS评分示意图;
[0025] 图7为CPTAC‑3胰腺癌数据集中低PECMS组和高PECMS组所对应患者的生存分析结果示意图;
[0026] 图8为本中心胰腺癌数据集中低PECMS组和高PECMS组所对应患者的生存分析结果示意图;
[0027] 图9为低PECMS组和高PECMS组对化疗药物敏感性预测结果示意图;其中,ns表示无显著差异;*表示P<0.05;****表示P<0.00005;
[0028] 图10为低PECMS组和高PECMS组对免疫检查点抑制剂治疗结果示意图;
[0029] 图11为本发明一实施例提供的针对病灶基质的分型装置的结构示意图。

具体实施方式

[0030] 为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0031] 如图1所示,为本发明一实施例提供的针对病灶基质的分型方法的流程示意图。一种针对病灶基质的分型方法,所述方法至少包括如下步骤:
[0032] S101,获取目标对象病灶基质所对应的转录组数据,并将转录组数据作为样本,得到若干样本;
[0033] S102,针对任一样本:基于病灶基质相关通路,确定样本的基因集变异分析GSVA评分;
[0034] S103,基于GSVA评分,对若干样本进行层次聚类,得到第一组样本和第二组样本;
[0035] S104,将第一组样本和第二组样本进行基因比对,得到显著差异基因;
[0036] S105,基于显著差异基因,利用Lasso回归方法构建模型,生成病灶基质分类模型。
[0037] 在S101中,在这里,病灶通常是指肿瘤,例如胰腺癌肿瘤、乳腺癌肿瘤、胃癌肿瘤等。通过手术或者活检等方式获得目标对象的肿瘤基质;之后对肿瘤基质进行转录组测序,得到目标对象肿瘤基质所对应的转录组数据。
[0038] 例如:从癌症基因组图谱(The Cancer Genome Atlas,缩写TCGA)数据库中获取若干目标对象胰腺癌基质所对应的转录组数据。
[0039] 在S102中,可以直接从通路数据库中获取肿瘤基质相关通路,也可以从源数据库获取肿瘤基质相关通路,示例性地:从基因标注数据库和/或反应组学数据中选取与病灶基质成分相关的通路,获得若干第一通路;从若干所述第一通路中选取与病灶预后相关的通路,得到若干第二通路;
[0040] 针对任一所述第二通路:利用基因集变异分析(Gene Set Variation Analysis,缩写GSVA)方法计算所述样本在所述第二通路上的得分,获得所述样本的GSVA评分。
[0041] 例如:从基因本体联合会构建的基因标注(Gene Ontology,缩写GO)数据库以及反应组学(REACTOME)数据库中,筛选出与胰腺癌肿瘤机制构建和机制‑细胞相互作用相关的通路,筛选条件字段为((“GO“ or“REACTOME”) and (“胶原” or “透明质酸” or “层黏连蛋白”)),得到若干第一通路;之后,从若干第一通路中选取与胰腺癌预后相关的通路,得到14条第二通路;或者,从若干第一通路中剔除已知明确与胰腺癌预后不相关的通路,得到14条第二通路。14条第二通路如下所示:
[0042] GOBP:透明质酸代谢(全称:hyaluronan metabolic process)
[0043] GOBP:透明质酸生物合成(全称:hyaluronan biosynthetic process)
[0044] GOBP:透明质酸分解(全称:hyaluronan catabolic process)
[0045] GOBP:胶原分解(全称:collagen catabolic process)
[0046] GOBP:细胞外基质组织调控(全称:regulation of extracellular matrix organization)
[0047] GOCC:层黏连蛋白复合物(全称:laminin complex)
[0048] GOMF:细胞外结构组织(全称:extracellular matrix structural constituent)[0049] GOMF:胶原黏附(全称:collagen binding)
[0050] GOMF:透明质酸黏附(全称:hyaluronic acid binding)
[0051] GOMF:层黏连蛋白黏附(全称:laminin binding)
[0052] REACTOME:胶原降解(全称:collagen degradation)
[0053] REACTOME:胶原形成(全称:collagen formation)
[0054] REACTOME:胶原纤维交联(全称:crosslinking of collagen fibrils)[0055] REACTOME:层黏连蛋白相互作用(全称:laminin interactions)
[0056] 其中,GOBP代表GO数据库中生物学过程相关的通路,GOCC代表GO数据库中细胞组分相关的通路,GOMF代表GO数据库中分子功能相关的通路。
[0057] 针对任一样本:利用GSVA方法计算样本分别在14条通路上的得分,获得14个GSVA评分。
[0058] 在这里,胰腺癌转录组数据就是转录组测序数据,这个测序数据是包含全部上万个基因的。每一个通路是由一些基因构成的,GSVA是根据某一条通路所包含的基因的转录组数据,计算样本在这个通路上的评分。
[0059] 在S103至S105中,将GSVA评分作为样本的通路特征,对若干样本进行层次聚类,得到第一组样本和第二组样本;使用“R”语言中的“DESeq2”包,在第一组样本和第二组样本之间筛选显著差异基因;之后,基于显著差异基因,利用Lasso回归方法,构建病灶基质评分模型,并基于预设阈值对病灶基质评分模型的输出结果进行分类,从而获得病灶基质分类模型。
[0060] 例如:病灶基质分类模型可以为胰腺癌基质分类模型。
[0061] 采用本实施例的方法能够基于胰腺癌基质对应的转录组数据在通路上获取GSVA评分,并基于GSVA评分进行聚类以获取显著差异基因,最后通过Lasso回归方法获取胰腺癌基质分类模型;由此,能够基于胰腺癌基质分类模型对胰腺癌基质的生物学行为进行有效区分,从而有利于对胰腺癌实现精准治疗,进而改善胰腺癌的预后影响。
[0062] 在本实施例优选的一实施方式中,如图2所示,为本发明一实施例中基于GSVA评分对若干样本进行层次聚类的流程示意图。
[0063] 基于GSVA评分对若干样本进行层次聚类,至少包括如下步骤:
[0064] S201,基于若干GSVA评分,对样本进行层次聚类,获得若干类样本;
[0065] S202,针对任一类样本:对该类样本所对应的目标对象进行生存分析,得到生存分析结果;
[0066] S203,基于若干生存分析结果以及目标对象的生存曲线,对若干类样本再次进行分组,得到第一组样本和第二组样本。
[0067] 在S201中,将GSVA评分作为评分向量,计算任意两个评分向量的欧式距离,将距离最近的两个样本归为一类,得到第一类样本;然后将第一类样本中两个样本的平均评分向量作为第一类样本的评分向量;计算任意两个第一类样本之间的欧式距离,将距离最近的第一类样本归为一类,得到第二类样本,第二类样本中包含四个样本;以此类推,最终获得两类样本。
[0068] 在S202中,生存分析是对一个或多个非负随机变量进行统计推断,研究生存现象和响应时间数据及其统计规律的一门学科。生存分析既考虑结果又考虑生存时间的一种统计方法,并可充分利用截尾数据所提供的不完全信息,对生存时间的分布特征进行描述,对影响生存时间的主要因素进行分析。
[0069] S203中,比较两类样本的目标对象在生存上的差异,选择生存差异最明显的分类数,最终将所有样本划分为四个分类,换句话说,就是将所有目标对象划分为四个分类。之后,基于目标对象的生存曲线对四个分类样本进一步分组,当第一类样本和第三类样本的患者生存接近,且第二类样本和第四类样本的患者生存接近时,进一步将样本分为两组:第一组样本包含第一类样本和第三类样本,第二组样本包含第二类样本和第四类样本,由此,将样本划分为两组,从而获得第一组样本和第二组样本。
[0070] 需要说明的是,在其他数据集中,比较两类样本的目标对象在生存上的差异,选择生存差异最明显的分类数,可能将样本划分为两个、三个、或五个类别。
[0071] 本实施例基于样本在通路中的GSVA评分,并结合目标对象的生存分析以及生存曲线对样本进行分类,由此能够充分结合目标对象的生存情况对样本进行分类,有利于提高病灶基质分类模型预测的准确性。
[0072] 在本实施例优选的另一实施方式中,如图3所示,为本发明一实施例中基于基因比对获得显著差异基因的流程示意图。
[0073] 基于基因比对获得显著差异基因,至少包括如下步骤:
[0074] S301,分别将第一组样本和所述第二组样本进行标准化;
[0075] S302,对标准化第一组样本和标准化第二组样本进行基因比对,得到差异基因;
[0076] S303,基于基因比对结果,选取满足预设条件的差异基因,得到显著差异基因。
[0077] 在S301中,分别将第一组样本和第二组样本分布到平均值为0,标准差为1的正态样本空间上,得到标准化第一组样本和标准化第二组样本。针对第一组样本或第二组样本标准化所用到的计算公式如下式(1)所示:
[0078]
[0079] 式(1);
[0080] 其中,Xs是标准化后的值,X是样本值,μ是第一组样本或第二组样本的平均值,theta是第一组样本或第二组样本的标准差。
[0081] 在S302和S303中,使用“R”语言中的“DESeq2”包对标准化第一组样本和标准化第二组样本进行基因比对,得到若干差异基因;将若干差异基因中满足Log2(差异倍数)>1.5 and P<0.0001的差异基因确定为显著差异基因。
[0082] 由此,本实施方式基于“R”语言中的“DESeq2”包对显著差异基因进行筛选,提高了两组样本之间差异基因筛选的准确度。
[0083] 在本实施例优选的又一实施方式中,如图4所示,为本发明一实施例中构建病灶基质评分模型的流程示意图。
[0084] 构建病灶基质评分模型,至少包括如下步骤:
[0085] S401,利用Lasso回归方法对所述显著差异基因进行筛选,得到特征基因;
[0086] S402,利用特征基因构建模型,生成病灶基质评分模型;
[0087] S403,基于病灶基质评分模型的输出结果进行分类,生成病灶基质分类模型。
[0088] 在S401中,经过“R”语言中的“DESeq2”包的筛选,共筛选出191个具有显著差异基因。由于使用该数量进行分类,不具有临床可行性,因此,使用Lasso回归方法进行对显著差异基因进行降维并构建分类模型。Lasso回归的代价函数如式(2)所示:
[0089]
[0090] 式(2);
[0091] 其中,MSE为均方误差函数。w是权重向量,b是偏差值,(wx(i)+ b)是基于转录水平的线性回归中的预测值,y是样本的真实值,θ是长度为n+1的向量,包括截距项的系数θ0,m为样本数,n为显著差异基因的数量。||w||1表示参数w的l1范数;
[0092] 通常认为Lasso可以获得二个推荐的取值。当Lasso取最小均方误差时,获得11个显著差异基因,此时11个显著差异基因作为Lasso的特征基因。当Lasso取最小均方误差+1倍标准差时,获得8个显著差异基因,此时8个显著差异基因作为Lasso的特征基因。特征基因即是Lasso的特征变量。两者预测的受试者特征曲线下面积均为0.96,表现出了良好的对分类的预测效能。由于第二个取值可以减少特征基因的数量,因此选择第二个(最小均方误差+1倍标准差)作为最终取值。在胰腺癌基质分类模型构建中,基于第二个推荐的取值时,获得的特征基因分别为:COL17A1,AREG,KLHL32,CDA,POSTN,SLC2A1,FN1,and IHNBA。对应的权重值分别为:0.01008、0.02200、‑0.00790、0.00911、0.01679、0.04085、0.00533、0.01314。
[0093] 在S402中,病灶基质评分模型的计算公式如下式(3)所示:
[0094]
[0095] 式(3);
[0096] 其中,Coefi为Lasso Cox模型中第i个特征变量的权重,Expi为第i个特征基因的表达量,Intercept为Lasso Cox模型的插值,例如:Intercept为‑1.75536。
[0097] 当病灶基质评分模型用于胰腺癌基质评分时,相应地,将病灶基质评分模型命名为胰腺癌基质评分模型(Pancreatic cancer ECM scoring,缩写PECMS)。
[0098] 在S403中,将预设阈值作为病灶基质评分模型的输出结果的截断值,生成病灶基质分类模型。
[0099] 示例性地,判断病灶基质评分模型的输出结果是否大于预设阈值;若是,则将该样本确定为第一分类结果;若否,则将样本确定为第二分类结果。
[0100] 例如:使用最大约登指数(注:灵敏度+特异性‑1)作为胰腺癌基质评分模型的预设阈值,基于预设阈值可以将样本分为高PECMS组合低PECMS组。
[0101] 本实施方式通过Lasso回归方法对特征基因进行筛选,并在筛选后基于特征基因进行建模,生成病灶基质评分模型;最后基于病灶基质评分模型和预设阈值,生成病灶基质分类模型;由此能够基于目标对象的特征基因对病灶基质的生物学行为进行分类,从而提高模型对于病灶基质预测的准确性。
[0102] 在本实施例优选的又一实施方式中,如图5所示,本发明一实施例中基于病灶基质分类模型进行预测的流程示意图。
[0103] 在预测阶段,基于病灶基质分类模型进行预测,至少包括如下流程:
[0104] S501,获取待测目标对象病灶基质所对应的转录组数据;
[0105] S502,利用病灶基质分类模型对待测转录组数据进行分类,得到第一分类结果和第二分类结果。
[0106] 例如,获取待测目标对象胰腺癌基质所对应的转录组数据;利用胰腺癌基质分类模型对转录组数据进行分类,得到高PECMS样本组和低PECMS样本组。
[0107] 由此,基于病灶基质分类模型能够对病灶基质进行准确分类,提高了病灶预测的准确性。
[0108] 应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在的逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0109] 一、验证胰腺癌基质分类模型对胰腺癌患者生存的预测效果
[0110] 1、在外部胰腺癌数据集(CPTAC‑3数据集,包含胰腺癌患者的转录组数据和生存时间数据)中验证PECMS对生存的预测效能。
[0111] 由于PECMS数据获得是依据TCGA(肿瘤基因组图谱)数据库中的数据,因此使用外部胰腺癌数据集,将患者进行分类并验证,可以证明胰腺癌基质模型的泛化性能,以及对生存的预测作用。验证步骤如下所述。
[0112] 步骤S601:由于TCGA数据集和CPTAC‑3数据集中转录组数据采用不同的转录组测序方式,因此首先将CPTAC‑3数据集中的转录组数据分布到平均值为0,标准差为1的正态样本空间内,使二者的分布一致。
[0113] 步骤S602:利用胰腺癌基质评分模型对CPTAC‑3中的样本进行PECMS评分,结果如图6所示。之后使用最大约登指数(注:灵敏度+特异性‑1)作为胰腺癌基质评分模型的预设阈值,将CPTAC‑3数据集进行分组。
[0114] 步骤S603:分析两组患者的生存差异,结果提示在CPTAC‑3这一外部数据集中,低PECMS组患者的生存显著更优,如图7所示。
[0115] 2、本中心独立数据集验证
[0116] 采集中国人民解放军空军军医大学第一附属医院胰腺癌患者的临床标本,进行转录组测序;并采集临床生存相关数据,进行PECMS评分并分组,方法同步骤S601‑S603。基于如图8所示的生存分析结果,可知PECMS低的胰腺癌患者生存期显著更长,验证了PECMS在临床中的实用性。
[0117] 二、验证胰腺癌基质分类模型对化疗及免疫治疗药物敏感性的预测效果
[0118] 1、验证胰腺癌基质分类模型对化疗敏感性的预测效果
[0119] 药物敏感性数据来源于癌症基因组药物敏感性数据库(Genomics of Drug Sensitivity in Cancer,GDSC),该数据库纳入了多种细胞系的转录组数据及其对于不同药物的半抑制浓度(英文缩写:IC50)值。
[0120] 首先将不同细胞系的转录组数据重新分布到均值为0,标准差为1的正态样本空间上,然后计算样本的PECMS评分,使用Person相关性分析方法分析PECMS评分与化疗药物IC50值之间的相关性。使用R包“pRRophetic”计算各样本药物敏感性的预测值,并分析高PECMS/低PECMS组间敏感性预测值的差异,如图9所示。图9结果显示在近年来胰腺癌治疗方面广泛应用的紫杉类药物中,低PECMS组的药物敏感性预测值显著高于高PECMS组。
[0121] 2、验证胰腺癌基质分类模型对免疫检查点抑制剂治疗敏感性的预测效果
[0122] 免疫检查点抑制剂在胰腺癌治疗中展现出良好的应用前景,但仅有部分患者可以从免疫检查点治疗中获益。为此,利用一个独立的免疫检查点抑制剂治疗临床数据集(IMvigor‑210),其中包含了患者肿瘤组织的转录组数据和生存数据,所有患者均应用免疫检查点抑制剂进行治疗。
[0123] IMvigor‑210患者转录组数据处理方法同步骤S601‑S603。治疗敏感性使用实体肿瘤的疗效评价标准(英文:Response Evaluation Criteria In Solid Tumours,RECIST)v1.1版本进行评价,评价结果分为部分缓解(肿瘤直径缩小>30%)、病情稳定(肿瘤直径缩小≤30%或增大≤20%)、病情进展(肿瘤直径增大>20%)。根据图10所示的结果显示低PECMS组对于免疫检查点抑制剂治疗的反应性显著优于高PECMS组,提示该模型及所获得的PECMS评分可以用于免疫检查点抑制剂药物敏感性的预测。
[0124] 用例:患者A于2020年12月诊断胰腺癌,初始评估没有手术治疗机会。患者不满意传统化疗效果,想尝试新型的免疫检查点抑制剂治疗,但免疫检查点抑制剂有适用人群,患者不确定是否适用。因此,研究团队对患者进行了转录组测序,根据本转录所描述的方法,计算PECMS评分,结果显示PECMS评分0.55,分组后该患者属于高PECMS评分组,预测该患者对免疫治疗敏感,因此选择帕博利珠单抗(免疫检查点抑制剂)联合单药吉西他滨方案化疗。截至申报时,患者病情稳定,最佳疗效为部分缓解(肿瘤直径缩小53%),无进展生存时间已达15个月,远超胰腺癌患者常规治疗中位数据(6个月)。
[0125] 由此,基于胰腺癌基质分类模型能够对胰腺癌生物学行为进行有效区分,从而有利于对胰腺癌实现精准治疗,进而改善胰腺癌的预后影响。
[0126] 如图11所示,为本发明一实施例提供针对病灶基质的分型装置的结构示意图。一种针对病灶基质的分型装置,该装置110包括:获取模块111,用于获取目标对象病灶基质所对应的转录组数据,并将所述转录组数据作为样本,得到若干样本;确定模块112,用于针对任一样本:基于病灶基质相关通路,确定所述样本的基因集变异分析GSVA评分;层次聚类模块113,用于基于所述GSVA评分,对若干所述样本进行层次聚类,得到第一组样本和第二组样本;比对模块114,用于将所述第一组样本和所述第二组样本进行基因比对,得到显著差异基因;模型生成模块115,用于基于所述显著差异基因,利用Lasso回归方法构建模型,生成病灶基质分类模型。
[0127] 在优选的实施方式中,所述生成模块包括:通路获取单元,用于从基因标注数据库和/或反应组学数据中选取与病灶基质成分相关的通路,获得若干第一通路;通路选取单元,用于从若干所述第一通路中选取与病灶预后相关的通路,得到若干第二通路;计算单元,用于针对任一所述第二通路:利用GSVA方法计算所述样本在所述第二通路上的得分,获得所述样本的GSVA评分。
[0128] 在优选的实施方式中,所述层次聚类模块包括:层次聚类单元,用于基于若干所述GSVA评分,对所述样本进行层次聚类,获得若干类样本;生存分析单元,用于针对任一类样本:对该类样本所对应的目标对象进行生存分析,得到生存分析结果;样本分组单元,用于基于若干所述生存分析结果以及目标对象的生存曲线,对若干类样本再次进行分组,得到第一组样本和第二组样本。
[0129] 在优选的实施方式中,比对模块包括:标准化单元,用于分别将所述第一组样本和所述第二组样本进行标准化;基因比对单元,用于对标准化第一组样本和标准化第二组样本进行基因比对,得到差异基因;选取单元,用于基于基因比对结果,选取满足预设条件的差异基因,得到显著差异基因。
[0130] 在优选的实施方式中,模型生成模块包括:筛选单元,用于利用Lasso回归方法对所述显著差异基因进行筛选,得到特征基因;评分模型构建单元,用于利用所述特征基因构建模型,生成病灶基质评分模型;分类单元,用于基于所述病灶基质评分模型的输出结果进行分类,生成病灶基质分类模型。
[0131] 在优选的实施方式中,所述装置还包括:获取模块还用于,获取待测目标对象病灶基质所对应的转录组数据;预测分类模块,用于利用所述病灶基质分类模型对所述转录组数据进行分类,得到第一分类结果和第二分类结果。
[0132] 上述装置可执行本发明一实施例所提供的针对病灶基质的分型方法,具备执行针对病灶基质的分型方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的用于优化机器人轨迹点的方法。
[0133] 本发明还提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本发明所述的针对病灶基质的分型方法。
[0134] 除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
[0135] 所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0136] 此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请如下各实施例的方法中的步骤。
[0137] 所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0138] 以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
[0139] 本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
[0140] 还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
[0141] 提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0142] 为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
[0143] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0144] 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0145] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。