肿瘤突变负荷的检测方法、装置、存储介质及处理器转让专利

申请号 : CN201910049870.0

文献号 : CN109817279B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郭现超韩文博洪媛媛方璐陈维之杜波何骥

申请人 : 臻悦生物科技江苏有限公司

摘要 :

本申请公开了一种肿瘤突变负荷的检测方法、装置、存储介质及处理器。其中,检测方法包括:获取目标对象的组织和血浆样本的测序数据;将测序数据与参考基因组进行比对,得到变异数据结果;对变异数据结果进行体细胞分析,得到体细胞突变结果;去除体细胞突变结果中的非真实突变位点,得到数量为Mn的真实突变位点;将变异数据结果中符合测序深度阈值的突变位点的数量记为Tn,按照如下公式计算肿瘤突变负荷:TMB=Mn/Tn*1000000。解决了现有技术中仅能单独检测肿瘤组织或者肿瘤患者血浆肿瘤突变负荷的技术问题。

权利要求 :

1.一种肿瘤突变负荷的检测方法,其特征在于,所述检测方法包括:获取目标对象的组织和血浆样本的测序数据;

将所述测序数据与参考基因组进行比对,得到变异数据结果;

对所述变异数据结果进行体细胞分析,得到所述体细胞突变结果;

去除所述体细胞突变结果中的非真实突变位点,得到数量为Mn的真实突变位点;

将所述变异数据结果中符合测序深度阈值的突变位点的数量记为Tn,按照如下公式计算所述肿瘤突变负荷:TMB = Mn/Tn*1000000;其中,去除所述体细胞突变结果中的如下至少之一的非真实突变位点,得到所述数量为Mn的真实突变位点:频率小于5%且在中国人群数据库中出现频率大于0.2%的位点、已知的肿瘤驱动基因突变位点和基因组重复区域出现的突变位点;

所述中国人群数据库是指利用中国肿瘤患者人群建立的基因突变数据库。

2.根据权利要求1所述的检测方法,其特征在于,获取目标对象的组织和血浆样本的测序数据的步骤包括:获取所述目标对象的分别来源于组织和血浆样本的原始数据;

对分别来源于所述组织和血浆样本的原始数据进行质控处理,得到所述测序数据。

3.根据权利要求1所述的检测方法,其特征在于,对所述测序数据与参考基因组进行比对,得到变异数据结果的步骤包括:将所述测序数据与所述参考基因组进行比对,得到比对结果文件;

对所述比对结果文件进行去冗余以及对InDel区域进行重新比对,得到所述变异数据结果。

4.根据权利要求1所述的检测方法,其特征在于,利用对照样本的测序数据,对所述变异数据结果进行体细胞分析,得到所述体细胞突变结果。

5.根据权利要求1至4中任一项所述的检测方法,其特征在于,测序深度阈值为测序深度大于等于100×。

6.根据权利要求5所述的检测方法,其特征在于,所述测序数据是针对表10所示的316个基因的测序数据。

7.一种肿瘤突变负荷的检测装置,其特征在于,所述检测装置包括:获取模块,用于获取目标对象的组织和血浆样本的测序数据;

比对模块,用于将所述测序数据与参考基因组进行比对,得到变异数据结果;

体细胞突变分析模块,用于对所述变异数据结果进行体细胞分析,得到所述体细胞突变结果;

过滤模块,用于去除所述体细胞突变结果中的非真实突变位点,得到数量为Mn的真实突变位点;

计算模块,用于将所述变异数据结果中符合测序深度阈值的突变位点的数量记为Tn,并按照如下公式计算所述肿瘤突变负荷:TMB = Mn/Tn*1000000;

其中,所述过滤模块包括:

过滤单元,用于去除所述体细胞突变文件中的如下至少之一的非真实突变位点,得到所述真实突变位点:频率小于5%且在中国人群数据库中出现频率大于0.2%的位点、已知的肿瘤驱动基因突变位点和基因组重复区域出现的突变位点;

所述中国人群数据库是指利用中国肿瘤患者人群建立的基因突变数据库。

8.根据权利要求7所述的检测装置,其特征在于,所述获取模块包括:获取单元,用于获取所述目标对象的分别来源于组织和血浆样本的原始数据;

质控单元,用于对分别来源于所述组织和血浆样本的原始数据进行质控处理,得到所述测序数据。

9.根据权利要求7所述的检测装置,其特征在于,所述比对模块包括:第一比对单元,用于将所述测序数据与所述参考基因组进行比对,得到比对结果文件;

第二比对单元,用于对所述比对结果文件进行去冗余以及对InDel区域进行重新比对,得到所述变异数据结果。

10.根据权利要求7所述的检测装置,其特征在于,所述体细胞突变分析模块为含有对照分析的MuTect模块或MuTect2模块。

11.根据权利要求7至10中任一项所述的检测装置,其特征在于,测序深度阈值为测序深度大于等于100×。

12.根据权利要求11所述的检测装置,其特征在于,所述测序数据是针对表10所示的

316个基因的测序数据。

13.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至6中任意一项所述的肿瘤突变负荷的检测方法。

14.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任意一项所述的肿瘤突变负荷的检测方法。

说明书 :

肿瘤突变负荷的检测方法、装置、存储介质及处理器

技术领域

[0001] 本申请涉及基因测序数据分析领域,具体而言,涉及一种肿瘤突变负荷的检测方法、装置、存储介质及处理器。

背景技术

[0002] 肿瘤突变负荷,英文全称Tumor Mutation Burden(TMB)或Tumor Mutation Load(TML),是一种可定量的生物标志物,用来反映肿瘤细胞中所含有的突变数目,通常用肿瘤细胞基因组编码区的每百万碱基突变数来衡量。
[0003] 现阶段对TMB检测金标准就是WES测序(全外显子组测序技术),对≥30Mb的CDS区域(蛋白质编码区,外显子)序列中的突变数量进行统计分析与计算。然而该方法存在检测成本过高、对于无对照样本结果检测结果不准确以及仅能单独检测肿瘤组织或者肿瘤患者血浆肿瘤突变负荷等缺点,因此,急需开发一种新的方法用来检测TMB。

发明内容

[0004] 本申请提供一种肿瘤突变负荷的检测方法、装置、存储介质及处理器,以便能够同时检测组织和血浆的肿瘤突变负荷。
[0005] 根据本申请的一个方面,提供了一种肿瘤突变负荷的检测方法,检测方法包括:获取目标对象的组织和血浆样本的测序数据;将测序数据与参考基因组进行比对,得到变异数据结果;对变异数据结果进行体细胞分析,得到体细胞突变结果;去除体细胞突变结果中的非真实突变位点,得到数量为Mn的真实突变位点;将变异数据结果中符合测序深度阈值的突变位点的数量记为Tn,按照如下公式计算肿瘤突变负荷:TMB=Mn/Tn*1000000。
[0006] 进一步地,获取目标对象的组织和血浆样本的测序数据的步骤包括:获取目标对象的分别来源于组织和血浆样本的原始数据;对分别来源于组织和血浆样本的原始数据进行质控处理,得到测序数据。
[0007] 进一步地,对测序数据与参考基因组进行比对,得到变异数据结果的步骤包括:将测序数据与参考基因组进行比对,得到比对结果文件;对比对结果文件进行去冗余以及对InDel区域进行重新比对,得到变异数据结果。
[0008] 进一步地,利用对照样本的测序数据,对变异数据结果进行体细胞分析,得到体细胞突变结果。
[0009] 进一步地,去除体细胞突变结果中的如下至少之一的非真实突变位点,得到数量为Mn的真实突变位点:频率小于5%且在中国人群数据库中出现频率大于0.2%的位点、已知的肿瘤驱动基因突变位点和基因组重复区域出现的突变位点。
[0010] 进一步地,测序深度阈值为测序深度大于等于100×,优选地,测序数据是针对表10所示的316个基因的测序数据。
[0011] 根据本申请的第二个方面,提供了一种肿瘤突变负荷的检测装置,检测装置包括:获取模块,用于获取目标对象的组织和血浆样本的测序数据;比对模块,用于将测序数据与参考基因组进行比对,得到变异数据结果;体细胞突变分析模块,用于对变异数据结果进行体细胞分析,得到体细胞突变结果;过滤模块,用于去除体细胞突变结果中的非真实突变位点,得到数量为Mn的真实突变位点;计算模块,用于将变异数据结果中符合测序深度阈值的突变位点的数量记为Tn,并按照如下公式计算肿瘤突变负荷:TMB=Mn/Tn*1000000。
[0012] 进一步地,获取模块包括:获取单元,用于获取目标对象的分别来源于组织和血浆样本的原始数据;质控单元,用于对分别来源于组织和血浆样本的原始数据进行质控处理,得到测序数据。
[0013] 进一步地,比对模块包括:第一比对单元,用于将测序数据与参考基因组进行比对,得到比对结果文件;第二比对单元,用于对比对结果文件进行去冗余以及对InDel区域进行重新比对,得到变异数据结果。
[0014] 进一步地,体细胞突变分析模块为含有对照分析的模块,优选体细胞突变分析模块为MuTect模块或MuTect2模块。
[0015] 进一步地,过滤模块包括:过滤单元,用于去除体细胞突变文件中的如下至少之一的非真实突变位点,得到真实突变位点:频率小于5%且在中国人群数据库中出现频率大于0.2%的位点、已知的肿瘤驱动基因突变位点和基因组重复区域出现的突变位点。
[0016] 进一步地,测序深度阈值为测序深度大于等于100×,优选地,测序数据是针对表10所示的316个基因的测序数据。
[0017] 根据本申请的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述任意一项所述的肿瘤突变负荷的检测方法。
[0018] 根据本申请的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的肿瘤突变负荷的检测方法。
[0019] 通过本申请,采用以下步骤:获取目标对象的组织和血浆样本的测序数据;将测序数据与参考基因组进行比对,得到变异数据结果;对变异数据结果进行体细胞分析,得到体细胞突变结果;去除体细胞突变结果中的非真实突变位点,得到数量为Mn的真实突变位点;将变异数据结果中符合测序深度阈值的突变位点的数量记为Tn,则按照如下公式计算肿瘤突变负荷:TMB=Mn/Tn*1000000,解决了现有技术中仅能单独检测肿瘤组织或者肿瘤患者血浆肿瘤突变负荷的技术问题。
[0020] 也即,通过对目标对象的组织样本和血浆样本的测序数据同时进行检测处理,并对上述两种来源的测序数据按照同样的方法进行体细胞突变分析,并通过现有的已知数据库中报道的与真实突变无关的变异位点进行过滤,得到真实的体细胞突变位点,进而达到了对目标对象的组织和血浆样本的肿瘤突变负荷同时检测,且准确性相对较高的有益效果。

附图说明

[0021] 构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0022] 图1是根据本申请实施例提供的肿瘤突变负荷的检测方法的流程图一;
[0023] 图2是根据本申请实施例提供的肿瘤突变负荷的检测装置的示意图。
[0024] 图3是根据本申请实施例1提供的肿瘤突变负荷的检测方法的详细流程图;
[0025] 图4示出的是本申请实施例1中采用全外显子测序数据和panel捕获测序数据按照本申请提供的检测方法所检测到的肿瘤突变负荷结果的一致性,其中,横坐标TMB‑WES是全外显子测序数据检测到的肿瘤突变负荷,纵坐标TMB‑Panel12是panel捕获测序数据检测到的肿瘤突变负荷。

具体实施方式

[0026] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0027] 为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0028] 需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0029] 根据本申请的实施例,提供了一种肿瘤突变负荷的检测方法。
[0030] 图1是根据本申请实施例的肿瘤突变负荷的检测方法的流程图一。如图1所示,该方法包括以下步骤:
[0031] 步骤S102,获取目标对象的组织和血浆样本的测序数据;
[0032] 步骤S104,将测序数据与参考基因组进行比对,得到变异数据结果;
[0033] 步骤S106,对变异数据结果进行体细胞分析,得到体细胞突变结果;
[0034] 步骤S108,去除体细胞突变结果中的非真实突变位点,得到数量为Mn的真实突变位点;
[0035] 步骤S110,将变异数据结果中符合测序深度阈值的突变位点的数量记为Tn,则按照如下公式计算肿瘤突变负荷:TMB=Mn/Tn*1000000。
[0036] 本申请的实施例所提供的肿瘤突变负荷的检测方法,通过获取目标对象的组织和血浆样本的测序数据;对测序数据与参考基因组进行比对,得到变异数据结果;对变异数据结果进行体细胞分析,得到体细胞突变结果;去除体细胞突变结果中的非真实突变位点,得到数量为Mn的真实突变位点;将变异数据结果中符合测序深度阈值的突变位点的数量记为Tn,则按照如下公式计算肿瘤突变负荷:TMB=Mn/Tn*1000000,解决了现有技术中仅能单独检测肿瘤组织或者肿瘤患者血浆肿瘤突变负荷的技术问题。
[0037] 也即,通过对目标对象的组织样本和血浆样本的测序数据同时进行检测处理,并对上述两种来源的测序数据按照同样的方法进行体细胞突变分析,并通过现有的已知数据库中报道的与真实突变无关的变异位点进行过滤,得到真实的体细胞突变位点,进而达到了对目标对象的组织和血浆样本的肿瘤突变负荷同时检测,且准确性相对较高的有益效果。
[0038] 需要说明的是:上述获取目标对象的组织样本和血浆样本的测序数据包括来源于目标对象的肿瘤组织样本的测序数据和来源于目标对象的血浆样本的测序数据,这两种来源的测序数据可以通过不同批次或者不同文库构建方法构建好文库后上机测序获得。比如,肿瘤组织样本的测序数据通过打断、末端修复、加A、加接头和PCR的方法构建文库后测序得到,血浆样本的测序数据通过末端修复、加A、加接头和PCR的方法构建文库后测序得到。
[0039] 在一种优选的实施例中,获取目标对象的组织和血浆样本的测序数据的步骤包括:获取目标对象的分别来源于组织和血浆样本的原始数据;对分别来源于组织和血浆样本的原始数据进行质控处理,得到测序数据。
[0040] 需要说明的是,上述质控处理为高通量测序下机的原始数据所进行的常规的质量控制步骤,具体地,包括去除测序接头序列,低质量序列及N碱基序列。进一步具体地,去掉3’端illumina测序平台建库引物序列,每5bp碱基平均测序质量值低于25的3’端序列,去掉N含量大于2%的序列,去掉截取低质量及测序引物后序列读长小于75bp的reads。
[0041] 在一种优选的实施例中,对测序数据与参考基因组进行比对,得到变异数据结果的步骤包括:将测序数据与参考基因组进行比对,得到比对结果文件;对比对结果文件进行去冗余以及对InDel区域进行重新比对,得到变异数据结果。
[0042] 上述比对步骤中的比对软件可以采用现有的比对软件,比如,可以是bwa软件,比对后得到的文件格式为bam格式。所比对的参考基因组可以是现有的人参考基因组数据库,比如,可以是hg19。比对之后还需要用samtools对bam文件进行排序。然后可以采用picard和GATK工具进行去冗余及InDel区域重新比对。
[0043] 在一种优选的实施例中,利用对照样本的测序数据,对变异数据结果进行体细胞分析,得到体细胞突变结果。
[0044] 相比现有技术中仅利用外显子测序数据进行肿瘤突变负荷的检测,上述优选实施例同时还利用了对照样本的测序数据,对照样本的测序数据中的突变位点不属于体细胞突变,因而通过过滤去除对照样本中同样出现的突变位点,剩下的位点为体细胞突变位点。这样计算得到的肿瘤突变负荷准确度相对较高。
[0045] 能够包含对对照样本进行分析的软件都适用于本申请。本申请优选采用MuTect和MuTect2软件来进行上述体细胞分析过程。MuTect和MuTect2软件都是GATK下的一个子模块,MuTect2采用突变热点局部重比对和贝叶斯统计的方法,实现对INDEL的变异提取(MuTect不能提取INDEL),然后通过过滤cosmic数据库和dbSNP库以及自己构建的Panel of Normals(PoN),去除正常对照样本中的突变位点,最终得到高可信度的体细胞变异信息。
[0046] 上述去除体细胞突变结果中的非真实突变位点可以采用现有的方法和步骤。在一种优选的实施例中,去除体细胞突变结果中的如下至少之一的非真实突变位点,得到数量为Mn的真实突变位点:频率小于5%且在中国人群数据库中出现频率大于0.2%的位点、已知的肿瘤驱动基因突变位点和基因组重复区域出现的突变位点。
[0047] 上述优选实施例中,体细胞突变结果中,有些位点属于中国人群的遗传多态性位点,这些位点与肿瘤发生无关,因而需要去除。因此,根据已知的数据库中的这些位点,从目标对象的体细胞突变结果中将其删除掉,使得剩余的位点更接近于真实突变位点,进而使得肿瘤突变负荷的计算结果更准确。
[0048] 上述中国人群数据库,是指利用中国肿瘤患者人群建立的基因突变数据库,具体包括但不限于以下数据库:中国非小细胞肺癌患者基因组数据、中国肾细胞癌患者基因组数据、中国结直肠癌患者基因组数据、中国食管癌患者基因组数据、中国膀胱癌患者基因组数据、中国肝癌患者基因组数据及中国胃癌患者基因组数据。具体可以参考现有文献公开的上述相关数据库。
[0049] 上述检测方法中,测序深度阈值可以根据实际测序数据的不同适当调整。在一种优选的实施例中,测序深度阈值为测序深度大于等于100×。通过选择测序深度高达100×的变异数据结果中的突变位点作为计算肿瘤突变负荷的总碱基位点数,这些位点的可信度更高,因而计算得到的肿瘤突变负荷更准确。
[0050] 在一优选的实施例中,本申请的测序数据是针对表10所示的316个基因的测序数据。表10所示的基因数量多,且均是与肿瘤相关的基因,因而,针对这些基因的测序数据所计算得到的肿瘤突变负荷的准确性相对较高。
[0051] 综上所述,本申请实施提供的肿瘤突变负荷的检测方法实现了以下技术效果:
[0052] 1)本申请的方法可同时检测组织和血浆肿瘤突变负荷;
[0053] 2)同时既考虑了肿瘤患者自身的遗传性位点又考虑了中国人群数据库遗传性位点,因而结果更加的准确。
[0054] 需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0055] 本申请实施例还提供了一种肿瘤突变负荷的检测装置,需要说明的是,本申请实施例的肿瘤突变负荷的检测装置可以用于执行本申请实施例所提供的用于肿瘤突变负荷的检测方法。以下对本申请实施例提供的肿瘤突变负荷的检测装置进行介绍。
[0056] 图2是根据本申请实施例的肿瘤突变负荷的检测装置的示意图。如图2所示,该装置包括:获取模块、比对模块、体细胞突变分析模块、过滤模块以及计算模块。
[0057] 其中,获取模块,用于获取目标对象的组织和血浆样本的测序数据;
[0058] 比对模块,用于将测序数据与参考基因组进行比对,得到变异数据结果;
[0059] 体细胞突变分析模块,用于对变异数据结果进行体细胞分析,得到体细胞突变结果;
[0060] 过滤模块,用于去除体细胞突变结果中的非真实突变位点,得到数量为Mn的真实突变位点;
[0061] 计算模块,用于将变异数据结果中符合测序深度阈值的突变位点的数量记为Tn,并按照如下公式计算肿瘤突变负荷:TMB=Mn/Tn*1000000。
[0062] 本申请的实施例所提供的肿瘤突变负荷的检测装置,通过获取模块获取目标对象的组织和血浆样本的测序数据;然后执行比对模块用于对测序数据与参考基因组进行比对,得到变异数据结果;接着执行体细胞突变分析模块用于对变异数据结果进行体细胞分析,得到体细胞突变结果;执行过滤模块来去除体细胞突变结果中的非真实突变位点,得到数量为Mn的真实突变位点;最后执行计算模块用于将变异数据结果中符合测序深度阈值的突变位点的数量记为Tn,则按照如下公式计算肿瘤突变负荷:TMB=Mn/Tn*1000000,解决了现有技术中仅能单独检测肿瘤组织或者肿瘤患者血浆肿瘤突变负荷的技术问题。
[0063] 也即,通过对目标对象的组织样本和血浆样本的测序数据同时进行检测处理,并对上述两种来源的测序数据按照同样的方法进行体细胞突变分析,并通过现有的已知数据库中报道的与真实突变无关的变异位点进行过滤,得到真实的体细胞突变位点,进而达到了对目标对象的组织和血浆样本的肿瘤突变负荷同时检测,且准确性相对较高的有益效果。
[0064] 在一种优选的实施例中,获取模块包括:获取单元和质控单元,获取单元用于获取目标对象的分别来源于组织和血浆样本的原始数据;质控单元用于对分别来源于组织和血浆样本的原始数据进行质控处理,得到测序数据。
[0065] 需要说明的是,上述质控单元为高通量测序下机的原始数据进行常规的质量控制所利用的软件或模块,具体地,质控单元用于去除测序接头序列,低质量序列及N碱基序列等。进一步具体地,质控单元用于去掉3’端illumina测序平台建库引物序列,每5bp碱基平均测序之量值低于25的3’端序列,去掉N含量大于2%的序列,去掉截取低质量及测序引物后序列读长小于75bp的reads。
[0066] 在一种优选的实施例中,比对模块包括:第一比对单元和第二比对单元,第一比对单元用于将测序数据与参考基因组进行比对,得到对比结果文件;第二比对单元用于对对比结果文件进行去冗余以及对InDel区域进行重新比对,得到变异数据结果。
[0067] 上述比对模块中的比对软件可以采用现有的比对软件,比如,可以是bwa软件,比对后得到的文件格式为bam格式。所比对的参考基因组可以是现有的人参考基因组数据库,比如,可以是hg19。比对之后还需要用samtools对bam文件进行排序。然后可以采用picard和GATK等软件工具进行去冗余及InDel区域重新比对。
[0068] 在一种优选的实施例中,体细胞突变分析模块为含有对照分析的模块,优选体细胞突变分析模块为MuTect模块或MuTect2模块。MuTect和MuTect2软件都是GATK下的一个子模块,MuTect2采用突变热点局部重比对和贝叶斯统计的方法,实现对INDEL的变异提取(MuTect不能提取INDEL),然后通过过滤cosmic数据库和dbSNP库以及自己构建的Panel of Normals(PoN),去除正常对照样本中的突变位点,最终得到高可信度的体细胞变异信息。
[0069] 在一种优选的实施例中,过滤模块包括:过滤单元,用于去除体细胞突变文件中的如下至少之一的非真实突变位点,得到真实突变位点:频率小于5%且在中国人群数据库中出现频率大于0.2%的位点、已知的肿瘤驱动基因突变位点和基因组重复区域出现的突变位点。
[0070] 上述优选实施例中,体细胞突变结果中,有些位点属于中国人群的遗传多态性位点,这些位点与肿瘤发生无关,因而需要去除。因此,根据已知的数据库中的这些位点,从目标对象的体细胞突变结果中将其删除掉,使得剩余的位点更接近于真实突变位点,进而使得肿瘤突变负荷的计算结果更准确。
[0071] 上述中国人群数据库,是指利用中国肿瘤患者人群建立的基因突变数据库,具体包括但不限于以下数据库:中国非小细胞肺癌患者基因组数据、中国肾细胞癌患者基因组数据、中国结直肠癌患者基因组数据、中国食管癌患者基因组数据、中国膀胱癌患者基因组数据、中国肝癌患者基因组数据及中国胃癌患者基因组数据。具体可以参考现有文献公开的上述相关数据库。
[0072] 上述检测方法中,测序深度阈值可以根据实际测序数据的不同适当调整。在一种优选的实施例中,测序深度阈值为测序深度大于等于100×。通过选择测序深度高达100×的变异数据结果中的突变位点作为计算肿瘤突变负荷的总碱基位点数,这些位点的可信度更高,因而计算得到的肿瘤突变负荷更准确。
[0073] 在一优选的实施例中,本申请的测序数据是针对表10所示的316个基因的测序数据。表10所示的基因数量多,且均是与肿瘤相关的基因,因而,针对这些基因的测序数据所计算得到的肿瘤突变负荷的准确性相对较高。
[0074] 上述肿瘤突变负荷的检测装置包括处理器和存储器,上述获取模块、比对模块、体细胞突变分析模块、过滤模块以及计算模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0075] 处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来对肿瘤突变负荷进行有效的分析。
[0076] 存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
[0077] 本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述肿瘤突变负荷的检测方法。
[0078] 本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述肿瘤突变负荷的检测方法。
[0079] 本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取目标对象的组织和血浆样本的测序数据;对测序数据与参考基因组进行比对,得到变异数据结果;对变异数据结果进行体细胞分析,得到体细胞突变结果;去除体细胞突变结果中的非真实突变位点,得到数量为Mn的真实突变位点;将变异数据结果中符合测序深度阈值的突变位点的数量记为Tn,则按照如下公式计算肿瘤突变负荷:TMB=Mn/Tn*1000000。
[0080] 可选的,获取目标对象的组织和血浆样本的测序数据的步骤包括:获取目标对象的分别来源于组织和血浆样本的原始数据;对分别来源于组织和血浆样本的原始数据进行质控处理,得到测序数据。
[0081] 可选的,对测序数据与参考基因组进行比对,得到变异数据结果的步骤包括:将测序数据与参考基因组进行比对,得到比对结果文件;对比对结果文件进行去冗余以及对InDel区域进行重新比对,得到变异数据结果。
[0082] 可选的,利用对照样本的测序数据,对变异数据结果进行体细胞分析,得到体细胞突变结果。
[0083] 可选的,去除体细胞突变结果中的如下至少之一的非真实突变位点,得到数量为Mn的真实突变位点:频率小于5%且在中国人群数据库中出现频率大于0.2%的位点、已知的肿瘤驱动基因突变位点和基因组重复区域出现的突变位点。
[0084] 本文中的设备可以是服务器、PC、PAD、手机等。
[0085] 本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取目标对象的组织和血浆样本的测序数据;对测序数据与参考基因组进行比对,得到变异数据结果;对变异数据结果进行体细胞分析,得到体细胞突变结果;去除体细胞突变结果中的非真实突变位点,得到数量为Mn的真实突变位点;将变异数据结果中符合测序深度阈值的突变位点的数量记为Tn,则按照如下公式计算肿瘤突变负荷:TMB=Mn/Tn*1000000。
[0086] 可选的,获取目标对象的组织和血浆样本的测序数据的步骤包括:获取目标对象的分别来源于组织和血浆样本的原始数据;对分别来源于组织和血浆样本的原始数据进行质控处理,得到测序数据。
[0087] 可选的,对测序数据与参考基因组进行比对,得到变异数据结果的步骤包括:将测序数据与参考基因组进行比对,得到比对结果文件;对比对结果文件进行去冗余以及对InDel区域进行重新比对,得到变异数据结果。
[0088] 可选的,利用对照样本的测序数据,对变异数据结果进行体细胞分析,得到体细胞突变结果。
[0089] 可选的,去除体细胞突变结果中的如下至少之一的非真实突变位点,得到数量为Mn的真实突变位点:频率小于5%且在中国人群数据库中出现频率大于0.2%的位点、已知的肿瘤驱动基因突变位点和基因组重复区域出现的突变位点。
[0090] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。
[0091] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0092] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0093] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0094] 在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0095] 存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
[0096] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0097] 还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0098] 本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。
[0099] 下面将结合更具体的实施例来进一步说明本申请的有益效果。
[0100] 实施例1
[0101] 一、测序文库构建
[0102] 1)基于NGS测序方法,组织样本(FFPE)、血浆样本和血细胞样本(BC)进行文库构建,建库步骤如下(其中血细胞样本不需要打断处理):
[0103] 1.1样本打断:
[0104] 1.1.1将聚四氟乙烯线用紫外灭菌后的医用剪刀,剪至1cm左右的长度,并且保证打断棒的长度均一性良好,置于干净容器中,紫外灭菌3‑4小时。灭菌完成后,将1cm的聚四氟乙烯线,用灭菌后的镊子装进96孔板内。每个孔装入2根打断棒,完成后再将96孔板紫外灭菌3‑4小时。
[0105] 1.1.2按照qubit定量结果取300ng FFPE/bc DNA样本,使用TE稀释到50μl,转移到96孔板中,将锡箔纸膜放在96孔板上,四边对齐,使用热封膜仪180℃5s封膜2次,使用微孔板离心机离心。
[0106] 1.1.3选择预先设定的程序Peak Power:450,Duty Factor:30,Cycles/Burst:200,Treatment time:40s,3cycles,点击”Start position”。在Run界面点”Run”按钮,运行程序。在该程序运行完成后,取出样品板,使用微孔板离心机离心,再将样品板放到样品架上,选择程序Peak Power:450,Duty Factor:30,Cycles/Burst:200,Treatment time:40s,
4cycles。在Run界面点”Run”按钮,运行程序。在该程序运行完成后,取出样品板,使用微孔板离心机离心。打断后取1μl进行质检。
[0107] 1.2文库制备步骤:
[0108] 1.2.1末端修复并在3’末端加A尾:
[0109] 1.2.1.1按照下表1配制ER﹠AT Mix。
[0110] 表1:
[0111]试剂 体积
End Repair&A‑Tailing Buffer 7μL
End Repair&A‑Tailing Enzyme Mix 3μL
总体积 10μL
[0112] 1.2.1.2取10μL ER﹠AT Mix加入DNA样本中(冰上操作),震荡混匀,短暂离心。注意ER﹠AT Mix与DNA涡旋混匀立即进行PCR反应。
[0113] 1.2.1.3反应体系置于PCR仪上,按下表进行PCR反应。注意:PCR仪热盖温度设为85℃。若该操作结束后立即进行下表2所示步骤实验,应将终止温度设为20℃。
[0114] 表2:
[0115]
[0116] 1.2.2连接接头:
[0117] 1.2.2.1Adapter准备:IDT UDI adapte2.5μL,加2.5ul水稀释到5μL。
[0118] 1.2.2.2配制Ligation Mix(冰上操作):
[0119] 1.2.2.2.1根据文库个数,按照下表3配制Ligation Mix,震荡混匀。
[0120] 表3:
[0121]试剂 体积
超纯水 5μL
Ligation Buffer 30μL
DNA Ligase 10μL
总体积 45μL
[0122] 1.2.2.2.2上一步PCR结束后,取出样本。短暂离心,转入稀释好的Adapter溶液中。然后加入45μL Ligation Mix,震荡混匀,短暂离心。
[0123] 1.2.2.2.3置于PCR仪上,20℃孵育30min,20℃保存,热盖温度为50℃。
[0124] 1.2.3连接后纯化:
[0125] 1.2.3.1上一步PCR结束后取出样本,短暂离心,加入88μL磁珠。
[0126] 1.2.3.2震荡混匀,室温孵育15min,使DNA与磁珠充分结合。注意:震荡时按紧管盖。短暂离心,离心管置于磁力架上待液体澄清,弃去上清。注意:不要吸到磁珠。
[0127] 1.2.3.3加入200μL 80%乙醇孵育30sec后弃去。重复一次200μL 80%乙醇清洗步骤。注意:80%乙醇现用现配。
[0128] 1.2.3.4用10μL枪头吸尽离心管底部的残留乙醇,室温干燥3‑5min至乙醇完全挥发(正面看不在反光,背面看已经干燥)。注意:磁珠过分干燥DNA产量会减少。
[0129] 1.2.3.5从磁力架取下离心管,加入22μL超纯水,震荡混匀。注意:震荡时按紧管盖。室温孵育5min。
[0130] 1.2.3.6短暂离心,离心管置于磁力架上待液体澄清。取1μL DNA文库用于浓度检测,剩余的20μL清液转移至新的PCR管进行下一步扩增试验。
[0131] 1.2.4文库扩增:
[0132] 1.2.4.1按照下表4配制PCR Mix(冰上操作),震荡混匀。
[0133] 1.2.4.2短暂离心,将PCR Mix分装至0.2mL PCR管中,置于4℃冰箱保存。
[0134] 表4:
[0135]试剂 体积
HiFi HotStart ReadyMix(2×) 25μL
Library Amplification Primer Mix(10×) 5μL
总体积 30μL
[0136] 1.2.4.3将上一步的文库转入已分装的PCR Mix,震荡混匀。
[0137] 1.2.4.4短暂离心,置于PCR仪上,按下表5进行PCR反应。
[0138] 表5:
[0139]
[0140] 1.2.5DNA的获得(1x Beads回收)
[0141] 1.2.5.1PCR结束后,取出样本。短暂离心,加入50μL Beckman Agencourt AMPure XP磁珠。
[0142] 1.2.5.2震荡混匀,室温孵育15min,使DNA与磁珠充分结合。注意震荡时按紧管盖。
[0143] 1.2.5.3短暂离心,离心管置于磁力架上待液体澄清,弃去上清。注意:不要吸到磁珠。
[0144] 1.2.5.4加入200μL 80%乙醇孵育30sec后弃去。注意:80%乙醇现用现配。重复一次200μL 80%乙醇清洗步骤。
[0145] 1.2.5.5用10μL枪头吸尽离心管底部的残留乙醇,室温干燥3‑5min至乙醇完全挥发(正面看不在反光,背面看已经干燥)。注意:磁珠过分干燥DNA产量会减少。
[0146] 1.2.5.6从磁力架取下离心管,加入40μL超纯水,振荡混匀。
[0147] 1.2.5.7室温孵育5min洗脱DNA。
[0148] 1.2.5.8短暂离心,离心管置于磁力架上待液体澄清,将文库转移至新的离心管中。保存于‑20℃。
[0149] 1.2.6文库质检:
[0150] 取1μL DNA文库用于浓度检测。
[0151] 2)基于NGS测序方法,FFPE、血浆和bc样本的捕获如下(本实施例选取了316个基因进行全外捕获,覆盖外显子区域1216873bp,具体基因列表见表10):
[0152] 2.1混合文库:
[0153] 2.1.1取总量1μg的等量文库于1.5mL离心管中,根据每个文库的浓度和capture文库个数计算每个文库加入的体积。文库加入的体积是:(1000ng/capture文库个数/文库浓度)μL。
[0154] 2.1.2加入Universal Blocking Oligos
[0155] 向上述体系中加入2.5μL Universal Blocking Oligos。
[0156] 2.1.3加入5μL COT Human DNA,震荡混匀,短暂离心。
[0157] 2.2用封口膜封住EP管,放入真空离心浓缩仪中蒸干(60℃,约20min‑1hr)。注意随时查看是否已蒸干。
[0158] 2.3DNA变性:
[0159] 2.3.1样本完全蒸干后,每个capture中加入7.5μL 2×Hybridization Buffer(vial5)和3μL Hybridization Component A(vial 6),震荡混匀,短暂离心。
[0160] 2.3.2置于95℃加热模块变性10min。
[0161] 2.4文库与探针杂交:
[0162] 2.4.1取出探针短暂离心后置于47℃PCR仪中,迅速将变性的DNA从95℃转移至含有探针的PCR管中,震荡混匀,短暂离心。
[0163] 2.4.2置于PCR仪中,47℃杂交,杂交时间应不少于16hr。
[0164] 2.5配制Wash Buffer工作液:
[0165] 2.5.1一个capture所需缓冲液的配制方法如下表6,根据capture的个数按下表6配制缓冲液。
[0166] 表6:
[0167]
[0168] 2.5.2分装需要孵育的试剂:
[0169] 分装400μL 1×Stringent Wash Buffer(vial4)至八连排中;
[0170] 分装100μL1×Wash Buffer I(vial 1)至八连排中;
[0171] 分装20μL Capture Beads至八连排中。
[0172] 2.5.3孵育Capture Beads和Wash Buffer(vial 4和vial 1)工作液:
[0173] Capture Beads使用前须室温平衡30min。
[0174] Wash Buffer(vial 4和vial 1)工作液使用前须47℃孵育2hr。
[0175] 2.6杂交后纯化:
[0176] 2.6.1每个capture分装100μL捕获磁珠,将100μL捕获磁珠置于磁力架上至液体澄清,弃去上清。
[0177] 2.6.2加入200μL 1×Bead Wash Buffer(vial 7),震荡混匀。置于磁力架上至液体澄清,弃去上清。
[0178] 2.6.3加入200μL 1×Bead Wash Buffer(vial 7),震荡混匀。置于磁力架上至液体澄清,弃去上清。
[0179] 2.6.4加入100μL 1×Bead Wash Buffer(vial 7),震荡混匀。置于磁力架上至液体澄清,弃去上清。此时磁珠预处理完成,立即进行下一步试验。
[0180] 2.6.5将捕获过夜的杂交液体转入清洗好的磁珠中,移液器吹打十次。置于PCR仪中47℃孵育45min(PCR热盖温度设为57℃),每隔15min震荡一次保证磁珠悬浮。
[0181] 2.7清洗:
[0182] 2.7.1孵育完成后,每管加入100μL 47℃预热的1×Wash Buffer I(vial 1),震荡混匀。置于磁力架上至液体澄清,弃去上清。
[0183] 2.7.2加入200μL 47℃预热的1×Stringent Wash Buffer(vial 4),移液器吹打十次混匀。47℃孵育5min,置于磁力架上至液体澄清,弃去上清。注意操作过程尽量避免温度低于47℃。
[0184] 2.7.3加入200μL 47℃预热的1×Stringent Wash Buffer(vial 4),移液器吹打十次混匀。47℃孵育5min,置于磁力架上至液体澄清,弃去上清。注意操作过程尽量避免温度低于47℃。
[0185] 2.7.4加入200μL室温放置的1×Wash Buffer I(vial 1),振荡2min,短暂离心,置于磁力架上至液体澄清,弃去上清。
[0186] 2.7.5加入200μL室温放置的1×Wash Buffer II(vial 2),震荡1min,短暂离心,放置磁力架上至液体澄清,弃去上清。
[0187] 2.7.6加入200μL室温放置的1×Wash Buffer III(vial 3),震荡30sec,短暂离心,放置磁力架上至液体澄清,弃去上清。
[0188] 2.7.7向离心管中加入20μL超纯水洗脱,震荡混匀,进行下一步扩增试验。
[0189] 2.8Post‑LM‑PCR:
[0190] 2.8.1按照下表7配制Post‑LM‑PCR Mix,震荡混匀。
[0191] 表7:
[0192]试剂 体积
HiFi HotStart ReadyMix 25μL
Post‑LM‑PCR Oligos 1&2,5μM 5μL
上一步洗脱的DNA 20μL
Total 50μL
[0193] 2.8.2上述样本转入PCR反应中,震荡混匀,短暂离心。
[0194] 2.8.3置于PCR仪上,按下表8进行PCR反应:
[0195] 表8:
[0196]
[0197]
[0198] 2.9扩增后纯化:
[0199] 2.9.1取出纯化磁珠(DNA Purification Beads),室温平衡30min备用。
[0200] 2.9.2取90μL纯化磁珠于1.5mL离心管中,加入50μL扩增后的捕获DNA文库,振荡混匀,室温孵育15min。
[0201] 2.9.3置于磁力架上至液体澄清,弃去上清。
[0202] 2.9.4加入200μL 80%乙醇孵育30sec后弃去。注意:80%乙醇现用现配。重复一次200μL 80%乙醇清洗步骤。
[0203] 2.9.5用10μL枪头弃去离心管底部的残留乙醇,室温干燥至乙醇完全挥发(前面看磁珠不反光,背面看干燥)。注意:磁珠过分干燥DNA产量会减少。
[0204] 2.9.6从磁力架取下离心管,加入50μL超纯水,振荡混匀。室温孵育2min。
[0205] 2.9.7短暂离心,置于磁力架上至液体澄清,将capture样本转入新的离心管中。
[0206] 3.0.0质检:
[0207] 取1μL capture样本用于Qubit浓度检测。文库库检合格后上机,上机平台选择illumina平台的nexseq 500测序仪,测序策略为PE 75,每个样本数据量为10G。
[0208] 3)数据分析
[0209] 具体分析流程图见附图3.
[0210] 3.1数据质控,数据测序质量及测序总量是否满足。
[0211] 3.2将3.1得到的clean data用bwa比对到人参考基因组hg19,用samtools对bam文件进行排序
[0212] 3.3将3.2得到的bam文件用picard和GATK工具进行去冗余及InDel区域重比对[0213] 3.4将3.3得到的重比对后的bam文件使用mutect分析体细胞突变,得到vcf文件。
[0214] 3.5将3.4得到的vcf文件用annovar工具做注释,得到数据库注释结果
[0215] 3.6将3.5得到注释文件,过频率小于5%,在人群数据库中出现频率大于0.2%位点,过滤掉明确已知的肿瘤驱动基因突变,过滤掉基因组重复区域出现的突变位点,得到最终用来纳入计算的体细胞突变位点计数为(Mn)
[0216] 3.7将3.3得到的bam文件用samtools工具得到每个位点的覆盖深度。
[0217] 3.8统计3.7统计的文件深度大于100x的位点总数计数为(Tn)
[0218] 3.9对肿瘤突变负荷进行均一化tmb=Mn/Tn*1000000
[0219] 按照上述方法对37例患者的组织样本,分别做了全外显子测序和panel捕获测序,分析患者的肿瘤突变负荷,并分析这37例患者全外显子和panel捕获得到的肿瘤突变负荷一致性结果,结果见附图4。瘤突变负荷结果详细见下表9。
[0220] 表9:
[0221]
[0222]
[0223] 从以上结果可以看出,本申请的肿瘤突变负荷的检测方法不仅能够同时检测组织和血浆样本,而且检测结果准确性较高。
[0224] 表10
[0225]
[0226]
[0227] 以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。