一种基于扩增子二代测序小片段插入缺失检测的方法及装置转让专利

申请号 : CN201610769361.1

文献号 : CN106355045B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 朱嘉麒王棪张振宇马丽娟

申请人 : 天津诺禾致源生物信息科技有限公司

摘要 :

本发明公开了一种基于扩增子二代测序小片段插入缺失检测的方法及装置。该方法包括以下步骤:S1,分别提取待测样本和阴性对照样本的DNA,多重扩增子扩增与目标性状相关突变的目标区域;S2,通过二代测序得到目标区域的序列;S3,将目标区域的序列与参考基因组相比对,与参考基因组未比对上的碱基形成错配;S4,将由阴性对照样本得到的目标性状相关热点短片段插入缺失的背景噪音,以二项分布作为模型,在每个碱基上区分待测样本中热点短片段插入缺失与背景噪音,如果待测样本的错配碱基所占参考基因型比例与背景噪音有显著区别,那么将错配碱基作为小片段插入缺失阳性检出。应用本发明,提高了小片段插入缺失检测的准确性。

权利要求 :

1.一种基于扩增子二代测序小片段插入缺失检测的方法,其特征在于,包括以下步骤:S1,分别提取待测样本和阴性对照样本的DNA,多重扩增子扩增与目标性状相关突变的目标区域,其中,阴性对照样本为目标性状相关基因未突变的样本;

S2,通过二代测序得到所述目标区域的序列;

S3,将所述目标区域的序列与参考基因组相比对,与所述参考基因组未比对上的碱基形成错配;

S4,将由所述阴性对照样本得到的目标性状相关热点短片段插入缺失的背景噪音,以二项分布作为模型,在每个碱基上区分所述待测样本中热点短片段插入缺失与所述背景噪音,如果所述待测样本的错配碱基所占参考基因型比例与所述背景噪音有显著区别,那么将所述错配碱基作为小片段插入缺失阳性检出。

2.根据权利要求1所述的方法,其特征在于,所述S4中,如果所述待测样本的错配碱基所占参考基因型比例与所述背景噪音相比p-value<1e-6,那么将所述错配碱基作为小片段插入缺失阳性检出。

3.根据权利要求1所述的方法,其特征在于,所述S3中数据信息处理包括:S31,使用TMAP比对软件将所述目标区域的序列与所述参考基因组相比对,与所述参考基因组未比对上的碱基形成错配;

S32,使用samtools软件建立比对文件的索引。

4.一种基于扩增子二代测序小片段插入缺失检测的装置,其特征在于,包括:样本处理装置,用于分别提取待测样本和阴性对照样本的DNA,并多重扩增子扩增与目标性状相关突变的目标区域,其中,阴性对照样本为目标性状相关基因未突变的样本;

测序装置,用于通过二代测序得到所述目标区域的序列;

错配碱基获取装置,用于将所述目标区域的序列与参考基因组相比对,与所述参考基因组未比对上的碱基形成错配;

小片段插入缺失检出装置,用于将由所述阴性对照样本得到的目标性状相关热点短片段插入缺失的背景噪音,以二项分布作为模型,在每个碱基上区分所述待测样本中热点短片段插入缺失与所述背景噪音,如果所述待测样本的错配碱基所占参考基因型比例与所述背景噪音有显著区别,那么将所述错配碱基作为小片段插入缺失阳性检出。

5.根据权利要求4所述的装置,其特征在于,所述小片段插入缺失检出装置中,如果所述待测样本的错配碱基所占参考基因型比例与所述背景噪音相比p-value<1e-6,那么将所述错配碱基作为小片段插入缺失阳性检出。

6.根据权利要求4所述的装置,其特征在于,所述错配碱基获取装置中包括:TMAP比对软件,用于将所述目标区域的序列与所述参考基因组相比对,与所述参考基因组未比对上的碱基形成错配;

samtools软件,用于建立比对文件的索引。

说明书 :

一种基于扩增子二代测序小片段插入缺失检测的方法及装置

技术领域

[0001] 本发明涉及生物学领域,具体而言,涉及一种基于扩增子二代测序小片段插入缺失检测的方法及装置。

背景技术

[0002] 多重扩增子二代测序是将感兴趣的基因组区域定制成特异性扩增引物与基因组DNA进行特异性扩增,将目标基因组区域的DNA片段进行富集后再利用第二代测序技术进行测序的研究策略。多重扩增子二代测序是目前基因组学研究中的一个热点技术,主要原因是该技术消耗少量的成本和时间。在相同成本下,研究者可以研究到更多的样本数量和测到更深的深度。作为一个强大、有效的技术,它在新一代高通量测序中发挥独特之处,应用领域越来越广泛。
[0003] 赛默飞公司推出的Ion AmpliSeqTM是扩增子二代测序典型产品。通过扩增富集目标区域序列,然后使用proton进行二代测序得到序列具体情况,然后使用统计学检验对样本中低频率的热点短片段插入缺失与测序错误进行区分。但是这种方法检出效果的准确性还待进一步地提高。

发明内容

[0004] 本发明旨在提供一种基于扩增子二代测序小片段插入缺失检测的方法及装置,以提高基于扩增子二代测序小片段插入缺失检测的准确性。
[0005] 为了实现上述目的,根据本发明的一个方面,提供了一种基于扩增子二代测序小片段插入缺失检测的方法。该方法包括以下步骤:S1,分别提取待测样本和阴性对照样本的DNA,多重扩增子扩增与目标性状相关突变的目标区域,其中,阴性对照样本为目标性状相关基因未突变的样本;S2,通过二代测序得到目标区域的序列;S3,将目标区域的序列与参考基因组相比对,与参考基因组未比对上的碱基形成错配;S4,将由阴性对照样本得到的目标性状相关热点短片段插入缺失的背景噪音,以二项分布作为模型,在每个碱基上区分待测样本中热点短片段插入缺失与背景噪音,如果待测样本的错配碱基所占参考基因型比例与背景噪音有显著区别,那么将错配碱基作为小片段插入缺失阳性检出。
[0006] 进一步的,S4中,如果待测样本的错配碱基所占参考基因型比例与背景噪音相比p-value<1e-6,那么将错配碱基作为小片段插入缺失阳性检出。
[0007] 进一步的,S3中数据信息处理包括:S31,使用TMAP比对软件将目标区域的序列与参考基因组相比对,与参考基因组未比对上的碱基形成错配;S32,使用samtools软件建立比对文件的索引。
[0008] 根据本发明的另一方面,提供了一种基于扩增子二代测序小片段插入缺失检测的装置。该装置包括:样本处理装置,用于分别提取待测样本和阴性对照样本的DNA,并多重扩增子扩增与目标性状相关突变的目标区域,其中,阴性对照样本为目标性状相关基因未突变的样本;测序装置,用于通过二代测序得到目标区域的序列;错配碱基获取装置,用于将目标区域的序列与参考基因组相比对,与参考基因组未比对上的碱基形成错配;小片段插入缺失检出装置,用于将由阴性对照样本得到的目标性状相关热点短片段插入缺失的背景噪音,以二项分布作为模型,在每个碱基上区分待测样本中热点短片段插入缺失与背景噪音,如果待测样本的错配碱基所占参考基因型比例与背景噪音有显著区别,那么将错配碱基作为小片段插入缺失阳性检出。
[0009] 进一步的,小片段插入缺失检出装置中,如果待测样本的错配碱基所占参考基因型比例与背景噪音相比p-value<1e-6,那么将错配碱基作为小片段插入缺失阳性检出。
[0010] 进一步的,错配碱基获取装置中包括:TMAP比对软件,用于将目标区域的序列与参考基因组相比对,与参考基因组未比对上的碱基形成错配;samtools软件,用于建立比对文件的索引。
[0011] 应用本发明的技术方案,将由阴性对照样本得到的目标性状相关热点短片段插入缺失的背景噪音,以二项分布作为模型,在每个碱基上区分待测样本中热点短片段插入缺失与背景噪音,如果待测样本的错配碱基所占参考基因型比例与背景噪音有显著区别,那么将错配碱基作为小片段插入缺失阳性检出。在某些短片段插入缺失有特定位置和突变型,其中,较长的短片段插入缺失由于其在检测时由于测序或扩增原因造成假阳性检出的概率较低(<0.01%),所以对于不同位置不同长度的短片段插入缺失需要有不同检出阈值,阈值通过阴性对照样本在每个靶向位点的检出情况建立模型得到,对每一个突变以阴性样本中的发生率拟合二项分布作为模型,p-value为1e-6作为阈值,检测其余样本中的突变,这样可以最大限度地检测待测样本中的低频率(0.1%)热点短片段插入缺失,而不产生假阳性检出。

附图说明

[0012] 构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0013] 图1示出了根据本发明一具体实施方式的基于扩增子二代测序小片段插入缺失检测的方法流程示意图。

具体实施方式

[0014] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0015] 在二代测序中,一次测序可以对几十个以上的目标性状相关热点短片段插入缺失进行检测。发明人发现,现有技术对所有位点采取同样阈值,而明显由于基因组上序列的差异,在扩增和测序的过程中不同长短的短片段插入缺失的背景噪音会有一定区别,采取同样阈值不能最大限区分序列原因造成的背景噪音与真实突变。
[0016] 本发明使用阴性对照样本测序结果得到所有热点短片段插入缺失上的背景噪音分布,以区分在扩增和测序过程中产生的噪音和样本中真实突变,使待测样本中低频率突变的灵敏度和特异度得到提升。
[0017] 根据本发明一种典型的实施方式,提供一种基于扩增子二代测序小片段插入缺失检测的方法。该方法包括以下步骤:S1,分别提取待测样本和阴性对照样本的DNA,多重扩增子扩增与目标性状相关突变的目标区域,其中,阴性对照样本为目标性状相关基因未突变的样本;S2,通过二代测序得到目标区域的序列;S3,将目标区域的序列与参考基因组相比对,与参考基因组未比对上的碱基形成错配;S4,将由阴性对照样本得到的目标性状相关热点短片段插入缺失的背景噪音,以二项分布作为模型,在每个碱基上区分待测样本中热点短片段插入缺失与背景噪音,如果待测样本的错配碱基所占参考基因型比例与背景噪音有显著区别,那么将错配碱基作为小片段插入缺失阳性检出。
[0018] 优选的,S4中,如果待测样本的错配碱基所占参考基因型比例与背景噪音相比p-value<1e-6,那么将错配碱基作为小片段插入缺失阳性检出。
[0019] 根据本发明一种典型的实施方式,S2中数据信息处理包括:S31,使用TMAP比对软件将目标区域的序列与参考基因组相比对,与参考基因组未比对上的碱基形成错配;S32,使用samtools软件建立比对文件的索引。
[0020] 根据本发明一种典型的实施方式,提供一种基于扩增子二代测序小片段插入缺失检测的装置。该装置包括:样本处理装置,用于分别提取待测样本和阴性对照样本的DNA,并多重扩增子扩增与目标性状相关突变的目标区域,其中,阴性对照样本为目标性状相关基因未突变的样本;测序装置,用于通过二代测序得到目标区域的序列;错配碱基获取装置,用于将目标区域的序列与参考基因组相比对,与参考基因组未比对上的碱基形成错配;小片段插入缺失检出装置,用于将由阴性对照样本得到的目标性状相关热点短片段插入缺失的背景噪音,以二项分布作为模型,在每个碱基上区分待测样本中热点短片段插入缺失与背景噪音,如果待测样本的错配碱基所占参考基因型比例与背景噪音有显著区别,那么将错配碱基作为小片段插入缺失阳性检出。
[0021] 优选的,小片段插入缺失检出装置中,如果待测样本的错配碱基所占参考基因型比例与背景噪音相比p-value<1e-6,那么将错配碱基作为小片段插入缺失阳性检出。
[0022] 根据本发明一种典型的实施方式,错配碱基获取装置中包括:TMAP比对软件,用于将目标区域的序列与参考基因组相比对,与参考基因组未比对上的碱基形成错配;samtools软件,用于建立比对文件的索引。
[0023] 根据本发明一种典型的实施方式,基于扩增子二代测序小片段插入缺失检测的方法如图1所示,主要包括小片段插入缺失检测程序外完成和小片段插入缺失检测程序内完成两大部分,其中,前一部分包括样本采集、样本处理测序及下机数据;后者包括阴性对照样本数据处理得到背景噪音,待测样本数据与背景噪音进行二相分布检测得到检测结果。
[0024] 根据本发明一种典型的实施方式,基于扩增子二代测序拷贝数变异检测的方法包括以下步骤:1)样本处理:目标区域扩增、引物消化、末端修复、加接头、磁珠纯化、模板富集、测序;2)数据处理:使用TMAP比对软件将二代测序序列比对到参考基因组上,与参考基因组未比对上的碱基形成错配,以及使用samtools软件建立比对文件的索引;3)输入与目标性状相关的热点短片段插入缺失文件和使用阴性对照样本相同实验方法得到的每个碱基上背景噪音文件,与未比对上参考基因组碱基的错配进行统计学检验,如果背景噪音与错配碱基所占参考基因型比例有显著区别(p-value<1e-6),那么输出阳性检出,否则输出阴性结果。
[0025] 下面将结合实施例进一步说明本发明的有益效果。本实施例中没有详细描述的步骤可采用本领域的常规技术手段实现。
[0026] 实施例1
[0027] 本实施例中,待测样本是NCI-H1650细胞系(美国模式培养物集存库购买),为一例细胞系样本,经过3d-pcr测试带有0.21%频率的EGFR:p.E746_A750delELREA阳性突变。
[0028] 本实施例的具体步骤如下(所有试剂都是从赛默飞公司购买):
[0029] 1)提取待测样本DNA,利用荧光定量计(Qubit)进行定量,进行浓缩或加无核酸酶的水稀释,使其浓度为5ng/ul,体积为6ul。
[0030] 2)利用多重PCR技术对目标区域进行扩增,PCR反应体系如表1所示。
[0031] 表1
[0032]试剂 体积
高保真多重扩增反应混和液 4μl
引物混合液 10μl
血浆游离DNA 6μl
[0033] 其中,引物具体序列见表2。
[0034] 表2
[0035]
[0036]
[0037] 多重PCR反应条件如表3所示。
[0038] 表3
[0039]
[0040] 3)利用尿嘧啶-DNA糖基化酶对带有尿嘧啶的引物进行消化,利用末端修复酶将DNA片段的末端补平。
[0041] 消化及补平反应体系如表4所示。
[0042] 表4
[0043]
[0044]
[0045] 引物消化和末端修复条件如表5所示:
[0046] 表5
[0047]
[0048] 4)将引物消化后的目标区域DNA用连接酶和测序接头进行连接,反应体系如表6:
[0049] 表6
[0050]试剂 体积
1号接头溶液 0.5μl
2号接头溶液 0.5μl
连接酶 2μl
连接反应混合液 4μl
无核酸酶的水 1μl
上步反应得到的DNA 22ul
[0051] 其中,1号,2号接头序列见表7。
[0052] 表7
[0053]
[0054] *代表T碱基硫代修饰(phosphorothioate bond)。
[0055] 连接条件如表8:
[0056] 表8
[0057]
[0058] 5)将上一步得到的连接产物进行磁珠纯化,然后利用qPCR定量得到文库的摩尔浓度。
[0059] 6)根据每个文库的浓度和目标数据量计算上机需要的体积,按计算结果吸取文库混合,然后采用乳液PCR的方法使模板在测序微珠上进行单克隆扩增,将微珠纯化后加入测序芯片。
[0060] 7)测序,在proton基因测序仪上完成测序,测序平台将得到的电信号转化为碱基序列下机数据为bam文件存储所有测序结果。
[0061] 8)使用TMAP将测序结果比对上参考基因组,平均测序深度为67043X,质控信息如表9所示。
[0062] 表9
[0063]
[0064] 其中,目标区域序列为比对上目标区域的序列除以总序列,为有效数据率。
[0065] 9)遍历每一个热点位点,得到支持突变的序列数和支持参考序列的序列数。与阴性样本对照集进行对比,如果有显著性差异(二项检验p<1e-6)将其提取出来。通常,本领域技术人员可以根据实际需要找到所关注的突变。本实施例中所关注的突变检出结果如表10所示。
[0066] 表10
[0067]
[0068] 对比:本实施例的样本使用赛默飞公司的Torrent-Variant-Caller软件使用默认参数进行检测没有检出结果,这是因为赛默飞公司的软件对所有位点采用同一阈值,就需要使用最保守阈值以对噪音最大的位点进行过滤。
[0069] 目前,多重扩增子测序数据使用TVC软件进行变异检测,可以检测数十个热点短片段插入缺失,对所有位点有相同阈值,并没有考虑到热点附近序列和插入缺失长度对测序造成的影响,这样组织样本中高频率(>1%)的热点短片段插入缺失并没有问题,但是对于血液中的接近背景噪音低频率(~0.1%)的热点短片段插入缺失会造成对于易错碱基的假阳性或不易测错的碱基的假阴性。另外短片段插入缺失的背景噪音错误率与长度也有一定关系,理论上越长的插入缺失可以与之混淆的背景噪音就越低(0.01%>)。通过这个方法也可以利用这部分信息进而检测低频突变。使用本发明的技术方案,利用阴性对照样本在所有热点短片段插入缺失的背景噪音信息,判断待测样本中的每个热点短片段插入缺失是否能与背景噪音区分,最大化检测血浆中低频突变的能力,同时不会产生假阳性结果。
[0070] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
[0071]
[0072]
[0073]
[0074]
[0075]
[0076]
[0077]
[0078]
[0079]
[0080]
[0081]
[0082]
[0083]
[0084]