基于单样本外周血检测胎儿染色体非整倍性的装置转让专利

申请号 : CN201510316254.9

文献号 : CN104951671B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 尹鸿瑛彭春方何铮陈丹陈样宜黄铨飞

申请人 : 东莞博奥木华基因科技有限公司

摘要 :

本发明公开了一种基于单样本外周血检测胎儿染色体非整倍性的装置,包括测序数据处理单元和结果分析单元,通过比较100~149 bp的短序列和150~199 bp的长序列在同一染色体上的量,判断为该待测染色体是否为非整倍染色体。本发明的装置通过样本自身对照,准确性高;对胎儿游离DNA浓度的依赖性较小,很大程度上解决了低胎儿游离DNA浓度下染色体非整倍体的假阴性问题;而且对测序的数据量要求比原有的方法低,从而可以进一步降低成本。

权利要求 :

1.一种基于单样本外周血检测胎儿染色体非整倍性的装置,包括:测序数据处理单元:用于将测序得到的核苷酸序列与人类基因组标准序列进行对比,确定核苷酸序列对应的染色体;

结果分析单元:将属于同一染色体上的核苷酸序列划分为短序列和长序列,其中,短序列的长度为100bp~149 bp,长序列的长度为150bp~199 bp;当待测染色体为常染色体时,属于同一染色体的短序列的量比长序列的量多时,判断该待测染色体为非整倍染色体;

结果分析单元进行分析时,采用滑窗法计算待测染色体上每个长度区间的DNA片段比例,通过对比短序列和长序列区间的DNA片段比例判断待测染色体是否为非整倍染色体。

2.根据权利要求1所述的装置,其特征在于:测序数据处理单元在进行数据处理时,剔除处于串联重复位置及转座子重复位置的核苷酸序列,以及低质量的、多匹配和非完全匹配到染色体上的核苷酸序列。

3.根据权利要求1或2所述的装置,其特征在于:测序数据处理单元在进行数据处理时,剔除100bp~199 bp以外的核苷酸序列。

4.根据权利要求1所述的装置,其特征在于:结果分析单元进行分析时,采用滑窗法计算待测染色体上每个长度区间的DNA片段比例,具体为:以5为长度梯度,2为overlap,短片段区间为:[100,105),[103,108),[106,111),……,[139,144),[142,147),[145,150);长片段区间为:[150,155),[153,158),[156,

161),……,[189,194),[192,197),[195,200);

根据公式ratio ij=reads_n ij⁄ reads_n j统计待测染色体上每个长度区间的DNA片段比例;式中,i:染色体编号;

j:长度区间编号;

ratio ij:第j个长度区间下的第i号染色体的DNA片段比例;

reads_n ij:第j个长度区间下的第i号染色体的DNA片段数;

reads_n j:样本在第j个长度区间下的所有常染色体的DNA片段数总和。

5.根据权利要求1所述的装置,其特征在于:所述装置还包括用于对外周血DNA进行测序,确定每条核苷酸的序列和长度的测序单元。

说明书 :

基于单样本外周血检测胎儿染色体非整倍性的装置

技术领域

[0001] 本发明涉及一种诊断装置,特别涉及一种胎儿染色体非整倍性的检测装置。

背景技术

[0002] 染色体非整倍体是指相对于人的正常的46条染色体而言,细胞中的某一条或几条染色体数目增加或减少,与婴幼儿期显著的发病率和死亡率有着密切的关系。我国新生儿中染色体异常的发病率为1/60,其中21-三体综合征(唐氏综合征)、18-三体综合征(爱德华氏综合征)和13-三体综合征(帕陶氏综合征)是三种最主要常染色体非整倍体疾病,在新生儿中发病率分别为1/(600-800)、1/(3500-8000)和1/(7000-20000)。对胎儿染色体非整倍体病变的产前诊断是降低出生缺陷、提高出生人口素质的重要手段。传统的羊膜腔穿刺、绒毛活检、脐静脉穿刺等方法准确性高,但均为侵入性的,会给孕妇和胎儿带来一定的风险[1]。临床血清学筛查和超声检查虽为无创的,但假阳性率和假阴性率较高[2]。
[0003] 孕妇外周血中胎儿游离DNA(ffDNA)的发现[3]和高通量测序技术的发展为非侵入性的无创检测技术的研发奠定了坚实的基础。目前采用高通量测序技术来检测胎儿染色体非整倍体的主要方法是分析孕妇外周血中游离DNA的21号、18号及13号染色体数量的差异。首先正常样本构建参考数据库,然后计算待测样本的Zscore,根据Zscore来判断样本是否为非整倍体[4]。该方法的难题主要是:1),母体血浆中胎儿游离DNA的含量低于4%时容易出现假阴性[5];2),对每一个样本的检测都依赖于由正常阴性对照样本建立的对照值,故样本间的相互依赖性比较强,而实验操作,实验试剂,测序GC偏好等因素都会影响检测结果,一旦数据出现较大偏离,就容易产生假阳性和假阴性。
[0004] 研究发现,循环DNA分子大部分都是小于200bp的短片段,而且通常胎儿游离DNA比母源DNA短[6];随着孕妇血浆中胎儿游离DNA浓度的增加,小于150bp的DNA比例增加,而大于166bp的DNA比例减少[7]。2014年,卢煜明教授[8]等发表在《美国科学院院刊》上的研究论文,详细描述了一种利用大规模高通量测序,根据游离DNA片段长度分布进行胎儿染色体非整倍体的无创产前诊断的方法。所述方法为:提取孕妇外周血中的DNA,并对其进行第二代高通量测序,通过将测序序列与染色体组序列进行比对,得到每条染色体上的序列长度分布;然后计算每条染色体上小于150bp的序列占样本该长度下DNA序列总数的比例;接着确定待测染色体上小于150bp的DNA片段比例与其他所有常染色体(去除13、18、21号染色体)中小于150bp的DNA片段比例之差,并将该差值与由正常血样所构建的 阈值做比较,即待测染色体上短片段序列的变异是否在正常范围内,确定胎儿是否具有非整倍体异常。
[0005] 然而,上述检测方法也存在着自身的局限性。该方法在判断染色体非整倍体时,用正常阴性样本建立的阈值作为参考,样本间的相互依赖性明显,实验条件、试剂批次和GC值偏好等都会影响检出率;其次在胎儿DNA浓度较低的情况下,相对正常样本构建的参考数据库,三体样本短片段的变化值小而出现假阴性。
[0006] 参考文献
[0007] 1.Nanal,R.,P.Kyle,and P.W.Soothill,A classification of pregnancy losses after invasive prenatal diagnostic procedures:an approach to allow comparison of units with a different case mix.Prenat Diagn,2003.23(6):p.488-92.
[0008] 2.Wapner,R.,et al.,First-trimester screening for trisomies 21and 18.N Engl J Med,2003.349(15):p.1405-13.
[0009] 3.Lo,Y.M.,et al.,Presence of fetal DNA in maternal plasma and serum.Lancet,1997.350(9076):p.485-7.
[0010] 4.Chiu,R.W.,et al.,Noninvasive prenatal diagnosis of  fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma.Proc Natl Acad Sci U S A,2008.105(51):p.20458-63.
[0011] 5.Canick,J.A.,et al.,The impact of maternal plasma DNA fetal fraction on next generation sequencing tests for common fetal aneuploidies.Prenat Diagn,2013.33(7):p.667-74.
[0012] 6.Chan,K.C.,et al.,Size distributions of maternal and fetal DNA in maternal plasma.Clin Chem,2004.50(1):p.88-92.
[0013] 7.Lo,Y.M.,et al.,Maternal plasma DNA sequencing reveals the genome-wide genetic and mutational profile of the fetus.Sci Transl Med,2010.2(61):p.61ra91.
[0014] 8.Yu,S.C.,et al.,Size-based molecular diagnostics using plasma DNA for noninvasive prenatal testing.Proc Natl Acad Sci U S A,2014.111(23):p.8583-8.
[0015] 9.Liao,C.,et al.,Noninvasive prenatal diagnosis  of  common aneuploidies by semiconductor sequencing.Proc Natl Acad Sci U S A,2014.111(20):p.7415-20.。

发明内容

[0016] 本发明的目的在于提供一种基于单样本外周血检测胎儿染色体非整倍性的装置。
[0017] 本发明所采取的技术方案是:
[0018] 一种基于单样本外周血检测胎儿染色体非整倍性的装置,包括:
[0019] 测序数据处理单元:用于将测序得到的核苷酸序列与人类基因组标准序列进行对比,确定核苷酸序列对应的染色体;
[0020] 结果分析单元:将属于同一染色体上的核酸序列划分为短序列和长序列,其中,短序列的长度为100bp~149bp,长序列的长度为150bp~199bp;当染色体为常染色体时,属于同一染色体的短序列的量比长序列的量多时,判断为该待测染色体为非整倍染色体。
[0021] 进一步的,测序数据处理单元在进行数据处理时,剔除处于串联重复位置及转座子重复位置的核苷酸序列,以及低质量的、多匹配和非完全匹配到染色体上的核苷酸序列;剔除100~199bp以外的核苷酸序列。
[0022] 进一步的,结果分析单元进行分析时,采用滑窗法计算待测染色体上每个长度区间的DNA片段比例,通过对比短序列和长序列区间的DNA片段比例判断待测染色体是否为非整倍染色体。
[0023] 特别的,结果分析单元进行分析时,采用滑窗法计算待测染色体上每个长度区间的DNA片段比例,具体为:
[0024] 以5为长度梯度,2为overlap,短片段区间为:[100,105),[103,108),[106,111),……,[139,144),[142,147),[145,150);长片段区间为:[150,155),[153,158),[156,161),……,[189,194),[192,197),[195,200);
[0025] 根据公式ratioij=reads_nij/reads_nj统计待测染色体上每个长度区间的DNA片段比例;式中,i:染色体编号;
[0026] j:长度区间编号;
[0027] ratioij:第j个长度区间下的第i号染色体的DNA片段比例;
[0028] reads_nij:第j个长度区间下的第i号染色体的DNA片段数;
[0029] reads_nj:样本在第j个长度区间下的所有常染色体的DNA片段数总和。
[0030] 进一步的,上述装置还包括用于对外周血DNA进行测序,确定每条核苷酸的序列和长度的测序单元。
[0031] 本发明的有益效果是:
[0032] 本发明的装置通过样本自身对照,不依赖于由正常阴性样本构建的参考数据库,解决了由于实验条件变异,染色体内及染色体间因序列GC含量的差异而造成的离群值对检测结果准确 性的影响;与传统的计数法检测三体的方法相比,本发明对胎儿游离DNA浓度的依赖性较小,很大程度上解决了低胎儿游离DNA浓度下染色体非整倍体的假阴性问题;而且对测序的数据量要求[9]比原有的方法低,从而可以进一步降低成本。而且该方法可以与背景技术中的方法结合使用,互相验证,进一步提高检测的准确性。一方面,本发明的装置可用于胎儿染色体非整倍体无创产前诊断,帮助有效控制染色体非整倍体胎儿的出生率。另一方面,本发明中所建立的染色体非整倍体的判定装置的扩展性好,应用范围广泛,不仅能对染色体非整倍体进行持测,还可扩展到一些感兴趣的染色体片段。

附图说明

[0033] 图1是13三体阳性样本和其他样本的chr13的游离DNA在各区间的ratio值分布图;图2是18三体阳性样本和其他样本的chr18的游离DNA在各区间的ratio值分布图;
[0034] 图3是21三体阳性样本和其他样本的chr21的游离DNA在各区间的ratio值分布图。

具体实施方式

[0035] 一种基于单样本外周血检测胎儿染色体非整倍性的装置,包括:
[0036] 测序数据处理单元:用于将测序得到的核苷酸序列与人类基因组标准序列进行对比,确定核苷酸序列对应的染色体;
[0037] 结果分析单元:将属于同一染色体上的核酸序列划分为短序列和长序列,其中,短序列的长度为100bp~149bp,长序列的长度为150~199bp;当染色体为常染色体时,属于同一染色体的短序列的量比长序列的量多时,判断为该待测染色体为非整倍染色体。
[0038] 属于同一条染色体的短序列的量比长序列的量多,指的是其量在统计学上具有显著差异,即P值小于0.05。P值可以使用公知的统计学方法计算得到,如T检验。
[0039] 进一步的,测序数据处理单元在进行数据处理时,剔除处于串联重复位置及转座子重复位置的核苷酸序列,以及低质量的、多匹配和非完全匹配到染色体上的核苷酸序列;剔除100bp~199bp以外的核苷酸序列。
[0040] 进一步的,结果分析单元进行分析时,采用滑窗法计算待测染色体上每个长度区间的DNA片段比例,通过对比短序列和长序列区间的DNA片段比例判断待测染色体是否为非整倍染色体。
[0041] 特别的,结果分析单元进行分析时,采用滑窗法计算待测染色体上每个长度区间的DNA片段比例,具体为:
[0042] 以5为长度梯度,2为overlap,短片段区间为:[100,105),[103,108),[106,111),……, [139,144),[142,147),[145,150);长片段区间为:[150,155),[153,158),[156,161),……,[189,194),[192,197),[195,200);
[0043] 根据公式ratio ij=reads_n ij/reads_n j统计待测染色体上每个长度区间的DNA片段比例;式中,
[0044] i:染色体编号;
[0045] j:长度区间编号;
[0046] ratioij:第j个长度区间下的第i号染色体的DNA片段比例;
[0047] reads_nij:第j个长度区间下的第i号染色体的DNA片段数;
[0048] reads_nj:样本在第j个长度区间下的所有常染色体的DNA片段数总和。
[0049] 进一步的,上述装置还包括用于对外周血DNA进行测序,确定每条核苷酸的序列和长度的测序单元。
[0050] 下面结合实施例,进一步说明本发明的技术方案。
[0051] 检测胎儿染色体非整倍体的装置
[0052] 待测血样的全基因组测序
[0053] 12名孕妇血样参与本项检测,血样编号为T1-T12。核型分析结果显示:4名怀有21号染色体三体胎儿,3名怀有13号染色体三体胎儿,3名怀有18号染色体三体胎儿,1名怀有正常女胎,1名怀有正常男胎。上述血样6例广东省妇女儿童医疗中心采集获得,6例(T3,T4,T9,T10,T11,T12)为2014年12月国家卫生部临床检验提供的实验室室间质评样本。
[0054] 抽取每个孕妇的外周血液,进行离心,获得血浆,再从血浆中提取DNA,利用博奥生物集团的BioelectronSeq 4000基因测序仪进行大规模的高通量测序;
[0055] 测序数据的定位与质控
[0056] 将测序数据与人类基因组标准序列hg19进行比对,确定DNA片段序列在染色体上的准确位置。为了保证测序结果的质量及避免一些重复序列的干扰,剔除低质量的序列,并对位于基因组串联重复及转座重复区域的碱基进行过滤。最终约72%的测序碱基被完全定位到基因组上的唯一位置,故也称为唯一匹配DNA片段;
[0057] 计算待测染色上各长度区间的DNA片段比例:
[0058] 统计样本各DNA测序片段区间的唯一匹配DNA片段数
[0059] 实施例中以5bp为步长,2bp为overlap,将100-199bp长的DNA片段划分为32区间类,即短片段区间为:[100,105),[103,108),[106,111),……,[139,144),[142,147),[145,150);长片段区间为:[150,155),[153,158),[156,161),……,[189,194),[192,197), [195,200)。将长度区间进行标号,如表1-1
[0060] 表1-1 长度区间标号 长度区间编号 长度范围 长度区间编号 长度范围
1 100bp-104bp 17 150bp-154bp
2 103bp-107bp 18 153bp-157bp
3 106bp-110bp 19 156bp-160bp
4 109bp-113bp 20 159bp-163bp
5 112bp-116bp 21 162bp-166bp
6 115bp-119bp 22 165bp-169bp
7 118bp-122bp 23 168bp-172bp
8 121bp-125bp 24 171bp-175bp
9 124bp-128bp 25 174bp-178bp
10 127bp-131bp 26 177bp-181bp
11 130bp-134bp 27 180bp-184bp
12 133bp-137bp 28 183bp-187bp
13 136bp-140bp 29 186bp-190bp
14 139bp-143bp 30 189bp-193bp
15 142bp-146bp 31 192bp-196bp
16 145bp-149bp 32 195bp-199bp
[0061] 其中区间1-16为短片段,17-32为长片段区间。
[0062] 统计计算各区间内,样本内的DNA片段总数。
[0063] 计算样本中待测染色体各DNA片段区间的DNA片段数占总体的比例
[0064] 分别统计计算12个样本的13、18、21号染色体的各长度区间的DNA片段数,并根据公式1求得其占所在区间DNA片段总数的比例。
[0065] 计算样本内待测染色体的短片段和长片段的比例差异
[0066] 根据样本待测染色体上短片段区间和长片段区间的片段比例,利用T检验,计算P值。结果如表1-2所示。
[0067] 表1-2 血样中待测染色体对应的P值
[0068]
[0069] 根据表1-2,判断如下:
[0070] 1)T1中21号染色体的P为7.44E-09,且短片段的比例为0.017857,长片段的比例为0.016366,则认为多一条21号染色体,故判断T1为21三体;同理,T2、T9、T10为21三体样本。
[0071] 2)对于T3,13号染色体的P为1.79E-05,且短片段的比例为0.03621,长片段的比例为0.03558,则认为多一条13号染色体,故判断T1为13三体;同理,推断出T4、T11为13三体样本;
[0072] 3)对于T5,18号染色体的P为2.16E-05,且短片段的比例为0.03053,长片段的比例为0.02972,则认为多一条18号染色体,故判断T1为18三体;同理,推断出T6、T12为18三体样本;
[0073] 4)对于T7和T8,13、18和21号染色体的P值都大于0.05,故可推断为正常样本。
[0074] 综上,本检测实例中12个血样的检测结果见表1-3。由表1-3中数据可知,本检测实例中12个血样的检测结果与核型分析结果完全一致。
[0075] 表1-3 本检测实例中12个血样的检测结果
[0076]
[0077] 样本T9、T11相同测序数据下,在传统的Z值检测中都没有检测出样本。其中T9的21号染色体Z值为0.46,T11的13号染色体Z值为0.81;这2个样本来自2014年12月国家卫生部临床检验提供的实验室室间质评样本,其中T9为胎儿浓度10%下的30%嵌合样本,T11为浓度小于4%的样本。从结果可以发现本检测方法比传统的Z值检测方法对浓度的要求更低,它们可以互相验证与补充。
[0078] 不同数据量下该分析装置的检测情况
[0079] 待测血样的全基因组测序
[0080] 选择实施例1中的T1、T4、T6和T8样本,进行数据量的全基因组测序。其中,T1为21三体,T4为13三体,T6为18三体,T8为正常样本。这些样本分别进行6次测序,测序数据进行一系列的质控后,得到的有效数据量分别为1.5M、2M、2.5M、3M、3.5M和4M。
[0081] 计算不同数据量下待测染色体的P值
[0082] 根据实施例1中的方法,采用T检验,按照2.2中求得的片段比例,计算不同数据量下各样本的待测染色体P值;并统计样本内待测染色体中短片段和长片段的总体比例。表2-1中列出各数据量下待测染色体的P值,表2-2中列出各数据量下待测染色体中短片段和长片段的 总体比例。
[0083] 表2-1 各数据量下待测染色体的P值
[0084]
[0085] 表2-2 各数据量下待测染色体短片段与长片段的总体比例
[0086]
[0087] 从表2-1中可以发现,在6种数据量下,阳性样本对应染色体的P值都小于0.05;而且当P<0.05 时,表2-2中有短片段比例比长片段比例大。故该装置在低数据量下,也具有很好的检测效果。