一种利用DNA序列条码矫正二代高通量测序的序列丰度偏差的方法转让专利

申请号 : CN201010174553.0

文献号 : CN101845500B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李轩熊慧郝沛李亦学

申请人 : 苏州众信生物技术有限公司

摘要 :

本发明涉及一种利用DNA序列条码矫正二代高通量测序的序列丰度偏差的方法,通过引进10个或10个以上的DNA序列作为条码标签,对各种不同样品的DNA通过高通量测序获得的丰度数据进行矫正。本专利通过三种不同的设计引入DNA序列条码,这三种方法可适用于各种不同的样品条件。在描述这三个技术设计时,我们的设计以454高通量测序为例。但这个原理同样适用于其他的高通量测序技术平台,包括SOLiD、Polynator等等。本发明有效地克服了当前二代高通量测序的几个平台建库中的emulsion PCR步骤引入的实验误差。本专利设计的技术方法和实验流程,通过引入100万种以上(410=1048576)的DNA序列条码,来区分和纠正在emulsion PCR过程中某一模板序列由于油包水小球破裂污染产生的偏高的序列读出丰度。

权利要求 :

1.一种利用DNA序列条码矫正二代高通量测序的序列丰度偏差的方法,其特征是采用:方式一:将10个核酸序列组成的序列条码N加到454建库adaptor的下游直接与样本DNA相连的部分,其中字体加框的部分为序列互补部分

5′-CCATCT ATCCCTGCGTG CT C A T

3′-ATAG GGACACACGGA CC T A

本方式通过DNA接头与DNA样本的连接反应来引入核酸序列条码,DNA样本片段利用nebulization的方法打断后,使用Agencourt的AMPure XP试剂提取400-800bp的DNA片段,经过末端修复后,利用Klenow polymerase酶和dATP加入3’A-tail,然后对3’A-tailed DNA样品和核酸序列条码的DNA接头连接,本方式的产物,可直接进入454的高通量测序的emPCR步骤,或者,

方式二:将10个核酸序列组成的序列条码N通过2个PCR引物加到测序样品的一端,核酸序列条码通过最后一轮PCR引入

5’-NNNNNNNNNN-与样本序列上游互补的特异序列-3’

5’-NNNNNNNNNN-与样本序列下游互补的特异序列-3’,

本方式利用与样本序列互补的特异序列作为引物,通过一轮的PCR反应来引入核酸序列条码,为了提高核酸序列条码的引入效率,将使用较长的annealing时间,此种设计的引入核酸序列条码后产物,还要通过建库步骤才能进入454的高通量测序的emPCR步骤;

或者,

方式三:将高通量测序引导序列和10个核酸序列条码N通过PCR加到测序样品的两端,每端5个核酸条码序列,核酸序列条码通过最后一轮PCR引入#PA:5’-CCATCTCATCCCTGCGTGTCTCCGACTCAG-N5-与样本序列上游互补的特异序列#PB:5’-CCTATCCCCTGTGTGCCTTGGCAGTCTCAG-N5-与样本序列下游互补的特异序列,本方式利用与样本序列互补的特异序列作为引物,通过一轮的PCR反应来引入核酸序列条码,为了提高核酸序列条码的引入效率,将使用较长的annealing时间,此种设计方法的产物,可直接进入454的高通量测序的emPCR步骤,上述三种方式DNA序列条码对不同样品DNA通过测序平台高通量测序获得的丰度数据进行矫正,所述测序平台为454Genome Sequencer、SOLiD或Polynator;

所述方式一应用于多种不知序列DNA混合片段;

所述方式二和方式三应用于已知序列的单一或几种DNA混合片段。

2.根据权利要求1所述的利用DNA序列条码矫正二代高通量测序的序列丰度偏差的方法,其特征是:所述单一或几种DNA混合片段为PCR产物或病毒DNA。

3.根据权利要求1所述的利用DNA序列条码矫正二代高通量测序的序列丰度偏差的方法,其特征是:适用于病毒或病毒片段的测序、PCR片段的测序、cDNA的测序或DNA序列甲基化分析。

说明书 :

一种利用DNA序列条码矫正二代高通量测序的序列丰度偏

差的方法

技术领域:

[0001] 本发明涉及一种利用DNA序列条码矫正二代高通量测序的序列丰度偏差的方法。 背景技术:
[0002] 高通量测序技术是对传统测序一次革命性的改变,一次对几十万到几百万条DNA分子进行序列测定,使得对一个物种的转录组和基因组进行细致全貌的分析成为可能。 [0003] 二代高通量测序技术的发展,以454公司2005年底,推出的创新性的基于焦磷酸测序法和emulsion PCR的超高通量基因组测序系统Genome Sequencer20 System(1)为起始。2007年又454公司推出了性能更优的第二代基因组测序系统:Genome Sequencer FLX System。目前,已实现市场商业化的二代高通量测序技术平台,除了454的GS系统外,还包括SOLiD(ABI公司)(2),Solexa(Illumina公司)(3),Helicos和Polonater(4)。二代高通量测序不仅可用于DNA分子的序列测定,而且也可以通过测定不同DNA分子的丰度对转录组水平进行研究,从而有望在未来替代芯片技术。但这几种高通量测序技术平台中,除了Helicos的单分子测序和Solexa使用bridge-PCR技术外,其余都采用emulsion PCR技术对单分子DNA模板进行扩增放大。emulsion PCR技术,即利用油水混合震荡产生的油包水小球中单一DNA模板进行PCR扩增和测序的。emulsion PCR技术的一个重大缺陷,是在PCR反应的过程中不可避免的发生油包水小球破裂,而污染其他的空白小球,从而造成错误地提高破裂小球中DNA模板序列读出的丰度,从而限制了二代高通量测序仪用于DNA分子丰度的研究。 emulsion PCR的污染问题,是几种二代高通量测序技术平台的共有问题,矫正污染所带来的数据偏差,将为二代高通量测序技术平台在科研和临床应用破除一个严重的障碍,为二代高通量测序技术的应用开辟更广阔的前景。发明内容:
[0004] 为了解决上述技术问题,本发明提供了一种一种利用DNA序列条码矫正二代高通量测序的序列丰度偏差的方法。
[0005] 本发明解决其技术问题所采用的技术方案是:一种利用DNA序列条码矫正二代高通量测序的序列丰度偏差的方法,其特征是:采用
[0006] 方式一:将10个核酸序列组成的序列条码(用N代表)加到454建库adaptor的下游直接与样本DNA相连的部分(其中字体加粗的部分为序列互补部分)
[0007] 5′-CCATCT ATCCCTGCGTG CT C A T
[0008] 3′-ATAG GGACACACGGA CC T A 或者,
[0009] 方式二:将10个核酸序列组成的序列条码(用N代表)通过2个PCR引物加到测序样品的一端,核酸序列条码通过最后一轮PCR引入
[0010] 5’-NNNNNNNNNN-与样本序列上游互补的特异序列-3’
[0011] 5’-NNNNNNNNNN-与样本序列下游互补的特异序列-3’,或者, [0012] 方式三:将高通量测序引导序列和10(5×2)个核酸序列条码(用N代表)通过PCR加到测序样品的两端(每端5个核酸条码序列),核酸序列条码通过最后一轮PCR引入 [0013] #PA:5’-CCATCTCATCCCTGCGTGTCTCCGACTCAG-N5-与样本序列上游互补的特异序列
[0014] #PB:5’-CCTATCCCCTGTGTGCCTTGGCAGTCTCAG-N5-与样本序列下游互补的特异序列,
[0015] 上述三种方式DNA序列条码对不同样品DNA通过测序平台高通量测序获得的丰度数据进行矫正。
[0016] 上述三种方式的适应条件和流程如以下:
[0017] 方式一:
[0018] 主要应用于多种不知序列DNA混合片段,通过DNA接头与DNA样本的连接(ligation)反应来引入核酸序列条码。DNA样本片段利用nebulization的方法打断后,使用Agencourt的AMPure XP试剂提取400-800bp的DNA片段。经过末端修复后,利用Klenow polymerase酶和dATP加入3’A-tail。然后对3’A-tailed DNA样品和有酸序列条码的DNA接头连接(ligation)。此种设计方法的产物,可直接进入454的高通量测序的emPCR步骤。
[0019] 方式二:
[0020] 主要应用于已知序列的单一或几种DNA混合片段(特别是PCR产物或病毒DNA)。它利用与样本序列互补的特异序列作为引物,通过一轮的PCR反应来引入核酸序列条码。
为了提高核酸序列条码的引入效率,将使用较长的annealing时间。此种设计的引入核酸序列条码后产物,还要通过建库步骤才能进入454的高通量测序的emPCR步骤。 [0021] 方式三:
[0022] 主要应用于已知序列的单一或几种DNA混合片段(特别是PCR产物或病毒DNA)。它利用与样本序列互补的特异序列作为引物,通过一轮的PCR反应来引入核酸序列条码。
为了提高核酸序列条码的引入效率,将使用较长的annealing时间。此种设计方法的产物,可直接进入454的高通量测序的emPCR步骤。
[0023] 本发明通过引入100万以上(410=1048576)的DNA序列条码,来区分和矫正在emulsion PCR过程中的模板序列由于污染产生的偏高的读数。例如,如果两个相同序列具有相同的DNA序列条码,那么可以认为这两个序列来源于同一模板,因为只有100万分之一的机会两个模板获得了同一个DNA序列条码。这 个专利的技术有效地克服了当前二代高通量测序技术平台的严重问题,它可以被用来作为分子标尺来估算某些分子的绝对数量。emulsion PCR的污染问题,是几种二代高通量测序技术平台的共有问题,矫正它所带来的数据偏差,将为二代高通量测序技术平台在科研和临床应用克服了一个严重的障碍,为二代高通量测序技术的应用开辟更广阔的前景。
附图说明:
[0024] 下面结合附图和实施例对本发明进一步说明。
[0025] 图1为DNA样本片段通过nebulization打断工作图。
[0026] 图2为DNA样品建库过程中的质量监控图。
[0027] 图3为DNA长度分布图。
[0028] 图中:1,空白对照;2,Agilent standard ladder;3,用nebulization打碎的DNA样本;4,连接Adaper前的3’A-tailed的DNA库;5,连接Adaper后的DNA库。 具体实施方式:
[0029] 应用实例一:利用DNA序列条码矫正mRNA的表达谱
[0030] 此实例利用“第一种设计”中加了10个核酸序列条码454建库adaptor,从mRNA=>cDNA开始建立454文库,并通过454高通量测序来决定mRNA的表达序列和每个表达序列的丰度。
[0031] 1)从mRNA合成双链cDNA
[0032] 提取poly(A)-tailed的mRNA:
[0033] 厂商:Omega Bio-Tek,Inc.
[0034] 试剂盒:Mag- mRNA Enrichment Kit
[0035] 操作按Omega Bio-Tek技术手册进行。
[0036] 利用随机引物合成第一和第二链的cDNA:
[0037] 厂商:Invitrogen.TM
[0038] 试剂盒: VILO cDNA合成试剂盒
[0039] 操作按Invitrogen技术手册进行。
[0040] 2)长片段cDNA的打断(Nebulization,见上述图一):
[0041] 准备Nebulization缓冲液:10ml(Total)
[0042] Glycerol 5.31ml
[0043] 1M Tris-HCl(pH 7.5)0.37ml
[0044] 0.5M EDTA(pH 8.0)0.11ml
[0045] VWR water 4.21ml
[0046] 将cDNA样本(0.05-1μg)溶入Nebulization缓冲液(200μl)并放入雾化杯中,通入45psi的氮气,约1到1分半的时间。回收Nebulized cDNA样本,对回收的cDNA样本进行质量检测(见上图二)。
[0047] 3)DNA补平和清理:
[0048] 准备DNA补平反应液:20μl(Total)
[0049] 10X NEB T4 DNA Polymerase Buffer(NEB2)6μl
[0050] VWR water 4.5μl
[0051] 100X NEB BSA 0.5μl
[0052] 25mM dNTP working stock 2.5μl
[0053] 100mM ATP(ribonucleotide)0.5μl
[0054] 3U/μl T4 DNA Polymerase 3μl
[0055] 10U/μl T4 Polynucleotide Kinase 3μl
[0056] DNA补平反应时加入Nebulization后的DNA样本40μl,按下列步骤进行反应: [0057] ·20min at 12℃
[0058] ·20min at 25℃
[0059] ·20min at 75℃
[0060] 反应完成后用QIAquick PCR Purification Kit清理和回收DNA(32μl)。 [0061] 4)加3’A到DNA片段:
[0062] 准备DNA加3’A-tail的反应液:50μl(Total)
[0063] DNA sample 32μL
[0064] Klenow buffer 5μL
[0065] dATP 10μL
[0066] Klenow exo(3’to 5’exo minus)3μL
[0067] 然后将反应液在37℃处理30分钟。反应完成后用Qiagen MinElute PCRPurification kit清理和回收DNA(10μL)。
[0068] 5)3’A-tailed的DNA片段连接“第一种设计”的454建库Adapter: [0069] 准备DNA连接反应液:50μl(Total)
[0070] DNA样本10μL
[0071] Nuclease-free water 4μL
[0072] DNA ligase buffer 25μL
[0073] 第一种设计的Adapter:6μL
[0074] DNA ligase 5μL
[0075] 将反应液保温在14°大约6小时使反应完成。反应完成后用QIAquick PCRPurification Kit清理和回收DNA(20μl)。
[0076] 6)电泳割胶纯化提取连接adaptorhou的DNA片段
[0077] 用TAE缓冲液准备2.5%的Agarose胶并装入电泳槽,装入DNA样品片段和低分子DNA ladder作为标记。跑胶条件:25V大约15个小时,用消过毒的刀片在UV光下切出400-800bp位置的胶条。利用Qiagen Gel Extraction Kit对DNA样本进行回收。回收的DNA可以直接进入454的emPCR反应步骤,进而完成测序。
[0078] 7)利用DNA序列条码矫正mRNA的表达谱
[0079] 对于样本测序的结果进行序列分析。首先利用NCBI Blast软件包中的Blastclust软件对产出的序列进行聚类分析,然后对每一类别的序列,利用DNA序列条码进行鉴别,纠正污染模板序列的偏高的丰度读数。具体原理是:如果两个或俩个以上的相同序列具有同一个DNA序列条码,那么可以认为这些序列来源于同一模板,因为只有100万分之一的机会两个模板获得了同一个DNA序列条码。这种情况下,这些具有相同序列和同一个DNA序列条码的reads只作为一次来计算它的丰度数据。
[0080] 应用实例二:利用DNA序列条码矫正病毒序列突变的丰度
[0081] 此实例利用“第二种设计”的方法,将10个核酸序列条码通过PCR反应加到测序样品的一端。实例二从带有低丰度突变单一病毒PCR扩增所得片段开始,利用根据“第二种设计”的两个引物,通过一轮的PCR反应来引入核酸序列条码到病毒片段的一端。然后通过emPCR的建库过程和454高通量测序来确定病毒突变的序列并利用序列条码来矫正突变序列的丰度。
[0082] 1)根据“第二种设计”的2个引物:
[0083] #P1:5′-NNNNNNNNNN-与样本序列上游互补的特异序列-3′
[0084] #P2:5′-NNNNNNNNNN-与样本序列下游互补的特异序列-3′
[0085] 2)利用上述引物通过PCR引入核酸序列条码:
[0086] 起始0.05-1μg的带有低丰度突变单一病毒PCR扩增片段。利用上述引物和一轮PCR引入核酸序列条码。PCR溶液的最终条件:2μM P1 primer;2μM P2primer;1x Phusion Master Mix with HF Buffer[见Phusion High Fidelity Master MixUser’s Guide(Finnzymes)];0.05-1μg病毒扩增片段(变性后再加入到PCR反应溶液中)。 [0087] 模板DNA变性条件:30seconds@98℃;转到冰上快速冷却
[0088] PCR反应的条件如下:
[0089] ·第1步:30seconds@98℃
[0090] ·第2步:60seconds@65℃
[0091] ·第3步:5min@72℃
[0092] ·第4步:保持@4℃
[0093] 反应完成后用QIAquick PCR Purification Kit清理和回收DNA(32μl)。 [0094] 3)从上步回收的DNA可以不经过打断而直接进入标准的454建库步骤、emPCR、进而进行测序。
[0095] 4)利用DNA序列条码矫正病毒序列突变的发生率
[0096] 对于样本测序的结果进行序列分析。首先利用454的Amplicon VariantAnalyzer对进行排列对比,找出SNP位点和SNP变化序列(见上述图3)。对于序列相同的SNP序列,利用DNA序列条码进行鉴别,纠正污染模板序列的偏高的丰度读数。具体原理是:如果两个或俩个以上的相同序列的SNP具有同 一个DNA序列条码,那么可以认为这些序列来源于同一模板,因为只有100万分之一的机会两个模板获得了同一个DNA序列条码。这种情况下,这些具有相同序列和同一个DNA序列条码的reads只作为一次来计算它的丰度数据。这样通过DNA序列条码可以验证这些低频率突变出现的次数和所占的比例。