基于基因组简化与二代测序DNA文库构建方法及试剂盒转让专利

申请号 : CN201210358999.8

文献号 : CN102877136B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 潘玉春陈强杨玉梅王起山张向喆马育芳陈振亮廖荣荣涂盈盈颉孝贤王振贺鹏飞张哲

申请人 : 上海交通大学

摘要 :

一种生物技术领域的基于基因组简化与二代测序DNA文库构建方法及试剂盒,该方法和试剂盒针对现有文库构建方法不足,可用于参考基因组不完善、研究群体系谱不清晰、无单体型图物种的全基因组SNP检测及基因分型。本发明涉及的DNA文库构建方法及试剂盒操作流程简单,产生的文库测序质量较高,个体间片段分布变异性小,研究成本低,在实现高通量全基因组SNP检测及基因分型研究中具有非常广阔的应用前景。

权利要求 :

1.一种基于基因组简化与二代测序DNA文库构建方法,其特征在于,包括以下步骤:第一步、基因组DNA的提取:利用猪耳组织DNA提取试剂盒提取基因组DNA,利用限制性内切酶AvaII对基因组DNA进行消化处理,得到限制性片段;

第二步、使用T4DNA连接酶对限制性片段连接上DNA条形码-接头(DNA Barcode Adapter),得到DNA条形码-接头的序列对;

第三步、将DNA条形码-接头的序列对进行混合,然后以混合物作为模板进行PCR扩增,扩增后的产物经琼脂糖凝胶电泳后回收DNA片段作为测序文库,采用芯片分析系统进行最终的质量检测和测序;

所述的DNA条形码-接头的序列对是指:正链和负链,具体为:

正链:5’ACACTCTTTCCCTACACGACGCTCTTCCGATCTXXXXX3’,负链:5’GWCYYYYYAGATCGGAAGAGCGGTTCAGCAGGAATGCCGAG3’,其中:正链中的XXXXX代表barcode序列,负链中YYYYY代表barcode互补序列,W代表碱基A或T;

所述的DNA条形码由72个序列组成,具体为:AACT、CCTAC、TTCTC、AATATGC、ATTAATT、CTTGCTT、CAGA、CTGTA、ACCTAA、ATGAAAC、ATTGA、GAACTTC、CGAT、GAGGA、ATATGT、CGGTAGA、CATCGT、GCTGTGGA、GATC、GGAAC、CCAGCT、GTCGATT、CCACAA、GGACCTA、GCGT、GGTGT、GAGATA、TCGAAGA、CCGGATAT、GGATTGGT、GTAA、GTATT、GCCAGT、AAAAGTT、CGCGGAGA、GTTGAA、TCAC、GTCAA、GCTCTA、AACCGAGA、CGCTGAT、TAGGAA、TGCA、TAATA、GGTTGT、ACGACTAC、CGCTT、TAGGCCAT、ACAAA、TACAT、TAACGA、ACGTGTT、CGTGTGGT、TATTTTT、AGCCC、TCACC、TGGCTA、AGGC、CTAGC、TCTCAGTC、AGGAT、TCGTT、TTCAGA、AGTGGA、CTATTA、TCTGTGA、CATCT、TGCGA、AACGCCT、ATGCCT、CTCC、TTCCTGGA。

2.根据权利要求1所述的方法,其特征是,所述的基因组DNA经过琼脂糖凝胶电泳检测及260nm/280nm纯度检测,且稀释成50~100ng/μL。

3.根据权利要求1所述的方法,其特征是,所述的接头由正链和负链组成,具体为:正链:5’ACACTCTTTCCCTACACGACGCTCTTCCGATCT3’,负链:5’AGATCGGAAGAGCGGTTCAGCAGGAATGCCGAG3’。

4.根据权利要求1所述的方法,其特征是,所述的PCR扩增中所采用的引物对由引物序列1.1和引物序列2.1组成,其中:引物序列1.1:

5'AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT3';

引物序列2.1:

5'CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT3'。

5.根据权利要求1所述的方法,其特征是,所述的测序文库为经琼脂糖凝胶电泳回收得到的300~400bp的DNA片段。

6.一种根据权利要求1-5中任一所述方法的用于远交群体基因分型的测序文库构建试剂盒,其特征在于,所述试剂盒由以下组成:

1)引物序列1.1和引物序列2.1:

引物序列1.1:

5'AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT3';

引物序列2.1:

5'CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT3';

2)PCR聚合酶混合物,其组分为:0.1U/μL、0.5mM dNTP混合物、1×缓冲液,其中缓冲液成分为:10mM Tris-HCl、50mM KCl、1mM MgCl2;

3)10,000U/mL的限制性核酸内切酶AvaII及其相应的缓冲液,其中缓冲液成分为:

50mMKAc、20mM Tris-Ac、10mM Mg(Ac)2、1mM DDT,该缓冲液的pH7.9,温度为25℃;

4)400,000U/mL的T4DNA连接酶;

5)由72个序列组成的DNA条形码-接头序列对,每对序列结构为:正链:5’ACACTCTTTCCCTACACGACGCTCTTCCGATCTXXXXX3’,负链:5’GWCYYYYYAGATCGGAAGAGCGGTTCAGCAGGAATGCCGAG3’,其中:正链中XXXXX代表barcode序列,负链中YYYYY代表barcode互补序列,W代表碱基A或T。

说明书 :

基于基因组简化与二代测序DNA文库构建方法及试剂盒

技术领域

[0001] 本发明涉及的是一种生物技术领域的方法及试剂盒,具体是一种基于基因组简化与二代测序DNA文库构建方法及试剂盒。

背景技术

[0002] 随着分子生物学、遗传学、统计基因组学等学科的不断发展,在基因组(Genome)层面利用全基因组关联分析(Genome-wide association study,GWAS)等方法研究与人类疾病及家畜重要农业经济性状相关的遗传变异成为可能,单核苷酸多态性(Single nucleotide polymorphism,SNP)是GWAS及许多研究工作例如基因组选择(Genomic selection)、高精度遗传作图(Highly-resolution mapping)的基础。对于位点较少的SNP检测,比如少数几个候选基因(Candidate genes)或几个感兴趣的区域以及已知的少数靶SNP位点,许多方法如RT-PCR,Illumina GoldenGate,Sequenom MassARRAY,Applied Biosysetems SNaPshot以及Roche LightTyper等均能实现小群体样品检测。基于微阵列SNP检测芯片(Affymetrix,Illumina及Agilent等)的出现促进群体遗传学研究,大大提高了SNP检测通量,使在相对较大的群体研究成为了可能,在人上发现了大量与复杂疾病等表型关联的SNP,同时在重要经济动物诸如猪,牛等经济性状研究中发挥了重要作用。但是,相对高的检测费用严重制约了基于芯片研究的广泛应用,同时基于特定群体设计的微阵列芯片并不能满足研究的需要,例如基于长白、大白、皮特兰和杜洛克猪设计的Illumina porcineSNP60芯片(大约6万个SNP位点),由于中国地方猪种与西方猪种的遗传距离较远,因此在利用该芯片研究地方猪种时存在明显缺陷,SNP位点也嫌不足。跟据研究目的自定制芯片虽能满足研究,但仍然存在大量的时间、劳动力和成本消耗。
[0003] 二代测序技术(Next-generation sequencing,NGS)的出现革命化了群体遗传学研究,随着其技术不断更新,其研究成本正不断降低,利用二代测序技术在全基因组层面通过并行测序模式(Parallel sequencing)以低检测费用发现数十万甚至百万SNPs成为可能,并以此发现了大量与复杂疾病相关以及与动物表型相关的主效基因(Major effect gene)及SNP位点。基于二代测序个体间数据的不均一性及数据高缺失率的特点,测序方法的改进即测序文库的构建(Libraries preparation)及数据填补方法即基因型推演(Genotyping imputation)是当前研究的难点和热点。当前,用于二代测序的文库构建方法主要有RAD-seq(Restriction-site-association DNA sequencing)(Baird N.J.,et al,2008)、WGR(Whole genome resequencing)(Huang X.H.,et al,2009)、GBS(Genotyping by sequencing)(Elshire R.J.,et al,2011) 以 及 MSG(MμLtiplexed shotgun genotyping)(Andolfatto P.,et al,2011)等,这些方法已分别成功运用到棘鱼(Stickleback)、水稻(Rice)、大麦(Barley)和玉米(Maize)以及果蝇(Fruit fly)等物种的SNP发现(SNP discovery)及基因分型(Genotyping)研究。由于这些物种均为“小”基因组(Small genome)和重组近交系(Recombinant inbred lines)群体,且有较高质量的参考序列(Reference panel),因此,在较低测序深度(Sequencing depth)和覆盖度Coverage)时能够通过直接分型(Directly genotyping)和间接分型(Imputating genotyping)发现大量的标记。然而,对于来源于远交群体(Outbreeding popμLation)的二倍体杂合物种,特别是系谱不清晰、低质量参考序列以及无单体型图的物种,比如猪,这些方法并不完全适合用。

发明内容

[0004] 本发明针对现有技术存在的上述不足,提出一种基于基因组简化与二代测序DNA文库构建方法及试剂盒,与RAD-seq方法相比,大大简化了测序流程,GGRS不需要DNA片段的随机打断(RandomLy shear)、更少的胶回收步骤(Gel-purification)以及减少了接头连接(ligating-adapter)步骤;与低覆盖度(Low coverage)MSG及GBS方法,尤其是GBS方法相比,GGRS方法减少了移除接头(Removing-adapter)步骤,针对远交群体设计出一套barcode-adapter体系,而不用GBS方法中所使用的两套adapters体系(Barcode-adapter和Common-adapter)。由于整个文库构建流程中间步骤不需要产物清洗(Clean up)和胶回收(Gel-purification),即酶切反应、连接反应、PCR均不涉及片段随机丢失,保证了个体间测序片段(Fragments)较好的均一性,同时GGRS流程不涉及片段随机打断(RandomLy shear)和末端修饰(End repair),高度简化的文库准备步骤允许仅使用ng级DNA即可完成文库构建。
[0005] 本发明是通过以下技术方案实现的,本发明包括以下步骤:
[0006] 第一步、基因组DNA的提取:利用组织DNA提取试剂盒提取基因组DNA,利用限制性内切酶(Restriction enzyme)对基因组DNA进行消化处理(Digestion),得到限制性片段;
[0007] 所述的组织是指:猪耳组织,具体取自猪耳尖边缘处。
[0008] 所述的基因组DNA经过琼脂糖凝胶电泳检测及260nm/280nm纯度检测,且稀释成50~100ng/μL备用;
[0009] 所述的限制性内切酶优选为甲基化敏感限制性内切酶,进一步优选为AvaII;
[0010] 第二步、使用T4DNA连接酶对限制性片段连接上DNA条形码-接头(DNA Barcode Adapter),得到DNA条形码-接头的序列对;
[0011] 所述的接头(DNA Barcode Adapter)由正链和负链组成,具体为:
[0012] 正链:5’ACACTCTTTCCCTACACGACGCTCTTCCGATCT3’,
[0013] 负链:5’AGATCGGAAGAGCGGTTCAGCAGGAATGCCGAG3’。
[0014] 所述的DNA条形码包括72个序列,具体为:
[0015]AACT CCTAC TTCTC AATATGC ATTAATT CTTGCTT
CAGA CTGTA ACCTAA ATGAAAC ATTGA GAACTTC
CGAT GAGGA ATATGT CGGTAGA CATCGT GCTGTGGA
GATC GGAAC CCAGCT GTCGATT CCACAA GGACCTA
GCGT GGTGT GAGATA TCGAAGA CCGGATAT GGATTGGT
GTAA GTATT GCCAGT AAAAGTT CGCGGAGA GTTGAA
TCAC GTCAA GCTCTA AACCGAGA CGCTGAT TAGGAA
TGCA TAATA GGTTGT ACGACTAC CGCTT TAGGCCAT
ACAAA TACAT TAACGA ACGTGTT CGTGTGGT TATTTTT
AGCCC TCACC TGGCTA AGGC CTAGC TCTCAGTC
AGGAT TCGTT TTCAGA AGTGGA CTATTA TCTGTGA
CATCT TGCGA AACGCCT ATGCCT CTCC TTCCTGGA
[0016] 所述的DNA条形码-接头的序列对包括正链和负链,具体为:
[0017] 正链:5’ACACTCTTTCCCTACACGACGCTCTTCCGATCTXXXXX3’,
[0018] 负链:5’GWCYYYYYAGATCGGAAGAGCGGTTCAGCAGGAATGCCGAG3’,
[0019] 其中:正链中的XXXXX代表barcode序列,负链中YYYYY代表barcode互补序列,W代表碱基A或T。
[0020] 第三步、将DNA条形码-接头的序列对进行混合,然后以混合物作为模板进行PCR扩增,扩增后的产物经琼脂糖凝胶电泳后回收DNA片段作为测序文库,采用芯片分析系统进行最终的质量检测和测序。
[0021] 所述的PCR扩增中所采用的引物对包括:
[0022] 引物序列1.1:
[0023] 5'AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT3';
[0024] 引物序列2.1:
[0025] 5'CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT3'。
[0026] 所述的测序文库为经琼脂糖凝胶电泳回收得到的300~400bp的DNA片段。
[0027] 所述的芯片分析系统是指Agilent2100bioanalyzer。
[0028] 本发明进一步涉及一种用于远交群体基因分型的测序文库构建试剂盒,该试剂盒包括:
[0029] 1)引物序列1.1和引物序列2.1:
[0030] 引物序列1.1:
[0031] 5'AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT3';
[0032] 引物序列2.1:
[0033] 5'CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT3'。
[0034] 2)PCR聚合酶混合物,其组分为:0.1U/μL、0.5mM dNTP混合物、1×缓冲液,其中缓冲液成分为:10mM Tris-HCl、50mM KCl、1mM MgCl2;
[0035] 3)限制性核酸内切酶AvaII(10,000U/mL)及其相应的缓冲液,其中缓冲液成分为:50mM KAc、20mM Tris-Ac、10mM Mg(Ac)2、1mM DDT,该缓冲液的pH为7.9,温度为25℃;
[0036] 4)T4DNA连接酶(400,000U/mL);
[0037] 5)包含72个序列的DNA条形码-接头序列对,每对序列结构为:
[0038] 正链:5’ACACTCTTTCCCTACACGACGCTCTTCCGATCTXXXXX3’,
[0039] 负链:5’GWCYYYYYAGATCGGAAGAGCGGTTCAGCAGGAATGCCGAG3’,
[0040] 其中:正链中XXXXX代表barcode序列,负链中YYYYY代表barcode互补序列,W代表碱基A或T。
[0041] 所述的试剂盒中试剂均可通过生物公司或试剂公司购买得到。
[0042] 本发明针对现有文库构建方法RAD-seq步骤繁琐,GBS、MSG以及WGR方法覆盖度低、群体特异性强等不足,优化了文库构建步骤,实现了用于系谱不清晰、参考基因组相对不完善、没有单体型图的远交群体基因分型方案。本发明文库构建方法属高通量基因分型(High-throughput genotyping)技术,该技术操作简单、灵活,检测通量高、检测成本低,特别适用于高度杂合的(Highly heterozygous)二倍体(Diploid)物种基因分型,本发明方法有效解决了远交群体物种高通量基因分型个体间片段变异大、测序深度低以及基因分型准确性低等问题,具有良好的应用前景。

附图说明

[0043] 图1是文库构建中片段连接示意图;
[0044] 图2是高质量DNA电泳图;
[0045] 图3是高质量DNA经AvaII限制性内切酶消化后电泳图;
[0046] 图4是文库构建质量控制检测图;
[0047] 图5是测序产生的reads中碱基的质量得分(Quality score)图;
[0048] 图6是测序产生的高质量(High quality)reads在个体间的分布图;
[0049] 图7是测序产生的高质量reads在染色体上的分布图;
[0050] 图8是测序产生的唯一定位reads占基因组百分比;
[0051] 图9是发现的SNP在染色体上的分布图。

具体实施方式

[0052] 下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0053] 实施例1
[0054] 基于基因组简化与二代测序DNA文库构建方法的建立。
[0055] 本实施例选择杂合二倍体长白猪(Landrace)和大白猪(Large white)为实验材料,基于基因组简化与二代测序DNA文库构建基本操作流程见图1,包括如下步骤:
[0056] 第一步、基因组DNA的提取:采集猪耳组织样,利用组织样DNA提取试剂盒提取基因组DNA,由图2琼脂糖凝胶电泳显示DNA无蛋白和RNA污染,完整性较好。DNA样品被稀释成~50ng/μL备用;
[0057] 第二步、基因组DNA片段化
[0058] 利用甲基化敏感限制性内切酶(Restriction enzyme)AvaII对第一步中提取的高质量基因组DNA进行消化(Digestion),限制性内切酶AvaII识别序列如下:
[0059] 5’-G↓GWCC-3’
[0060] 3’-CCWG↑G-5’
[0061] 箭头“↓”和“↑”表示限制性内切酶AvaII酶切位点,“W”代表A或T。
[0062] AvaII消化反应体系为:
[0063] 基因组DNA 100ng
[0064] AvaII(10U/μL) 5U
[0065] 10×buffer 1.0μL
[0066] 总反应体积 10μL
[0067] 混合体系置于37℃恒温水浴孵育~6小时。
[0068] 图3显示AvaII消化后2.0%琼脂糖凝胶电泳成相对均匀向下弥散带,200~300bp目的片段范围无明显的重复切割序列,适合第三步Barcode-adapters连接反应要求。
[0069] (3)连接Barcode-adapters
[0070] 使用T4DNA连接酶对第二步中的限制性片段连接上Barcode-adapter;其中barcode序列为72种,分别为:
[0071]AACT CCTAC TTCTC AATATGC ATTAATT CTTGCTT
CAGA CTGTA ACCTAA ATGAAAC ATTGA GAACTTC
CGAT GAGGA ATATGT CGGTAGA CATCGT GCTGTGGA
GATC GGAAC CCAGCT GTCGATT CCACAA GGACCTA
GCGT GGTGT GAGATA TCGAAGA CCGGATATGGATTGGT
GTAA GTATT GCCAGT AAAAGTT CGCGGAGAGTTGAA
TCAC GTCAA GCTCTA AACCGAGA CGCTGAT TAGGAA
TGCA TAATA GGTTGT ACGACTAC CGCTT TAGGCCAT
ACAAA TACAT TAACGA ACGTGTT CGTGTGGTTATTTTT
AGCCC TCACC TGGCTA AGGC CTAGC TCTCAGTC
AGGAT TCGTT TTCAGA AGTGGA CTATTA TCTGTGA
CATCT TGCGA AACGCCTATGCCT CTCC TTCCTGGA
[0072] adapter序列为一对寡核酸序列:
[0073] 正链:5’ACACTCTTTCCCTACACGACGCTCTTCCGATCTXXXXX3’,
[0074] 负链:5’GWCYYYYYAGATCGGAAGAGCGGTTCAGCAGGAATGCCGAG3’,
[0075] 其中正链中XXXXX代表barcode序列,负链中YYYYY代表barcode互补序列,W代表碱基A或T。以barcode碱基序列AACT为例显示72种barcode-adapter结构:
[0076] 正链:5’ACACTCTTTCCCTACACGACGCTCTTCCGATCTAACT3’
[0077] 负链:5’GWCAGTTAGATCGGAAGAGCGGTTCAGCAGGAATGCCGAG3’,
[0078] 连接反应及结果示意图见图1.
[0079] (4)建池(Pool)
[0080] 将第三步中连接好的片段的所有个体样品进行混合。
[0081] (5)PCR
[0082] 以第四步中混合物作为模版进行PCR;
[0083] PCR扩增反应中使用的引物序列根据Illumina公司提供序列,引物包括primer1.1和primer2.1,其碱基序列分别为:
[0084] Primer1.1:
[0085] 5'AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT[0086] Primer2.1:
[0087] 5'CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT[0088] 引物由生物工程公司合成。
[0089] PCR扩增体系:
[0090] 基因组DNA(第四步混合物) 5.0μL
[0091] PCR phusion mix 25.0μL
[0092] Primer1.1 10pmol
[0093] Primer2.1 10pmol
[0094] 用ddH2O补充PCR反应体系至50.0μL。
[0095] PCR反应条件为:94℃预变性5min;后进入循环程序:94℃变性30s、65℃退火30s、72℃延伸30s,共计25个循环;72℃延伸10min,4℃保存待用。
[0096] (6)片段选择(Fragments selection)
[0097] 将第五步中PCR产物进行2.0%琼脂糖凝胶电泳,电泳缓冲液为新鲜配制的1.0×TAE,电泳电压为5V/cm,电泳时间为80min。使用Tanon-2500凝胶成像系统观察、拍照,由于测序文库为200~300bp范围,但经过第三步barcode-adapter连接和第五步PCR反应增加了目的片段的长度,大约120个bp,因此在紫外灯下根据DNA marker切割300~
400bp片段范围构建DNA测序库。
[0098] (7)文库质量控制(Quality control)
[0099] 将第六步中选择的测序文库在Agilent2100bioanalyzer上进行质量检测,检测结果如图4所示,片段范围基本符合300~400bp范围,由于琼脂糖凝胶电泳分辨率相对较低,在两翼出现轻微延伸为正常结果。
[0100] (8)测序(Sequence)
[0101] 第七步中通过质量检测的文库稀释成适当浓度进行测序,浓度稀释倍数根据测序中簇生成(Cluster generation)效率而定。
[0102] 从图2~5结果可见,本实施例结果可靠。
[0103] 实施例2
[0104] 高通量猪全基因组SNP检测。
[0105] 利用基于基因组简化与二代测序DNA文库构建试剂盒进行研究。基于基因组简化与二代测序DNA文库构建试剂盒包含:
[0106] 碱基序列如下的Primer1.1引物和Primer2.1引物;
[0107] Primer1.1:
[0108] 5'AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT[0109] Primer2.1:
[0110] 5'CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT[0111] PCR phusion mix;
[0112] 限制性核酸内切酶AvaII及其相应的缓冲液;
[0113] T4DNA连接酶;
[0114] 72对barcode-adapter序列,每对序列结构为:
[0115] 正链:5’ACACTCTTTCCCTACACGACGCTCTTCCGATCTXXXXX3’,
[0116] 负链:5’GWCYYYYYAGATCGGAAGAGCGGTTCAGCAGGAATGCCGAG3’,
[0117] 其中正链中XXXXX代表barcode序列,负链中YYYYY代表barcode互补序列,W代表碱基A或T。以barcode碱基序列AACT为例显示72种barcode-adapter结构:
[0118] 正链:5’ACACTCTTTCCCTACACGACGCTCTTCCGATCTAACT3’
[0119] 负链:5’GWCAGTTAGATCGGAAGAGCGGTTCAGCAGGAATGCCGAG3’,
[0120] 按照实施例1中第一步提取待检测猪基因组DNA;按照实施例1中第二步进行特异性基因组DNA片段化;按照实施例1中第三步进行Barcode-adapter连接;按照实施例1中第四步进行样品池构建;按照实施例1中第五步进行PCR反应;按照实施例1中第六步进行片段选择;按照实施例1中第七步进行文库质量控制;按照实施例1中第八步进行测序。
[0121] 全基因组高密度SNP标记是许多研究工作的基础,如全基因组关联分析(Genome-wide association study,GWAS)、基因组选择(Genomic selection)以及遗传作图(Genetic map)等,GWAS是在全基因组层面揭示遗传机制的重要研究方法。在中国地方猪种中,其基因组连锁不平衡(Linkage disequilibrium,LD)水平平均~10kb,根据现有版本(SGSC Sscrofa9.2)猪基因组参考序列大小为2.8Gb,因此需要大约28万个标记(Marker)才能满足要求,大约需要测定2%基因组。
[0122] 测序结果显示,每个Flow cell lane产生380,971,530条原始reads(Raw reads),每条reads长度为101bp,每条reads上各碱基平均质量得分如图5所示,从中可以看出101个碱基中每个位置碱基平均质量得分(Quality score)均大于20(20代表该位置的碱基测定错误率为1%),其中前65碱基中每个位置碱基平均质量得分均大于30(30代表该位置的碱基测定错误率为1‰),在原始reads中,有361,611,915条reads即大约94.9%的reads为高质量(High-quality)reads(高质量reads指带有正确barcode和酶切突出(Overhang)序列GWC,以及前80碱基未出现Ns,且非adapter/adapter dimer序列),高质量reads在72个体间的分布见图6,个体间产生reads数的变异系数约为44%,而MSG方法产生数据在个体间的变异系数为89%,由此可以看出本文库构建方法可产生较高质量的结果。产生的reads在基因组上的分布情况见图7,显示整体较为均一,仅在少数染色体上出现较大变异,这可能与染色体的大小及组成有关。在高质量reads中,大约88%的reads能够通过Burrows-Wheeler alignment(BWA)工具map到参考基因组上。如图8所示,产生数据大约覆盖基因组的2.3%,通过本实验室开发的与GGRS法配套的iBLUP统计分析软件,共检测到403,928SNP位点,SNP平均密度~18.52SNPs/100kb,SNP在染色体上的分布见图9。研究成本~500元人民币/个体,而porcineSNP60大约产生6万个位点,价格为大约平均为2000元人民币/个体。
[0123] 从以上可以看出,使用本文库构建方案可以在相对低的研究成本下,获得理想的实验数据,特别是高度杂合的远交群体物种,有良好的应用价值和推广前景。