一种用于构建16SrRNA基因扩增子测序文库的引物组及构建方法转让专利

申请号 : CN201711227482.4

文献号 : CN107829146B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 伍泳彰陈杰

申请人 : 广州赛哲生物科技股份有限公司

摘要 :

本发明公开了一种用于构建16S rRNA基因扩增子测序文库的四重标签引物组,所述四重标签引物组由第一步PCR两重标签引物对和第二步PCR两重标签引物对组成;所述第一步PCR两重标签引物对的上游引物的序列为SEQ ID NO:1~8中的任一条,下游引物的序列为SEQ ID NO:9~20中的任一条;所述第二步PCR两重标签引物对的上游引物的序列为SEQ ID NO:21~44中的任一条,下游引物的序列为SEQ ID NO:45~68中的任一条。本发明所提供的四重标签引物组中增加了平衡碱基序列,增加了文库多样性,提高了测序质量,在上机测序时仅需混合少量PhiX文库,并进行错位测序,减少了测序通量的浪费,保证了测序质量。

权利要求 :

1.一种用于构建 16S rRNA 基因扩增子测序文库的四重标签引物组,其特征在于,所述四重标签引物组由第一步 PCR 两重标签引物对和第二步 PCR 两重标签引物对组成;

所述第一步 PCR 两重标签引物对的上游引物的序列为SEQ ID NO:69~76中的任一条,下游引物的序列为SEQ ID NO:77~88中的任一条;所述第二步 PCR两重标签引物对的上游引物的序列为SEQ ID NO:21~44 中的任一条,下游引物的序列为 SEQ ID NO:45~68 中的任一条。

2.权利要求 1 所述四重标签引物组在构建 16S rRNA 基因可变区 V4~V5 区扩增子测序文库中的应用。

3.一种构建 16S rRNA 基因扩增子测序文库的方法,其特征在于,包括以下步骤:S1.待测样本基因组提取与质量控制;

S2.第一步 PCR 反应:以 S1 的待测样本基因组为模板,利用权利要求 1 所述的第一步 PCR 两重标签引物对进行 PCR 扩增反应并检测扩增产物,选取在480bp 左右有单一条带的扩增产物进行下一步反应;

S3.第二步 PCR反应:以 S2 中选取的扩增产物为模板,利用权利要求 1 所述的第二步 PCR 两重标签引物对进行 PCR 扩增反应并检测扩增产物,选取在551bp 左右有单一条带的扩增产物进行下一步反应;

S4.文库定量及纯化:对S3 中选取的扩增产物进行定量、混池,并进行纯化;

S5.向构建好的 16S rRNA 基因扩增子测序文库中加入 5%PhiX 文库,上机测序;

所述第一步 PCR 反应的条件为:98℃ 30s;98℃ 10s,68℃ 15s,72℃ 45s,2 个循环;

98℃ 10s,55℃ 15s,72℃ 45s,20 个循环;72℃ 10min;4℃保存;

所述第二步 PCR 反应的条件为:98℃ 30s;98℃ 10s,65℃ 15s,72℃ 45s,2 个循环;

98℃ 10s,55℃ 15s,72℃ 45s,6 个循环;72℃ 10min;4℃保存。

说明书 :

一种用于构建16SrRNA基因扩增子测序文库的引物组及构建

方法

技术领域

[0001] 本发明涉及微生物基因高通量测序技术领域,具体地,涉及一种用于构建16S rRNA基因扩增子测序文库的引物组及构建方法。

背景技术

[0002] 随着测序技术的不断改进,微生物基因高通量测序技术已日趋成熟。扩增子测序是一种对保存有生物遗传信息的多态性基因区域(如16S、18S、ITS基因)的靶向测序方法,
在建库过程中,需要先对目标区域进行靶标扩增,然后再对PCR产物进行建库测序。16S 
rRNA测序能较低成本地对多样本微生物物种群落组成进行评估,几乎不受宿主基因组污染
影响,但也存在以下不足:(1)测序信息量区域较少,在具有生物意义的信息识别和解释上
存在不足;(2)在测序实验前需要靶标PCR扩增和多样品混合建库,易引入实验因素导致的
结果偏差;(3)双区或多区的扩增子测序区域较长,而生物分析上要求单条序列一次性测
通,不能进行实验打断,因此对测序平台的选择较为局限,目前满足双端测序的仪器仅有
illunima Hiseq2500和illunima Miseq;(4)微生物扩增子文库测序的都为统一基因的区
域,文库片段长、多样性低,常导致测序数据低质量,目前的两大主流平台,光学系统的
illunima平台和半导体系统的Ion Torrent平台测序都面临着硬件挑战。
[0003] 为了解决16S rRNA基因扩增子测序在准确性、成本、样品吞吐量、数据质量等方面的问题,以促进对复杂微生物群落的研究,研究者所做的工作主要体现在以下三方面:(1)
16S rRNA高突变区选择:对于常规环境、人体组织微生物样本选择16S rRNA V4区作为靶标
的最多,其单区分辨率最高,但却只能获得单区信息;最早的长读长测序仪罗氏454平台曾
多次发表针对V1~V3区的文章,但现已退出市场,目前的测序仪无法达到一次测通V1~V3
区的600bp以上;目前有众多研究者采用高可变区V3、V4区进行搭配使用,但是V3~V4区位
点为314~806,长度约500~550bp,目前仅有Miseq PE300测序类型能满足测序要求,且常
常面临着长读长reads 3’测序末端质量低下,导致read1和read2无法拼接,数据报废的风
险;经研究者长期的验证,V4~V5区与V3~V4具有同样的高可变区分辨率,特别适合于常规
环境、人体组织微生物样本,能鉴定到属或种。V4~V5的位点为515~907,长度约392bp,可
广泛适用于通量较大、成本低的illumina hiseq2500PE250平台,和速度快、FDA认证具有临
床产品开发意义的illumia MiSeq PE300测序平台。(2)建库策略方面:16S扩增子测序常采
用对多个样品加标签进行混池建库的方法进行测序,目前主流方法主要有PCR产物建库法、
一步扩增法和两步扩增法。其中,PCR产物建库法:使用5’端或3’端的单端或双端含有约6~
8bp的标签(index)的靶标的通用引物对基因组进行扩增,纯化靶标扩增产物,使用Qubit或
qPCR方法进行定量,将约20~40个样本等量混合后进行构建一个普通DNA文库,此法引物较
短,PCR扩增的保真效果好,但实验步骤繁琐,且需要经过多步的DNA建库环节,时间长、成本
高。一步扩增法:使用含带有标签的单链测序接头和通用引物一起合成,在靶标扩增的同
时,将PCR产物带上测序所需要的接头,即可直接得到文库,操作简便、速度快、成本低,但带
上完整测序接头的单条引物长达90bp,在PCR扩增环节容易导致扩增效率低(如扩增失败,
总量偏低),出现引物二聚体、杂带,甚至会导致数据分析时的样品失真,目前关于一步扩增
法的研究虽然较多,但均不能有效解决该问题。两步扩增法:使用5’端和3’端含有部分单链
接头序列的通用引物进行第一步PCR扩增,然后对第一步能成功特异扩增的产物,使用含有
标签和完整单链接头的引物进行第二步扩增,即可得到文库,此两步法不需要普通DNA文库
构建、速度快、成本低、方便不同样品间灵活混池、个别样品灵活补测。两步法的引物设计组
合最多,如标签的数量、位置,部分单链接头序列的长度、第二步PCR接头的长度等,会导致
不同使用者对建库效果的偏差,如引物设计和实验反应条件不适当,两轮PCR会导致扩增偏
好,扩增错误放大。(3)实验反应参数:实验参数与样本类型、建库策略、实验室试剂偏好有
关,需组合出一套适合特定实验的参数。
[0004] 除上述三方面外,降低成本和大规模测序往往还存在一个扩增子文库多样性低的上机问题。常规使用平台Hiseq2500和MiSeq的微生物扩增子文库,基因不同区域因读长跨
度大,影响文库定量,因而不能混合上机,只能采取扩增子单一基因单一区域扩增,显得文
库复杂度极低。如illunima测序前5个循环,测序的四种碱基不接近25%,否则会导致测序
失败;测序过程中,某个测序长度位点只测到单一碱基,因荧光信息号无强弱对比,会导致
测序质量低下;需加入25~50%的PhiX平衡文库,但其存在会极大的浪费测序通量。
[0005] 因此,针对上述问题,迫切需要对现有的16S rRNA基因扩增子测序文库构建方法进行优化改进,解决序列碱基复杂度低等问题,以提供一种高效快捷、准确灵活、低成本、满
足大规模样品的16S rRNA基因扩增子测序文库构建的方法。

发明内容

[0006] 本发明为了克服现有技术的上述不足,提供一种用于构建16S rRNA基因扩增子测序文库的四重标签引物组,充分利用二代测序技术的特点,和微生物群落组成的扩增子文
库特征,突破测序平台固有的限制,以解决序列碱基复杂度低等问题。
[0007] 本发明的另一目的在于提供上述任一所述四重标签引物组在构建16S rRNA基因可变区V4~V5区扩增子测序文库中的应用。
[0008] 本发明的另一目的在于提供一种构建16S rRNA基因扩增子测序文库的方法。
[0009] 为了实现上述目的,本发明是通过以下方案予以实现的:
[0010] 一种用于构建16S rRNA基因扩增子测序文库的四重标签引物组,所述四重标签引物组由第一步PCR两重标签引物对和第二步PCR两重标签引物对组成;
[0011] 所述第一步PCR两重标签引物对的上游引物的序列为SEQ ID NO:1~8中的任一条,下游引物的序列为SEQ ID NO:9~20中的任一条;所述第二步PCR两重标签引物对的上
游引物的序列为SEQ ID NO:21~44中的任一条,下游引物的序列为SEQ ID NO:45~68中的
任一条;
[0012] 所述第一步PCR两重标签引物对中的N和V代表由0~6个碱基组成的平衡碱基;其中,N选自以下7种上游平衡碱基中的任一种,V选自以下7种下游平衡碱基中的任一种:
[0013]序号 上游平衡碱基(5’‑3’) 下游平衡碱基(5’‑3’)
1 空白 空白
2 T A
3 GT TC
4 CGA CTA
5 TGTA GATG
6 TGCGA TCTCA
7 GAGTGG TTCTCT
[0014] 本发明以两步PCR法为建库策略,结合靶标基因的序列特点,设计了四重标签引物组,所述第一步PCR两重标签引物对由PCR1上游引物和PCR1下游引物组成,按照5’端至3’端
的顺序包括PCR1接头序列、PCR1标签序列、平衡碱基序列、靶标引物。每个样品靶标片段测
序前有49种平衡碱基组合方式,以改变不同样品的文库间测序起点,极大地增加测序每个
Cycles的碱基均一性和复杂度。
[0015] 所述PCR1标签序列由8个碱基组成,标签间不能有连续3个以上的碱基相同,且要求各碱基比例接近25%;优选地,所述PCR1标签序列为表2中8种上游PCR1标签中的任一种
或12种下游PCR1标签中的任一种,共96种组合。
[0016] 所述PCR1接头序列为测序接头的对应完整Read1和Read2部分,位于从测序接头内测方向的index标签第一个碱基后到末端;优选地,所述PCR1接头序列由33个碱基组成,为
PCR1上游接头或PCR1下游接头。
[0017] 所述靶标引物为在16S rRNA V4、V5区基因组保守区,再在通用引物515F或907R的基础上往后延伸两个碱基;优选地,将通用引物515F第9个碱基设置为M,所述M代表简并碱
基A/C,能对常见的环境和人体微生物样品获得最佳的特异性和兼容性。
[0018] 所述第二步PCR两重标签引物对由PCR2上游引物和PCR2下游引物组成,按照5’端至3’端的顺序包括PCR2接头序列、PCR2标签序列、PCR2互补引物。
[0019] 所述PCR2标签序列由8个碱基组成,标签间不能有连续3个以上的碱基相同,且要求各碱基比例接近25%;优选地,所述PCR2标签序列为24种上游PCR2标签中的任一种或24
种下游PCR2标签中的任一种,共576种组合。
[0020] 所述PCR2接头序列为P5接头序列或P7接头序列,可以兼容于所有illumina测序平台。
[0021] 所述PCR2互补引物由20个碱基组成,选择从测序接头内测方向的index标签第一个碱基到第二十个碱基,用部分接头匹配的方法(非全长PCR1接头序列),既能与第一步PCR
产物充分匹配,又能缩短了第二步PCR引物的整体长度,提高引物效率。
[0022] 优选地,所述四重标签引物组共有96×576=555296种组合方式,可标记55296个样本,提高了文库的测序通量。
[0023] 优选地,所述第一步PCR两重标签引物对的合成方式为ULTRAPAGE纯化方式。
[0024] 优选地,所述第一步PCR两重标签引物对的上游引物的序列为SEQ ID NO:69~76中的任一条,下游引物的序列为SEQ ID NO:77~88中的任一条。
[0025] 本发明还请求保护上述四重标签引物组在构建16S rRNA基因可变区V4~V5区扩增子测序文库中的应用。
[0026] 本发明还请求保护一种构建16S rRNA基因扩增子测序文库的方法,包括以下步骤:
[0027] S1.待测样本基因组提取与质量控制;
[0028] S2.第一步PCR反应:以S1的待测样本基因组为模板,利用权利要求1所述的第一步PCR两重标签引物对进行PCR扩增反应并检测扩增产物,选取在480bp左右有单一条带的扩
增产物进行下一步反应;
[0029] S3.第二步PCR反应:以S2中选取的扩增产物为模板,利用权利要求1所述的第二步PCR两重标签引物对进行PCR扩增反应并检测扩增产物,选取在551bp左右有单一条带的扩
增产物进行下一步反应;
[0030] S4.文库定量及纯化:对S3中选取的扩增产物进行定量、混池,并进行纯化;
[0031] S5.向构建好的16S rRNA基因扩增子测序文库中加入5%PiX文库,上机测序;
[0032] 所述第一步PCR反应的条件为:98℃30s;98℃10s,68℃15s,72℃45s,2个循环;98℃10s,55℃15s,72℃45s,20个循环;72℃10min;4℃保存;
[0033] 所述第二步PCR反应的条件为:98℃30s;98℃10s,65℃15s,72℃45s,2个循环;98℃10s,55℃15s,72℃45s,6个循环;72℃10min;4℃保存。
[0034] 优选地,所述第一步PCR反应的体系为:5μL 5×PCR缓冲液、2μL 2.5mM dNTP混合液、0.25μL 2.5U/μL DNA聚合酶、2.5μL 1μM PCR1上游引物、2.5μL 1μM PCR1下游引物、1~
5μL 1ng/μL或10ng/μL样本基因组,加ddH2O补充至25μL。
[0035] 优选地,所述第二步PCR反应的体系为:5μL 5×PCR缓冲液、2μL 2.5mM dNTP混合液、0.25μL 2.5U/μL DNA聚合酶、2.5μL 1μM PCR2上游引物、2.5μL 1μM PCR2下游引物、1~
5μL含有单一靶标条带的PCR1产物,加ddH2O补充至25μL。
[0036] 优选地,所述第一步PCR反应体系中样本基因组的浓度为1ng/μL,体积为2μL;所述第二步PCR反应体系中包括2μL含有单一靶标条带的PCR1产物。
[0037] 与现有技术相比,本发明具有以下有益效果:
[0038] (1)本发明以两步PCR法为建库策略,在四重标签引物组中加入平衡碱基序列,增加了文库多样性,极大提高了测序质量,在上机测序时仅需要混合5%甚至更低的PhiX文
库;同时巧妙地利用微生物扩增子自身的序列特点,进行错位测序,极大地减少了测序通量
的浪费,保证了测序质量。
[0039] (2)本发明所提供的PCR1标签序列扩增时表现出较好的特异性,无引物二聚体杂带产生;PCR2产物可直接进行qPCR定量然后混池上机,与单个PCR产物先经磁珠纯化、然后
单独qPCR定量的效果一致,大大地简化了建库后文库的后处理环节,降低了实验成本,缩短
了时间。
[0040] (3)本发明所提供的四重标签引物组兼容目前主流的illunima测序平台MiSeq PE300和HiSeq PE250,且只需替换Ion Torent平台的DNA测序接头引物,可适用于Ion 
Torrent平台,可以确保每条读长reads一次性测通,四重标签自动化准确地拆分数据。
[0041] (4)本发明所提供的方法通过优化PCR反应条件,先采用高退火温度,获得高特异性目标片段,再以低退火温度来扩增,只需要较低循环数即可保真地扩增出预期总量。
[0042] (5)本发明同时优化了文库构建方法,具有节约成本、高效快捷的优点,灵活简便,反应时间缩短至一天内,即可完成从基因组DNA提取到文库构建,适用于大规模96孔板流水
线操作,适合大规模推广。

附图说明

[0043] 图1为两步PCR法建库的原理图;Adapter‑接头序列,index‑标签序列,Spacer‑平衡碱基序列,Target‑靶标引物,Read‑互补引物序列。
[0044] 图2为Spacer平衡碱基的碱基均一化原理图。
[0045] 图3为实施例2中122例粪便样品中部分样品的第一步PCR产物电泳检测结果。
[0046] 图4为实施例2中116例粪便样品中部分样品的第二步PCR产物电泳检测结果。
[0047] 图5为实施例2中116例粪便样品MiSeq上机测序数据及标签质量统计结果。
[0048] 图6为实施例2中116例粪便样品标签各数据量比例分布结果。
[0049] 图7为对比例1对照组1中10例粪便样品第一步PCR电泳检测结果。
[0050] 图8为对比例1对照组2中12例粪便样品第一步PCR电泳检测结果。
[0051] 图9为两步PCR法建库的简易流程图。

具体实施方式

[0052] 下面结合说明书附图及具体实施例对本发明作出进一步地详细阐述,所述实施例只用于解释本发明,并非用于限定本发明的范围。下述实施例中所使用的试验方法如无特
殊说明,均为常规方法;所使用的材料、试剂等,如无特殊说明,为可从商业途径得到的试剂
和材料。
[0053] 实施例1四重标签引物的设计
[0054] 一、第一步PCR两重标签引物对设计
[0055] 1、靶标引物设计
[0056] 以16S rRNA基因的V4~V5区为靶标,设计靶标引物对,包括上游靶标引物Primer‑F、下游靶标引物Primer‑R,用于靶标序列的扩增。具体设计要求为:(1)位于基因保守区,受
不同的细菌物种间变化较少;(2)碱基均衡,引物特异,能准确扩增出靶标条带。
[0057] 基于设计要求和代表菌群16S基因组数据库校正引物,如以粪便常见革兰式阳性菌艰难梭菌Clostridioides difficile 630,complete genome(ACCESSION:CP010905)和
革兰式阴性菌大肠杆菌Escherichia coli 16S ribosomal RNA,complete sequence
(ACCESSION:J01859)。本发明经大量验证,最优选出一对靶标引物序列如下:
[0058] 引物名称引物序列(5’‑3’)
[0059] Target‑Primer‑F GTGCCAGCMGCCGCGGTAA
[0060] Target‑Primer‑R CCGTCAATTCCTTTGAGTTT
[0061] 其中,M代表简并碱基A/C;
[0062] 经PCR和qPCR检测此引物,均可以特异扩增常见的环境和人体微生物样品16S靶标基因序列,简并引物对物种有较好的兼容性。
[0063] 2、平衡碱基序列设计
[0064] 平衡碱基序列(又称Heterogeneity Spacer),用于改变不同样品的文库间测序起始位点,由0~6个固定碱基组成,在目的序列测序前占位置,发挥平衡和位置落差的效果。
具体设计要求为:(1)不能与靶标引物、文库接头(PCR1接头序列、PCR1标签序列、PCR2接头
序列、PCR2标签序列)有四个碱基上的相同或互补;(2)不能出现连续三个碱基相同;(3)选
择合适的长度,平衡碱基过长会增加引物长度导致靶标扩增失败,组合落差小,则达不到碱
基均一化效果。
[0065] 经与本发明的引物设计模型匹配,用N和V代表由0~6个碱基组成的平衡碱基;其中,N选自以下7种上游平衡碱基中的任一种,V选自以下7种下游平衡碱基中的任一种,共优
选出49种不同碱基个数的平衡碱基组合,如表1所示。在平衡碱基组合足够的情况下,不可
重复使用。
[0066] 表1优选平衡碱基序列表
[0067]
[0068] 由illunima平台进行单区域的微生物扩增子测序上机需要混合50%的PhiX平衡文库方可正常测序。使用本发明平衡碱基的微生物扩增子文库,仅需要混合5%PhiX文库,
常规MiSeq测序质量标准中的Q30即可达75%以上,与常规动植物重测序的测序质量一致。
本发明在四重标签引物中加入平衡碱基序列,通过多个平衡碱基组合同时测序,巧妙地利
用微生物扩增子自身的序列特点,进行错位测序,极大地减少测序通量的浪费,保证了测序
质量。
[0069] 3、PCR1标签序列设计
[0070] PCR1标签序列用于不同样品的靶标产物或文库的标记,以区分来源。适用于同一文库内的多个靶标产物混合建库,或不同文库的多重标签,以增加样品的分辨程度,减少嵌
合体的产生。具体设计要求为:(1)不能与靶标引物相同或互补,以免影响引物发夹结构;
(2)标签间不能有连续3个以上的碱基相同,且要求各碱基比例接近25%;(3)标签为6~
12bp较适宜,过长则增加引物长度负担,过短则分辨率较低。
[0071] 本发明优选出8条上游PCR1标签,12条下游PCR1标签,如表2所示。PCR1标签8×12的标签组合适用于批量化实验的96孔PCR板操作,经6bp、8bp、12bp的上机测序验证,读长为
8bp均可以准确对所有样品进行准确匹配,数据拆分,满足分辨率要求。优选的PCR1标签在
靶标扩增时,均表现出较好的特异性,无引物二聚体杂带产生。
[0072] 表2优选PCR1标签序列
[0073]
[0074] 4、PCR1接头序列设计
[0075] PCR1接头序列含有部分测序接头序列,为PCR1扩增产物和PCR2引物互补的区域,用于在第二步PCR时,通过PCR的方法将PCR产物连接上完整的测序接头。具体设计要求为:
(1)与第二步PCR的内测Read1(互补引物)或Read2部分匹配,序列碱基组成由第二步PCR所
选择的测序接头类型决定;(2)PCR1接头序列要长度合适,及整体引物的碱基组成比例,以
免影响靶标扩增和第二步PCR的扩增效果。
[0076] 本发明根据综合考虑引物设计模型,优选出以下一对PCR1接头序列:
[0077] 引物名称引物序列(5’‑3’)
[0078] PCR1F‑Adapter ACACTCTTTCCCTACACGACGCTCTTCCGATCT
[0079] PCR1R‑Adapter GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC
[0080] PCR1接头序列优选为测序接头的对应完整Read1和Read2部分,位于从测序接头内测方向的PCR1标签序列第一个碱基后到末端。此选择能充分兼顾第二步PCR引物的长度、分
割点和扩增效率,使最短的PCR2引物,在低循环下,高效保真扩增。
[0081] 5、PCR1引物组装与合成
[0082] PCR1引物即为第一步PCR两重标签引物对,包括PCR1接头序列、PCR1标签序列、平衡碱基序列、靶标引物各组分最优组合。本发明综合设计要求和经长期实验验证,优选设计
出8条PCR1上游引物(如表3所示),12条PCR1下游引物(如表4所示)。
[0083] 表3 8条PCR1上游引物序列
[0084]
[0085] 表4 12条PCR1下游引物序列
[0086]
[0087]
[0088] 上述引物的合成要求为ULTRAPAGE纯化方式、无碱基修饰。
[0089] 优选地,PCR1上游引物的序列为表5中SEQ ID NO:69~76中的任一条,PCR1下游引物的序列为表6中SEQ ID NO:77~88中的任一条。
[0090] 表5优选8条PCR1上游引物序列
[0091]
[0092] 表6优选12条PCR1下游引物序列
[0093]
[0094]
[0095] 二、第二步PCR两重标签引物对设计
[0096] 1、PCR2互补引物设计
[0097] PCR2互补引物用于与PCR1接头序列互补部分,依赖互补部分将PCR产物连接上完整的测序接头。具体设计要求为:(1)与PCR1接头序列的部分或全部一致,序列碱基的组成
由选择的第二步PCR接头类型决定;(2)PCR2互补引物序列应长度合适,并考虑第二步PCR的
扩增效果。
[0098] 本发明根据综合考虑引物设计模型,优选出以下一对PCR2互补引物序列:
[0099] 引物名称引物序列(5’‑3’)
[0100] PCR2F‑Read1‑Primer ACACTCTTTCCCTACACGAC
[0101] PCR2R‑Read2‑Primer GTGACTGGAGTTCAGACGTG
[0102] PCR2F‑Primer选择从测序接头内测方向的index标签第一个碱基到第二十个碱基,PCR2R‑Primer选择从测序接头内测方向的index标签第一个碱基到第二十个碱基,采用
部分接头匹配的方法(非全长PCR1接头序列),这样既能与第一步PCR产物充分匹配,又能缩
短了第二步PCR引物的整体长度,提高引物效率。
[0103] 2、PCR2标签序列设计
[0104] PCR2标签序列用于不同样品来源的文库区分,一般有单端(i7index)或双端(i5 index和i7 index)。具体设计要求为:(1)标签间不能有连续3个以上的碱基相同,且要求各
碱基比例接近25%;(2)标签为6~12bp比较适宜,过长则增加引物长度的负担,过短则分辨
率较低。
[0105] 本发明方法优选出24条上游PCR2 i5 index标签,24条下游PCR2 i7 index标签,如表7所示。PCR2标签24×24的标签组合适用于批量化实验的96孔PCR板操作,能满足576个
组合文库同时上机。8bp为最佳illunima测序仪器识别读取的长度,经上机实验验证,标签
样品均可准确拆分。
[0106] 在表7中,上游标签的“index序列”为本发明设计的标签碱基序列,“i5 index上机SampleSheet”为上机测序时填入SampleSheet文件的index序列,与引物合成方向一致;下
游标签的“index序列”为本发明设计的标签碱基序列,“i7 index上机SampleSheet”为上机
测序时填入SampleSheet文件的index序列,与引物合成方向为反向互补。
[0107] 表7优选PCR2标签序列
[0108]
[0109] 3、PCR2接头序列设计
[0110] PCR2测序接头序列是用于与illunima测序仪器芯片上互补的序列,与illunima公司公布的P5接头序列和P7接头序列一致,可以兼容于所有illumina测序平台。
[0111] 本发明方法优选出以下P5接头序列和P7接头序列:
[0112] 引物名称引物序列(5’‑3’)
[0113] PCR2F‑P5‑Adapter AATGATACGGCGACCACCGAGATCTACAC
[0114] PCR2R‑P7‑Adapter CAAGCAGAAGACGGCATACGAGAT
[0115] 经引物组合后,上机测序验证,在前25cycles预读取和600cycles完整读取时,均可以正常识别。
[0116] 4、PCR2引物组装与合成
[0117] PCR2引物即为第二步PCR两重标签引物对,包括PCR2接头序列、PCR2标签序列、PCR2互补引物各组分最优组合。本发明方法综合设计要求和经长期实验验证,优选设计出
24条PCR2上游引物(如表8所示),24条PCR2下游引物(如表9所示)。
[0118] 表8 24条PCR2上游引物序列
[0119]
[0120]
[0121] 表9 24条PCR2下游引物序列
[0122]
[0123]
[0124] 上述引物的合成要求为ULTRAPAGE纯化方式、无碱基修饰。
[0125] 本发明所提供的第一步PCR两重标签引物对共有8×12=96种组合,第二步PCR两重标签引物对共有24×24=576种组合,且第二步PCR两重标签引物对可以根据设计要求准
则继续增加。如四重标签共同组合,可以标记55296个样本,提高了文库的测序通量。
[0126] 为了达到引物的有序使用、长短不一的平衡碱基最优组合,充分发挥出碱基平衡,增加文库多样性的效果。上机前样品和引物的组合应遵守准则如下:
[0127] (1)由于在双标签测序读取时,先读取测序接头的下游标签(index),再读取测序接头上游标签(index),本发明的四重标签序列同样遵循这种原则。在内二重标签(即第一
步PCR两重标签),先对PCR1R‑index进行排序使用,再对PCR1F‑index排序。在外二重标签
(即第二步PCR两重标签),先对PCR2R‑index进行排序使用,再对PCR2F‑index排序。
[0128] (2)确保PCR1F‑index、PCR1R‑index、PCR2F‑index、PCR2R‑index的4重标签不得重复使用,且在PCR2F‑index、PCR2R‑index充足情况下,此最外端测序index不建议重复使用。
部分样品组合方式举例如表10所示:
[0129] 表10部分样品组合方式举例
[0130]序号 样品名称 PCR1F引物 PCR1R引物 PCR2F引物 PCR2R引物
1 FB0001 PCR1F‑V4‑01 PCR1R‑V5‑01 PCR2F‑P5‑01 PCR2R‑P7‑01
2 FB0002 PCR1F‑V4‑01 PCR1R‑V5‑02 PCR2F‑P5‑01 PCR2R‑P7‑02
3 FB0003 PCR1F‑V4‑01 PCR1R‑V5‑03 PCR2F‑P5‑01 PCR2R‑P7‑03
4 FB0004 PCR1F‑V4‑01 PCR1R‑V5‑04 PCR2F‑P5‑01 PCR2R‑P7‑04
5 FB0005 PCR1F‑V4‑01 PCR1R‑V5‑05 PCR2F‑P5‑01 PCR2R‑P7‑05
6 FB0006 PCR1F‑V4‑01 PCR1R‑V5‑06 PCR2F‑P5‑01 PCR2R‑P7‑06
7 FB0007 PCR1F‑V4‑01 PCR1R‑V5‑07 PCR2F‑P5‑01 PCR2R‑P7‑07
8 FB0008 PCR1F‑V4‑01 PCR1R‑V5‑08 PCR2F‑P5‑01 PCR2R‑P7‑08
9 FB0009 PCR1F‑V4‑01 PCR1R‑V5‑09 PCR2F‑P5‑01 PCR2R‑P7‑09
10 FB0010 PCR1F‑V4‑01 PCR1R‑V5‑10 PCR2F‑P5‑01 PCR2R‑P7‑10
11 FB0011 PCR1F‑V4‑01 PCR1R‑V5‑11 PCR2F‑P5‑01 PCR2R‑P7‑11
12 FB0012 PCR1F‑V4‑01 PCR1R‑V5‑12 PCR2F‑P5‑01 PCR2R‑P7‑12
13 FB0013 PCR1F‑V4‑02 PCR1R‑V5‑01 PCR2F‑P5‑01 PCR2R‑P7‑13
14 FB0014 PCR1F‑V4‑02 PCR1R‑V5‑02 PCR2F‑P5‑01 PCR2R‑P7‑14
15 FB0015 PCR1F‑V4‑02 PCR1R‑V5‑03 PCR2F‑P5‑01 PCR2R‑P7‑15
16 FB0016 PCR1F‑V4‑02 PCR1R‑V5‑04 PCR2F‑P5‑01 PCR2R‑P7‑16
17 FB0017 PCR1F‑V4‑02 PCR1R‑V5‑05 PCR2F‑P5‑01 PCR2R‑P7‑17
18 FB0018 PCR1F‑V4‑02 PCR1R‑V5‑06 PCR2F‑P5‑01 PCR2R‑P7‑18
19 FB0019 PCR1F‑V4‑02 PCR1R‑V5‑07 PCR2F‑P5‑01 PCR2R‑P7‑19
20 FB0020 PCR1F‑V4‑02 PCR1R‑V5‑08 PCR2F‑P5‑01 PCR2R‑P7‑20
21 FB0021 PCR1F‑V4‑02 PCR1R‑V5‑09 PCR2F‑P5‑01 PCR2R‑P7‑21
22 FB0022 PCR1F‑V4‑02 PCR1R‑V5‑10 PCR2F‑P5‑01 PCR2R‑P7‑22
23 FB0023 PCR1F‑V4‑02 PCR1R‑V5‑11 PCR2F‑P5‑01 PCR2R‑P7‑23
24 FB0024 PCR1F‑V4‑02 PCR1R‑V5‑12 PCR2F‑P5‑01 PCR2R‑P7‑24
25 FB0025 PCR1F‑V4‑03 PCR1R‑V5‑01 PCR2F‑P5‑02 PCR2R‑P7‑01
26 FB0026 PCR1F‑V4‑03 PCR1R‑V5‑02 PCR2F‑P5‑02 PCR2R‑P7‑02
27 FB0027 PCR1F‑V4‑03 PCR1R‑V5‑03 PCR2F‑P5‑02 PCR2R‑P7‑03
28 FB0028 PCR1F‑V4‑03 PCR1R‑V5‑04 PCR2F‑P5‑02 PCR2R‑P7‑04
29 FB0029 PCR1F‑V4‑03 PCR1R‑V5‑05 PCR2F‑P5‑02 PCR2R‑P7‑05
30 FB0030 PCR1F‑V4‑03 PCR1R‑V5‑06 PCR2F‑P5‑02 PCR2R‑P7‑06
31 FB0031 PCR1F‑V4‑03 PCR1R‑V5‑07 PCR2F‑P5‑02 PCR2R‑P7‑07
32 FB0032 PCR1F‑V4‑03 PCR1R‑V5‑08 PCR2F‑P5‑02 PCR2R‑P7‑08
33 FB0033 PCR1F‑V4‑03 PCR1R‑V5‑09 PCR2F‑P5‑02 PCR2R‑P7‑09
34 FB0034 PCR1F‑V4‑03 PCR1R‑V5‑10 PCR2F‑P5‑02 PCR2R‑P7‑10
35 FB0035 PCR1F‑V4‑03 PCR1R‑V5‑11 PCR2F‑P5‑02 PCR2R‑P7‑11
36 FB0036 PCR1F‑V4‑03 PCR1R‑V5‑12 PCR2F‑P5‑02 PCR2R‑P7‑12
[0131] 实施例2
[0132] 一种构建16S rRNA基因扩增子测序文库的方法,主要包括以下步骤:样本基因组提取与质量控制,加入实施例1中任一所述四重标签引物组,第一步PCR反应及产物检测,第
二步PCR反应及产物检测,文库定量及磁珠纯化,在16S rRNA基因扩增子测序文库中加入
5%PiX文库上机测序。每个样品均需要通过第一步PCR两重标签引物对进行靶标扩增、第二
步PCR两重标签引物对进行补全测序接头,共两轮PCR完成后,检测合格,即可得到完整的
16S rRNA基因扩增子测序文库。具体步骤如下:
[0133] 1、粪便基因组提取
[0134] (1)基因组提取
[0135] 通过试剂盒(OMEGA cat.D4015)提取人粪便的基因组DNA。为了保证粪便样品中革兰式阳性菌能充分裂解,而且又不至于严重降解DNA,在操作步骤3中于70℃孵育10min后,
温度增加至85℃。
[0136] (2)基因组质量控制
[0137] 对提取后的基因组DNA使用微量紫外分光光度计和1%琼脂糖凝胶电泳检测浓度和纯度。DNA在OD260处有显著吸收峰,OD260/OD280比值为1.8~2.0,浓度大于10ng/μL。电泳目
标条带在约15kb处有单一清晰条带,在500bp以下无明显的连续降解片段,说明基因组DNA
质量合格。
[0138] 2、第一步PCR(PCR1)反应及产物检测
[0139] (1)PCR1反应体系
[0140] 按照步骤1的方法,对南方医科大学南方医院提供的122例心血管疾病的患者粪便进行DNA样本的提取和质量控制,在冰上依次加入PCR的反应体系各成分,如表11所示,短暂
离心后直接进行PCR反应,并设置以水为模板的阴性对照作为实验质控。
[0141] 表11 PCR1扩增反应体系
[0142]
[0143] 注:PCR1F‑V4‑N*、PCR1R‑V5‑N*为根据表10的样品与引物的组合,选择对应的第一步PCR两重标签引物名称。
[0144] 本发明研究了模板浓度对PCR1反应的影响,反应体系中粪便基因组DNA加入量为1~5μL、浓度为1ng/μL或加入量为1~5μL、浓度为10ng/μL,综合考虑样品材料获取难易程
度、PCR特异性、PCR产物得率、第二步PCR起始模板均一化操作,本发明优选反应体系的模板
起始量为2μL、浓度为1ng/μL。同时要求基因组DNA浓度大于10ng/μL,这样能较方便准确判
断样品的浓度和质量。所有样品统一稀释至1ng/μL,可以降低环境样品中抑制物及宿主基
因组的污染,有利于增强PCR特异性,便于后续均一化文库定量。
[0145] 该体系优选兼具高保真性和高扩增效率的PCR用DNA聚合酶(购自Takara Bio),与最优化的反应浓度的底物结合,可以实现对广泛靶序列的高保真性、高灵敏度、高特异性、
高成功率的扩增。反应体系总体积为25μL、含有200μM each dNTP、0.04μM反应标签引物,其
较低的底物浓度和适宜的反应体积搭配,更能保证体系的稳定和效率。
[0146] (2)PCR1扩增反应条件
[0147] 预先开启PCR热盖,热盖达到98℃后,快速放入样品到反应槽上,启动反应。反应体系如表12所示:
[0148] 表12 PCR1扩增反应条件
[0149]
[0150] 1)优选退火温度:根据8条PCR1F‑V4‑N上游引物、12条PCR1R‑V5‑N下游引物的平均TM值为73℃,按TM值±10℃,作为退火温度范围。使用梯度PCR法,使用3组40管相同样品来
源的PCR反应体系,按PCR反应槽,从左到右,从A到L依次排序,每个孔温度从最开始73℃依
次递减0.5℃,到53℃。按PCR反应体系按反应体系98℃,30s;(98℃,10s;73~53℃,15s;72
℃,45s,22cycles),72℃,10min。分析不同退火温度的PCR效果,发现68℃时引物特异性最
好,55℃时产量较高。
[0151] 因此,本发明优选第一步PCR反应体系,先进行2个循环的高温退火温度,能得到较为特异性匹配的模板,再于55℃条件下退火,能在较低循环数里,稳定得到所需总量。
[0152] 2)循环数与延伸时间:经多次实验验证,在45s能完全延伸完整靶标片段,且时间不过长。20个循环即可得到靶标片段电泳检出水平,且极大地去除宿主基因组的污染。
[0153] 延伸时间过长,循环数过多,会增加反应时间和非特异条带的产生,影响第二步PCR反应。
[0154] (3)PCR1产物检测
[0155] 直接取PCR1产物2μL,使用1%琼脂糖凝胶电泳检测,于120V下电泳40min,观察目的条带是否在约480bp处有单一的靶标扩增条带,满足要求的合格样品继续进行第二步PCR
扩增。
[0156] 不同种类细菌因物种进化,其16S V4~V5区可能有插入缺失,碱基长度允许±50bp范围内波动。目的条带长度计算方法:引物位点(907~515bp)+平衡碱基(0~6bp)+
PCR1双端index(8+8bp)+外延接头(33+33bp)≈480bp。
[0157] 部分样品第一步PCR产物电泳检测结果如图3所示,图中泳道数字为122例粪便样品第一步PCR产物的部分结果。从质检结果可以看出,122例第一步PCR产物,符合预期在
480bp左右有单一靶标条带的有116例。推测部分样品,由于细菌基因组降解或者含有PCR抑
制物原因导致扩增失败,需要重新提取或纯化基因组DNA。检测结果说明,本发明方法的第
一步PCR能扩增出预期靶标条带,合格率达95.08%,已远远超出一步PCR建库法的合格水
平。
[0158] 3、第二步PCR(PCR2)反应及产物检测
[0159] (1)靶标产物PCR2反应体系
[0160] 选择第一步PCR产物中合格的116例产物作为模板,在冰上依次加入PCR的反应体系各成分,如表13所示,短暂离心后直接进行PCR反应。并设置以水为模板的阴性对照作为
实验质控。优选的PCR反应体系参数与16S rRNA V4~V5靶标扩增PCR体系基本一致,含有单
一靶标条带的PCR产物不需要经过纯化,直接取2μL即可作为起始模板。
[0161] 表13靶标产物PCR2反应体系
[0162]
[0163] 注:PCR2F‑P5‑N*、PCR2R‑P7‑N*为根据表10的样品与引物的组合,选择对应的第二步PCR两重标签引物名称。
[0164] (2)PCR2扩增反应条件
[0165] 预先开启PCR热盖,热盖达到98℃后,快速放入样品到反应槽上,启动反应。反应体系如表14所示:
[0166] 表14 PCR2扩增反应条件
[0167]
[0168] 1)优选退火温度:根据24条PCR2F‑P5‑N上游引物、PCR2R‑P7‑N下游引物的TM值为71℃,按TM值±10℃,作为退火温度范围。使用梯度PCR法,使用3组40管相同样品来源的PCR
反应体系,按PCR反应槽,从左到右,从A到L依次排序,每个孔温度从最开始73℃依次递减
0.5℃,到53℃。按PCR反应体系按反应体系98℃,30s;(98℃,10s;73~53℃,15s;72℃,45s,
8cycles),72℃,10min。分析不同退火温度的PCR效果,得出65℃时引物特异性最好,55℃时
产量较高。
[0169] 因此,本发明优选第二步PCR体系,先进行2个循环的高温退火温度,能得到较为特异性匹配的模板,再于55℃条件下退火,能在较低循环数里,稳定得到所需总量。
[0170] 2)循环数与延伸时间:经多次实验验证,在45s能完全延伸完整靶标片段,且时间不过长,6个低循环即可得到文库纯化后总量200ng左右,此PCR环节几乎完全去除宿主基因
组污染。延伸时间过长,循环数过多,会增加反应时间和非特异条带的产生,导致测序质量
下降。
[0171] (3)PCR2产物检测
[0172] 直接取2μL的PCR2产物,使用1%琼脂糖凝胶电泳检测,于120V下电泳40min,观察目的条带是否在约551bp处有单一的靶标扩增条带,对满足要求的合格样品进行文库定量
和纯化。
[0173] 目的条带长度计算方法:第一步PCR产物(480bp)+P5端上游接头(30bp)+P7端上游接头(25bp)+PCR2双端index(8+8bp)+内测部分接头(20+20bp,不计入)≈551bp。
[0174] 部分样品第二步PCR产物电泳检测结果如图4所示,图中泳道数字为116例粪便样品第二步PCR产物的部分结果。从质检结果可以看出,116例第二步PCR产物551bp左右均有
单一靶标条带,无明显弥散杂带。说明本发明的第二步PCR能扩增出预期靶标条带,合格率
达100%,实现在较低循环数条件下,能稳定匹配第一步PCR的互补接头序列,在扩增时,连
接上完整的测序接头。同时也表明,本发明的第一步PCR高特异的结合靶标片段,得到较纯
的模板,进而提高第二步PCR的扩增特异性。
[0175] 4、文库定量及纯化
[0176] 对第二步PCR产物检测合格的样品,使用qPCR文库绝对定量试剂盒(VAHTS Library Quantification Kit for Illumina,购自Vazyme)进行定量,定量后,按整板qPCR
定量的文库数量,如36个进行等量混池。
[0177] 使用混池后的单个或多个文库,使用样品体积比DNA纯化磁珠(VAHTS DNA Clean Beads,购自Vazyme)比例为(0.65~0.75)X参数进行纯化,优选比例为0.7X。
[0178] 结果表明,第二步PCR产物直接进行qPCR定量然后混池上机,与单个PCR产物先经磁珠纯化,然后单独qPCR定量效果一致。此步骤大大地简化建库后文库的后处理环节并降
低实验成本,时间大大缩短,使从样品基因组DNA到文库构建、文库定量一天内完成,成为可
能。
[0179] 5、文库上机测序
[0180] 使用Miseq测序平台,对116例16S rRNA扩增子文库,加入5%PiX文库上机测序。116例粪便样品MiSeq上机测序数据及标签质量统计结果如图5所示,图中箭头部分表示
Read2(I)、Read3(I)为第二步PCR的i5 index、i7 index,其Q30(Q30代表错误率为0.1%)质
量值分别为93.44%、92.44%;16例粪便样品标签各数据量比例分布结果如图6所示,图中
Index1(i7)、Index2(i5)为第二步PCR的i5 index、i7 index;%Reads Identified(PF)表
示能识别出来(passing filtering过滤后)的比例,其各组合标签比例接近相同,116例组
合标签,及比例均接近1%。结果表明,总体测序质量上,i5 index、i7 index正常识别,测序
质量良好,且各组合标签的质量和文库定量结果较为准确,均一。
[0181] 上机结果显示,测序质量良好,所有样品均可以正确区分,且各样品数据量比例接近均一。由此说明,本发明所提供的一种构建16S rRNA基因扩增子测序文库的方法成功建
立。
[0182] 对比例1
[0183] 设置对照组1和对照组2两组常规PCR反应条件,如表15所示,采用实施例2中第一步PCR(PCR1)靶标扩增方法中的样本、引物组合、PCR1反应体系、及PCR1产物检测方法,进行
对照组PCR1反应。
[0184] 表15对照组PCR1反应条件
[0185]
[0186] 对照组1中10例粪便样品第一步PCR电泳检测结果如图7所示,从质检结果可以看出:对照组1中10例第一步PCR产物符合预期480bp左右均有单一靶标条带,且特异性较强,
无杂带,但单条带较弱,浓度较低,说明第一步PCR退火温度68℃能较高特异性的扩增出靶
标条带,但产量还需要进一步提高。
[0187] 对照组2中12例粪便样品第一步PCR电泳检测结果如图8所示,从质检结果可以看出:对照组2中12例第一步PCR产物符合预期480bp左右均有单一靶标条带,产量较高,但在
1000bp左右上沿有弱弥散杂带,说明第一步PCR退火温度55℃能较高总量扩增出靶标条带,
但特异性还需要进一步提高。