一种基于Primer3的bPrimer批量PCR引物设计方法转让专利

申请号 : CN201610089004.0

文献号 : CN105718759B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 戴立忠彭厘旻郭鑫武陈明王煜罗喜鹏

申请人 : 湖南圣维基因科技有限公司

摘要 :

本发明提供了一种基于Primer3的bPrimer批量PCR引物设计方法,所述方法包括:获取目标DNA序列的原始序列;提取DNA多态性数据中的高频多态性位点;对所述高频多态性位点进行标记;输出标记高频多态性位点的注释序列,所述注释序列和所述原始序列的碱基长度相同;读取所述注释序列,并生成候选引物;筛选候选引物等。本发明提供的基于Primer3的bPrimer批量PCR引物设计方法能够回避高频多态性位点,减少因目标人群遗传多样性而导致的扩增失败;能够批量检测引物的特异性,减少非特异扩增、引物二聚体等原因导致的扩增失败;能够用于评估现有引物的特异性;能够对长目标片段进行自动分割。

权利要求 :

1.一种基于Primer3的bPrimer批量PCR引物设计方法,其特征在于,所述Primer3为Primer3开源PCR引物设计软件;所述方法包括:S01:获取目标DNA序列的原始序列;所述获取目标DNA序列的原始序列包括:构建目标DNA序列的坐标文件,并使所述坐标文件的每一行包括一个基因组坐标;所述坐标文件形成所述目标DNA序列的原始序列;

S02:依据所述目标DNA序列的原始序列提取DNA多态性数据中的高频多态性位点;所述高频多态性位点包括单核苷酸高频多态性位点和插入缺失标记位点;

S03:对所述高频多态性位点进行标记;

S04:输出标记高频多态性位点的注释序列,所述注释序列和所述原始序列的碱基长度相同;

S05:读取所述注释序列,并计算解链温度和批量生成候选引物;

S06:筛选候选引物,得到引物。

2.根据权利要求1所述的基于Primer3的bPrimer批量PCR引物设计方法,其特征在于,所述方法还包括:长目标片段的自动分割。

3.根据权利要求2所述的基于Primer3的bPrimer批量PCR引物设计方法,其特征在于,所述长目标片段的自动分割包括:若所述目标DNA序列的原始序列未获得候选引物,则将所述目标DNA序列的原始序列平均分为两个子序列,并分别设计引物;

若所述两个子序列未获得候选引物,则将所述两个子序列继续平分,直至所述目标DNA序列的原始序列有候选引物或所分得子序列的长度小于预设最低产物的长度。

4.根据权利要求2所述的基于Primer3的bPrimer批量PCR引物设计方法,其特征在于,所述基因组坐标的形式为chrA:B+C形式,其中,chr为染色体命名前缀;A为染色体编号;B和C分别表示目标DNA序列在对应染色体上的起始坐标和结束坐标。

5.根据权利要求1所述的基于Primer3的bPrimer批量PCR引物设计方法,其特征在于,步骤S02中所述提取DNA多态性数据中的高频多态性位点包括:从所述DNA多态性数据中提取与所述目标DNA序列的坐标文件相对应的高频多态性位点。

6.根据权利要求1所述的基于Primer3的bPrimer批量PCR引物设计方法,其特征在于,步骤S03中所述对所述高频多态性位点进行标记包括:以IUPAC标准简并码、“<>”和“[]”分别对所述高频多态性位点中的单核苷酸高频多态性位点、插入缺失标记位点和目标DNA序列进行标注。

7.根据权利要求6所述的基于Primer3的bPrimer批量PCR引物设计方法,其特征在于,步骤S06中所述筛选候选引物包括:筛除所述解链温度不在设定范围内的候选引物;

筛除单核苷酸高频多态性位点超过设定阈值的候选引物;

筛除3’端含有单核苷酸高频多态性位点的候选引物;

筛除3’端含有插入缺失标记位点的候选引物;

筛除3’端5个碱基范围内含有简并碱基的候选引物;

筛除非特异性扩增的候选引物;

筛除存在风险的候选引物。

8.根据权利要求7所述的基于Primer3的bPrimer批量PCR引物设计方法,其特征在于,筛除非特异性扩增的候选引物为使用iPCRess软件和In-si licoPCR软件预测候选引物是否非特异性扩增,并将非特异性扩增的候选引物筛除。

说明书 :

一种基于Primer3的bPrimer批量PCR引物设计方法

技术领域

[0001] 本发明涉及PCR引物设计技术领域,更为具体地说,涉及一种基于Primer3的bPrimer批量PCR引物设计方法。

背景技术

[0002] 聚合酶链式反应(Polymerase Chain Reaction,PCR)作为最基础的分子生物学实验手段之一,能够在体外成百万倍地扩增目标DNA的拷贝数,因而被广泛应用于基因工程、诊断试剂等领域。
[0003] PCR实验成败的一个关键因素是PCR引物设计的好坏,因此,为设计出更好的引物,发明了种类众多的PCR引物设计软件。最早且最基础的PCR引物设计软件是Primer0.5,而后又在Primer0.5的基础上设计了现在被广泛使用的Primer3开源PCR引物设计软件。Primer3最基本的功能包括设计PCR引物和设计杂交探针,并且具有免费、开源、跨平台等优点。随后研究者在Primer3的基础上进行二次开发,形成了诸如NCBI Primer BLAST、BatchPrimer3等等衍生的引物设计软件,进一步扩展了Primer3的影响力。
[0004] 虽然Primer3和其衍生软件得到了广泛应用,然而却仍不能完全满足实际项目中用户的个性化需求,存在很大的改进空间。Primer3及其衍生的引物设计软件存在如表1所示的问题:
[0005] 表1:Primer3及其衍生的引物设计软件存在的问题
[0006]
[0007] 由上表能够看出,Primer3一次只能输入一个片段,无法批量操作;BatchPrimer3着重改进了批量操作,但是它不能预防遗传多样性或同源基因引起的扩增失败,也不能直接处理较长的目标序列;NCBI Primer BLAST主要通过BLAST技术(Basic Local Alignment Search Tool,BLAST)预测非特异扩增,但是它不支持批量操作;MPRIMER着重改进了非特异扩增预测和二级结构检测,但是同样不能直接处理较长的目标序列。
[0008] 同时,引物设计领域还存在着众多商业软件,例如Primer Premier6.O,LIGO 7、Primer Analysis Software。尽管在人性化和易用度方面商业软件有明显优势,适合不熟悉生物信息学的实验人员使用;但是它们作为商业软件,源代码均不透明,无法自行开发扩展功能,也无法自行排除程序错误,难以和其他开源软件交互,跨平台状况不佳,并且还需要支付授权费。

发明内容

[0009] 本发明的目的是提供一种基于Primer3的bPrimer批量PCR引物设计方法,以解决背景技术所述的现有PCR引物设计方法在设计PCR引物时因没有预防遗传多样性而导致引物设计失败的问题。
[0010] 为了解决上述技术问题,本发明提供如下技术方案:
[0011] 一种基于Primer3的bPrimer批量PCR引物设计方法,所述方法包括:
[0012] S01:获取目标DNA序列的原始序列;
[0013] S02:依据所述目标DNA序列的原始序列提取DNA多态性数据中的高频多态性位点;
[0014] S03:对所述高频多态性位点进行标记;
[0015] S04:输出标记高频多态性位点的注释序列,所述注释序列和所述原始序列的碱基长度相同;
[0016] S05:读取所述注释序列,并计算解链温度和生成候选引物;
[0017] S06:筛选候选引物,得到引物。
[0018] 优选地,所述方法还包括:长目标片段的自动分割。
[0019] 优选地,所述长目标片段的自动分割包括:若所述目标DNA序列的原始序列未获得候选引物,则将所述目标DNA序列的原始序列平均分为两个子序列,并分别设计引物;若所述两个子序列未获得候选引物,则将所述两个子序列继续平分,直至所述目标DNA序列的原始序列有候选引物或所分得子序列的长度小于预设最低产物的长度。
[0020] 优选地,步骤S01中所述获取目标DNA序列的原始序列包括:构建目标DNA序列的坐标文件,并使所述坐标文件的每一行包括一个基因组坐标。
[0021] 优选地,所述基因组坐标的形式为chrA:B+C形式。
[0022] 优选地,步骤S02中所述提取DNA多态性数据中的高频多态性位点包括:从所述DNA多态性数据中提取与所述目标DNA序列的坐标文件相对应的高频多态性位点。
[0023] 优选地,步骤S03中所述对所述高频多态性位点进行标记包括:以IUPAC标准简并码、“<>”和“[]”分别对所述高频多态性位点中的单核苷酸高频多态性位点、插入缺失标记位点和目标DNA序列进行标注。
[0024] 优选地,步骤S06中所述筛选候选引物包括:
[0025] 筛除所述解链温度不在设定范围内的候选引物;
[0026] 筛除单核苷酸高频多态性位点超过设定阈值的候选引物;
[0027] 筛除3’端含有单核苷酸高频多态性位点的候选引物;
[0028] 筛除3’端含有插入缺失标记位点的候选引物;
[0029] 筛除3’端5个碱基范围内含有简并碱基的候选引物;
[0030] 筛除非特异性扩增的候选引物;
[0031] 筛除存在风险的候选引物。
[0032] 优选地,所述筛除非特异性扩增的候选引物为使用iPCRess和In-silicoPCR预测候选引物是否非特异性扩增,并将非特异性扩增的候选引物筛除。
[0033] 本发明提供了一种基于Primer3的bPrimer批量PCR引物设计方法,所述方法包括:S01:获取目标DNA序列的原始序列;S02:依据所述目标DNA序列的原始序列提取DNA多态性数据中的高频多态性位点;S03:对所述高频多态性位点进行标记;S04:输出标记高频多态性位点的注释序列,所述注释序列和所述原始序列的碱基长度相同;S05:读取所述注释序列,并计算解链温度和生成候选引物;S06:筛选候选引物,得到引物。本发明提供的基于Primer3的bPrimer批量PCR引物设计方法能够回避高频多态性位点,进而减少因目标人群遗传多样性而导致的扩增失败。同时,本发明提供的引物设计方法能够批量检测引物的特异性,进而减少非特异扩增、引物二聚体等原因导致的扩增失败,并且能够用于评估现有引物的特异性。

附图说明

[0034] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0035] 图1是本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法的流程图;
[0036] 图2是本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法中长目标片段自动分割的示意图;
[0037] 图3是本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法设计的ATMe59_F7、KLKB1e6_F12和L_301_F7进行PCR实验的电泳图;
[0038] 图4是本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法设计的L_301_F7进行PCR实验的峰值图;
[0039] 图5是本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法设计的Chr1-51-F0、Chr1-69-F0进行PCR实验的电泳图;
[0040] 图6是本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法设计的Chr1-51-F0进行PCR实验的峰值图;
[0041] 图7是本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法设计的Chr1-69-F0进行PCR实验的峰值图;
[0042] 图8是本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法设计的乳腺癌风险基因BRCA1、BRCA2全部外显子测序深度图。

具体实施方式

[0043] 本发明实施例提供的批量设计靶向PCR引物的方法,解决了现有PCR引物设计方法在设计PCR引物时因没有预防遗传多样性而导致引物设计失败的问题。
[0044] 为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中的技术方案作进一步详细的说明。
[0045] 请参考附图1,附图1示出了本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法的流程图。从附图1中能够看出本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法包括:
[0046] S01:从基因组序列文件中获取FASTA格式的目标DNA序列的原始序列;
[0047] S02:依据所述目标DNA序列的原始序列提取VCF格式的DNA多态性数据中的高频多态性位点;
[0048] S03:对所述高频多态性位点进行标记;
[0049] S04:输出标记高频多态性位点的注释序列,所述注释序列和所述原始序列的碱基长度相同,且在序列文件中的顺序也保持一致;
[0050] S05:读取所述注释序列,并计算解链温度(melting temperature,Tm)和生成候选引物;
[0051] S06:筛选候选引物,得到引物。
[0052] 本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法能够回避高频多态性位点,进而减少因目标人群遗传多样性而导致的扩增失败,达到所设计的引物扩增成功的概率。
[0053] 进一步,本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法还包括长目标片段的自动分割。若目标DNA序列的原始序列未获得候选引物,则需要对较长的目标DNA序列的原始序列片段进行分割,从而实现引物的设计。对较长的目标DNA序列的原始序列片段进行分割时,先将较长的目标DNA序列的原始序列片段平均分为两个子序列,然后对两个子序列分别进行引物设计。若上述两个子序列中仍然没有得到候选引物,则将两个子序列再次进行平均分割,并再次分别进行引物设计。若分成的子序列中仍然没有得到候选引物,则继续平均分割,直到目标DNA序列的原始序列有候选引物或所分得子序列的长度小于预设最低产物的长度。
[0054] 具体来讲,请参考附图2,附图2示出了本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法中长目标片段自动分割的示意图。从附图2中得知,若原目标区域的坐标为(A,B),则二分得到子目标区域1(A,A+int((B-A+S)/2)),和子目标区域2(A+int((B-A-S)/2),B);其中,S为预先设定的重叠区域长度。当然,在实际应用中,长目标片段的自动分割功能是使用伪代码实现的。
[0055] 本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法的步骤S01中获取目标DNA序列的原始序列包括构建目标DNA序列的坐标文件,并使所述坐标文件的每一行包括一个基因组坐标,进而形成目标DNA序列的原始序列。组成坐标文件的基因组坐标的形式为chrA:B+C的形式,例如MED12_exon1chrX:70360484+70360706。其中,A表示染色体编号,B和C分别表示目标区域的起始和结束坐标,且起始和结束坐标是1-based的,即染色体的第一个碱基坐标为1;“+”号表示染色体的正链,“-”号表示染色体的负链,例如“chrX:70360484+70360706”就表示X染色体正链上从70360484到70360706位碱基的区域。在所构建的目标DNA序列的坐标文件中,第一列设置目标名称,由于目标名称会影响目标区域和引物的命名,因此目标名称与基因组坐标用制表符分割开,推荐长度不超过15个英文、数字或下划线字符。如果不提供目标名称,则默认将基因组坐标本身作为目标名称。
[0056] 基于目标DNA序列的坐标文件的构建,本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法在提取DNA多态性数据中的高频多态性位点时需要从DNA多态性数据中提取与所构建的目标DNA序列的坐标文件相对应的高频多态性位点。在提取到高频多态性位点后,需要对所提取到高频多态性位点进行标注,标注时以IUPAC标准简并码、“<>”和“[]”分别对所述高频多态性位点中的单核苷酸高频多态性位点(Single Nucleotide Polymorphisms,SNP)、插入缺失标记位点(insertion-deletion,INDEL)和目标DNA序列进行标注,其中IUPAC标准简并码如表2所示。
[0057] 表2:IUPAC标准简并码
[0058]
[0059] 对标记了的高频多态性位点进行输出,并形成注释序列,所形成的注释序列和原始序列的碱基长度相同,且注释序列和原始序列在序列文件中的顺序必须一致,以避免后续的计算结果出错。进一步,读取注释序列,并由Primer3软件按照注释序列生成候选引物和计算Tm。由于在使用注释序列计算Tm时,该Tm值由于注释序列含有简并码而存在误差,因此,当注释序列和原始序列都存在,则需要重新计算Tm值,此时的Tm值使用原始序列进行计算。若所设计的候选引物包含IUPAC简并码,并且未提供原始序列,则会由Primer3软件计算所有可能引物的Tm,并输出Tm的取值范围。
[0060] 本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法在对候选引物进行筛选时,主要考虑以下几点内容:筛除Tm不在设定范围内的候选引物;筛除SNP超过设定阈值的候选引物;筛除3’端含有SNP的候选引物;筛除3’端含有INDEL的候选引物;筛除3’端5个碱基范围内含有简并碱基的候选引物;筛除非特异性扩增的候选引物;筛除存在风险的候选引物。
[0061] 其中,由于解链温度Tm是DNA的双螺旋结构在加热时失去一半时的温度,因此Tm值为PCR反应退火温度的重要参考依据,进而在进行引物设计时,需要筛除Tm值不在用户设定范围内的候选引物。
[0062] 若所设计出的候选引物存在SNP多态性位点和INDEL多态性位点,则会导致实际应用中在某些样本的扩增效率降低甚至无法扩增得到产物,因此针对引物上存在多态性位点,为了提高引物的扩增效率需要筛除SNP超过设定阈值的候选引物、3’端含有SNP的候选引物以及3’端含有INDEL的候选引物。
[0063] 当3’端的5个碱基范围内含有简并碱基时,需要将该候选引物筛除,具体的,简并碱基用小写字母,标准碱基用大写字母,然后设置Primer3软件过滤掉3’端的5个碱基范围内含小写字母的候选引物。
[0064] 对于非特异性扩增的候选引物,本发明实施例通过使用iPCRess软件和In-silicoPCR软件来预测候选引物是否非特异性扩增,从而将非特异性扩增的候选引物筛除。在预测候选引物是否非特异性扩增时,循环调用iPCRess,只截取3’端部分序列来构建配置文件并且指定最大错配数的范围,从而完成候选引物非特异性扩增的预测,其中,预测候选引物非特异性扩增的标准请参见表3。
[0065] 表3:预测候选引物非特异性扩增标准表
[0066]
[0067] 对已经进行过上述筛除的候选引物,还需要对存在高风险的候选引物进行筛除。筛除高风险的候选引物时按照预先设定的过滤标准进行筛除,在筛选时原则上优先选取序号数低、位于表格前列的引物,该过滤标准请参见表4。在实际应用中,通过标准可以按照用户的自身经验进行设定。
[0068] 表4:过滤标准
[0069]项目 通过标准
GC% 40%≤GC%≤60%
Any_compl(MPprimer) ≥-6
3'_compl ≤6
Pair_3'_compl ≤6
Pair_Any_compl ≤9
In-silico PCR iPCRess 参见表3
[0070] 本发明提供的基于Primer3的bPrimer批量PCR引物设计方法能够回避高频多态性位点,进而减少因目标人群遗传多样性而导致的扩增失败。同时,本发明提供的引物设计方法能够批量检测引物的特异性,进而减少非特异扩增、引物二聚体等原因导致的扩增失败,并且能够用于评估现有引物的特异性。
[0071] 本发明实施例还提供了对本发明引物设计方法的验证,用以验证实验的指导价值。在引物设计阶段,挑选了3对典型的预测非特异扩增的引物,以及随机挑选了2对预测特异扩增的引物,其中,3对典型的预测非特异扩增的引物为ATMe59_F7、KLKB1e6_F12和L_301_F7,2对预测特异扩增的引物为Chr1-51-F0、Chr1-69-F0,将上述引物按照本发明提供的预测候选引物是否非特异性扩增的方法来预测PCR的结果,并用Caliper LabChip GX仪器来验证实际PCR实验的产物。在本次实验中,除使用iPCRess软件和In-silicoPCR软件来预测候选引物是否非特异性扩增外还使用NCBI Primer Blast和MFEPrimer3两款网页工具作为对比,预测的结果请参见表5。
[0072] 表5:非特异性扩增的预测结果
[0073]
[0074] 从表5中能够看出,ATMe59_F7的PCR实验的电泳结果有多条带或无扩增;KLKB1e6_F12的PCR实验的电泳结果有多条带;L_301_F7的PCR实验的电泳结果有多条带或无扩增;Chr1-51-F0、Chr1-69-F0的PCR实验的电泳结果只有单一条带,即出现特异扩增。
[0075] 使用Caliper LabChip GX仪器来验证实际PCR实验的产物的结果如附图3-7,附图3-7分别示出了PCR实验的电泳图和峰值图,其中,附图3中的17、18和19条分别表示ATMe59_F7、KLKB1e6_F12和L_301_F7的电泳结果图,附图5中的G13和G14条分别表示Chr1-51-F0和Chr1-69-F0的电泳结果图。从附图3-7中能够看出,ATMe59_F7的PCR产物无明显条带,而KLKB1e6_F12和L_301_F7的PCR产物在1000bp以下有多个主要条带,且主要产物条带的大小和预测结果接近;Chr1-51-F0的PCR产物仅有一条微弱的662bp非特异性条带,有少量大片段糊区,Chr1-69-F0的PCR产物扩增特异性好,存在少量二聚体,且两条引物的特异性都很好,符合预期。由此,说明本发明实施例提供的非特异预测方法与实验结果的一致性较好,进而能够表明本发明实施例提供的非特异预测方法能够有效预测PCR实验的特异性,并可以有效指导引物选择。
[0076] 为说明本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法能够批量设计PCR引物,本发明实施例还对6个乳腺癌相关基因全外显子测序的PCR引物进行了设计,并以实际PCR实验的结果来验证引物设计的效果,目标基因的基本信息请参见表6。
[0077] 表6:目标基因的基本信息
[0078]
[0079] 从表6中看出,6个基因一共包括123个外显子,一共设计了133对候选引物,并且保证每个外显子被一对或多对候选引物完整覆盖。在进行引物设计时,133对候选引物分别经过4批次的设计得出,并按照本发明实施例提供的过滤标准筛选出来。从PCR实验结果来分析,133对候选引物中有130对引物在进行PCR扩增后的电泳实验有大小正确的条带,并符合PCR结果合格;未成功的3对候选引物中,有2对引物在设计时由于Tm值偏低而致使预测到的结果是非特异扩增;仅有一条PCR不成功的引物无法用设计数据预测,本次实验的成功率高于97.7%。
[0080] 为说明本发明实施例提供的基于Primer3的bPrimer批量PCR引物设计方法能够运用于靶向高通量测序中,本发明实施例设计了乳腺癌风险基因BRCA1、BRCA2全外显子测序所需要的靶向引物,并对应于这两个基因的48个编码外显子。经过Fluidigm Access Array扩增目标片段,然后在Illumina MiSeq高通量测序平台上进行测序,最终信息分析得到的深度分布图,该分布图请参考附图8。从附图8中能够看出,123个扩增子都成功扩增,其中最低深度为67,最高深度为516,相差小于10倍。扩增子平均深度为155,所有扩增子都在5倍平均深度内。可以认为各扩增子的测序深度均一,测序质量符合预期。
[0081] 本发明提供的基于Primer3的bPrimer批量PCR引物设计方法能够回避高频多态性位点,进而减少因目标人群遗传多样性而导致的扩增失败。同时,本发明提供的引物设计方法能够批量检测引物的特异性,进而减少非特异扩增、引物二聚体等原因导致的扩增失败,并且能够用于评估现有引物的特异性。
[0082] 以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的保护范围之内。