基于二代和三代测序技术的植物线粒体基因组组装方法转让专利

申请号 : CN202110043700.9

文献号 : CN112481413B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 高海东周向阳徐雷

申请人 : 南京集思慧远生物科技有限公司南京鑫普华生物科技有限公司

摘要 :

本发明公开了一种基于二代和三代测序技术的植物线粒体基因组组装方法,对样品DNA进行二代测序和三代测序,利用二代测序数据进行三代数据的校正;利用构建好的植物线粒体编码基因数据库,使用此植物线粒体编码基因数据库中所有参考序列比对第(3)步校正得到的三代序列数据集,获取seed序列进行下一步分析;对seed序列进行延伸,获取全长的线性线粒体基因组DNA序列,对线性线粒体基因组DNA序列进行环化,获取环状线粒体基因组DNA序列。本发明组装方法能够快速地从三代测序数据中得到完整的植物线粒体基因组序列,适用于大部分植物线粒体基因组。

权利要求 :

1.一种基于二代和三代测序技术的植物线粒体基因组组装方法,其步骤包括:(1)对样品DNA进行二代测序,所述样品DNA含有该样品的线粒体基因组序列,得到Clean reads;

(2)对样品DNA进行三代测序,所述样品DNA含有该样品的线粒体基因组序列,得到Clean reads;

(3)利用二代测序数据进行三代数据的校正;

(4)利用已发表的植物线粒体基因组基因构建植物线粒体编码基因数据库,使用上述植物线粒体编码基因数据库中所有参考序列比对第(3)步校正得到的三代序列数据集,使‑10

用的比对软件是blast,evalue阈值设置为10 、相似度和覆盖度均大于70%,记录比对上的编码基因名称信息,挑选比对上的最长的一条序列作为seed序列,进行下一步分析;

(5)对seed序列进行延伸,得到候选的线粒体基因组DNA序列,再使用mumer将步骤(4)获取的植物线粒体编码基因序列数据比对候选的线粒体基因组DNA序列,查看比对上的基因数量以及比对上的完整度,判断标准:比对上的编码基因数量不能有缺失,编码基因长度要完整;如果基因数量有缺失,则把包含缺失基因的最长三代测序数据序列进行单独延伸,然后融合到已有的候选序列中,如果无法融合,则遗弃该基因;对候选的线性线粒体基因组DNA序列进行环化,获取环状线粒体基因组DNA序列,称为pseudo genome序列;

(6)检查步骤:将校正后的三代测序数据使用minimap2比对到pseudo genome序列上,然后筛选比对上的长度大于3kb的测序数据,然后使用mumer查看比对上的三代测序数据和pseudo genome的共线性情况,判断所有比对上的三代测序数据是否均出现在pseudo genome路径上,如果是,则线粒体基因组组装完整;如果在pseudo genome同一位置存在三代测序数据某些序列前端无法比对上、且同时存在三代测序数据某些序列后端无法比对上,则上述pseudo genome位置存在由于多结构导致的片段丢失,需要对上述pseudo genome位置存在的序列使用三代测序数据进行延伸,填补缺失的序列。

(7):使用NextPolish软件用三代测序数据对步骤(6)得到的植物线粒体基因组DNA序列进行polish,然后使用pilon软件用二代测序数据对三代测序数据校正完成的植物线粒体基因组DNA序列进一步polish,得到最终的基因组组装结果。

2.根据权利要求1所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于:步骤(5)中延伸方法为:设置overlap>600,相似度>95,延伸过程中如果遇到分支,保留所有分支情况,并对分支进行延伸,得到多条contig序列,然后使用测序的reads和contig之间有overlap进行连接,将所有contig连接成一条序列,从而获取完整的植物线粒体基因组序列。

3.根据权利要求1所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于:步骤(5)中环化方法为:检测到植物线粒体基因组序列末尾延伸的过程中与序列开头有重叠,即可判断该序列成环状,将该序列的首尾相连,生成环状结构。

4.根据权利要求1所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于:还包括步骤(8):如果测序数据量达到标准,且线性线粒体基因组DNA序列无法环化,则判定此物种为线性基因组序列。

5. 根据权利要求1‑4中任一项所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于: 步骤(1)中二代测序采二代Novaseq6000平台,并用fastp软件去除二代数据中的低质量序列。

6.根据权利要求5所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于:步骤(3)中使用LorDEC软件用二代测序数据进行三代数据的校正。

说明书 :

基于二代和三代测序技术的植物线粒体基因组组装方法

技术领域

[0001] 本发明涉及一种基于二代和三代测序技术的植物线粒体基因组组装方法。

背景技术

[0002] 随着二代和三代测序技术的发展,通量提高和测序成本的快速下降,极大的推动了线粒体基因组学的发展。
[0003] 植物线粒体(mitochondrion)是一种存在于大多数植物细胞中的由两层膜包被的细胞器,是细胞进行有氧呼吸的主要场所,被称为"power house"。
[0004] 植物线粒体基因组结构和大小是高度变化的,通常植物线粒体基因组是一个单链环状DNA分子结构,如拟南芥、西瓜;也有植物线粒体基因组以线性DNA分子存在,如水稻等;
此外线粒体基因组中存在多元环状的情况,例如蝇子草中存在59个环状DNA序列,包括1个
主环和58个小环。高等植物在所有已知的高等生物中拥有最大的线粒体,从200kb到11M变
化不等。同一物种线粒体基因组大小差异主要是由重复序列尤其是基因区的非编码序列引
起的。线粒体基因组的进化方式主要靠内部重组和外部重组,内部重组即是由于复杂而引
起的内部重排,是序列获得和缺失的主要原因;外部重组是指核、叶绿体、类质体以及未知
来源的序列整合到植物线粒体基因组导致的重组。
[0005] 传统的获取线粒体基因组的方法是通过Long‑range PCR对植物线粒体基因组进行扩增和Sanger测序,最后对测序得到的不同片段进行拼接得到完整的植物线粒体基因
组。但该方法成本高,效率低。
[0006] 而现有的通过高通量测序方法进行植物线粒体基因组组装的软件和方法,只能解决一部分的高等生物线粒体组装问题,比如使用目前已开发的线粒体组装工具,只能获取
高等植物线粒体基因组线性序列,不能成环,而且得到的序列普遍存在不完整的现象。

发明内容

[0007] 本发明的目的在于提供一种基于二代和三代测序技术的植物线粒体基因组组装方法,拼接完整度高,可以获取完整的环状植物线粒体基因组序列。
[0008] 本发明的目的通过以下技术方案实现:
[0009] 一种基于二代和三代测序技术的植物线粒体基因组组装方法,其步骤包括:
[0010] (1)对样品DNA进行二代测序,得到Clean reads;
[0011] (2)对样品DNA进行三代测序,得到Clean reads;
[0012] (3)利用二代测序数据进行三代数据的校正;
[0013] (4)利用构建好的植物线粒体编码基因数据库,使用此植物线粒体编码基因数据库中所有参考序列比对第(3)步校正得到的三代序列数据集,使用的比对软件是blast
‑10
(v2.10.1+),evalue阈值设置为10 、相似度和覆盖度均大于70%,记录比对上的编码基因
名称信息,挑选比对上的最长的一条序列作为seed序列,获取得到的seed序列进行下一步
分析;其中植物线粒体基因数据库是从美国国家生物技术信息中心(NCBI)中下载目前已发
表的所有植物线粒体基因组基因,用来构建参考序列数据库,数据库需要定期更新,通常每
个月更新一次;
[0014] (5)对seed序列进行延伸,得到候选的线粒体基因组DNA序列(延伸方法请见补充),再使用mumer将步骤(4)获取的植物线粒体编码基因序列数据比对候选的线粒体基因
组DNA序列,查看比对上的基因数量以及比对上的完整度,判断标准:比对上的编码基因数
量不能有缺失,编码基因长度要完整;如果基因数量有缺失,则可能是多结构引起的片段丢
失,把包含缺失基因的最长三代测序数据序列进行单独延伸,然后融合到已有的候选序列
中(如果无法融合,则遗弃该基因)。对候选的线性线粒体基因组DNA序列进行环化,获取环
状线粒体基因组DNA序列,称为pseudo genome序列;
[0015] (6)检查步骤:将校正后的三代测序数据使用minimap2比对到pseudo genome序列上,然后筛选比对上的长度大于3kb的测序数据,然后使用mumer查看比对上的三代测序数
据和pseudo genome的共线性情况,判断所有比对上的三代测序数据是否均出现在pseudo 
genome路径上,如果是,则线粒体基因组组装完整;如果在同一位置存在三代测序数据某些
序列前端无法比对上且同时存在某些序列后端无法比对上pseudo genome上,则该处存在
由于多结构导致的片段丢失,需要对该处存在的序列使用三代测序数据进行延伸,填补缺
失的序列。
[0016] 优选的,步骤(5)中延伸方法为:设置overlap>600,相似度>95,由于线粒体基因组序列存在多结构情况,延伸过程中如果遇到分支,保留所有分支情况,并对分支进行延伸,
得到多条contig序列,然后使用三代测序数据和contig之间用overlap进行连接,将所有
contig连接成一条序列,从而获取初步的植物线粒体基因组DNA序列。
[0017] 优选的,还包括步骤(7):使用NextPolish软件用三代测序数据对步骤(6)得到的植物线粒体基因组DNA序列进行polish,然后使用pilon软件用二代测序数据对三代测序数
据校正完成的植物线粒体基因组DNA序列进一步polish,得到最终的基因组组装结果。
[0018] 优选的,还包括步骤(8):如果测序数据量达到标准,且线性线粒体基因组DNA序列无法环化,则判定此物种为线性基因组序列。测序数据量标准为植物线粒体基因组覆盖度
10X以上。
[0019] 优选的,步骤(5)中环化方法为:检测到植物线粒体基因组序列末尾延伸的过程中与序列开头有重叠,即可判断该序列成环状,将该序列的首尾相连,生成环状结构。具体而
言,重叠的具体长度视开头和结尾的contig长度而定,因为线粒体一般都是环状序列,得到
的线性序列开头和结尾的序列肯定会有重叠,如若不然,线粒体基因组序列要么是延伸错
误,要么此物种线粒体基因组是线性序列而非环状序列。发现重叠序列后,根据开头和结尾
的序列产生交叠的部分来确定线粒体基因组环状结构。
[0020] 优选的,步骤(1)中二代测序采用Illumina公司的PE150二代测序Novaseq6000平台,并用fastp软件去除二代数据中的低质量序列。
[0021] 优选的,步骤(3)中使用LorDEC软件用二代测序数据进行三代数据的校正(1)。
[0022] 本发明组装方法能够快速地从二代+三代测序数据中得到完整的植物线粒体基因组DNA序列,适用于大部分植物线粒体基因组,从而推动了基于线粒体基因组数据在相关领
域的研究和应用,例如系统发育演化、谱系遗传学,种群遗传结构等。

附图说明

[0023] 图1是实施例1得到的铃铛子线粒体基因组的结构。
[0024] 图2 是本发明的流程示意图。

具体实施方式

[0025] 以下是结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领普通技术人员在没有做出创造性劳动的前提下所获得的所有其他
实施例,都属于本发明保护的范围。
[0026] 实施例1
[0027] 本基于二代和三代测序技术的植物线粒体基因组组装方法,其步骤包括:
[0028] (1)对铃铛子样品DNA进行二代Novaseq6000平台测序,并使用fastp软件过滤得到clean data数据,过滤标准为平均质量值大于5;
[0029] (2)对样品DNA进行三代nanopore平台测序,得到Clean reads;
[0030] (3)使用二代测序数据和LorDEC软件对三代测序数据进行校正,获取高质量的三代测序数据;
[0031] (4)利用构建好的植物线粒体编码基因数据库,使用此植物线粒体编码基因数据库中所有参考序列比对第(3)步校正得到的三代序列数据集,使用的比对软件是blast
‑10
(v2.10.1+),evalue阈值设置为10 、相似度和覆盖度均大于70%,记录比对上的编码基因
名称信息,挑选比对上的最长的一条序列作为seed序列,获取得到的seed序列进行下一步
分析;其中植物线粒体基因数据库是从美国国家生物技术信息中心(NCBI)中下载目前已发
表的所有植物线粒体基因组基因,用来构建参考序列数据库,并且数据库进行定时更新;
[0032] (5)对seed序列进行延伸,得到候选的铃铛子线粒体基因组DNA序列(延伸方法请见补充),再使用mumer将步骤(4)获取的植物线粒体编码基因序列数据比对候选的铃铛子
线粒体基因组DNA序列,查看比对上的基因数量以及比对上的完整度,判断标准:比对上的
编码基因数量不能有缺失,编码基因长度要完整;如果基因数量有缺失,则可能是多结构引
起的片段丢失,把包含缺失基因的最长三代测序数据序列进行单独延伸,然后融合到已有
的铃铛子候选序列中(如果无法融合,则遗弃该基因)。对候选的铃铛子线性线粒体基因组
DNA序列进行环化,获取环状铃铛子线粒体基因组DNA序列,称为铃铛子pseudo genome序
列。
[0033] (6)检查步骤:将校正后的三代测序数据使用minimap2比对到铃铛子pseudo genome序列上,然后筛选比对上的长度大于3kb的测序数据,然后使用mumer查看比对上的
三代测序数据和铃铛子pseudo genome的共线性情况,发现所有比对上的三代测序数据均
出现在铃铛子pseudo genome路径上,铃铛子线粒体基因组组装完整。
[0034] (7)使用NextPolish软件用三代测序数据对步骤(6)得到的铃铛子植物线粒体基因组DNA序列进行polish,然后使用pilon软件用二代测序数据对三代测序数据校正完成的
铃铛子植物线粒体基因组DNA序列进一步polish,得到最终的基因组组装结果。
[0035] 对于线状线粒体基因组DNA序列,如果在步骤(5)中无法环化,且测序数据量达到标准,则判定此物种为线性基因组序列。测序数据量标准为植物线粒体基因组覆盖度10X
(即此物种线粒体基因组大小的10倍数据量)以上。
[0036] 参考文献:
[0037] 1、L. Salmela, E. Rivals. (2014) LoRDEC: accurate and efficient long read error correction Bioinformatics, 30 (24): 3506‑3514, 2014.)。