基于二代和三代测序技术的植物线粒体基因组组装方法转让专利
申请号 : CN202110043700.9
文献号 : CN112481413B
文献日 : 2022-02-15
发明人 : 高海东 , 周向阳 , 徐雷
申请人 : 南京集思慧远生物科技有限公司 , 南京鑫普华生物科技有限公司
摘要 :
权利要求 :
1.一种基于二代和三代测序技术的植物线粒体基因组组装方法,其步骤包括:(1)对样品DNA进行二代测序,所述样品DNA含有该样品的线粒体基因组序列,得到Clean reads;
(2)对样品DNA进行三代测序,所述样品DNA含有该样品的线粒体基因组序列,得到Clean reads;
(3)利用二代测序数据进行三代数据的校正;
(4)利用已发表的植物线粒体基因组基因构建植物线粒体编码基因数据库,使用上述植物线粒体编码基因数据库中所有参考序列比对第(3)步校正得到的三代序列数据集,使‑10
用的比对软件是blast,evalue阈值设置为10 、相似度和覆盖度均大于70%,记录比对上的编码基因名称信息,挑选比对上的最长的一条序列作为seed序列,进行下一步分析;
(5)对seed序列进行延伸,得到候选的线粒体基因组DNA序列,再使用mumer将步骤(4)获取的植物线粒体编码基因序列数据比对候选的线粒体基因组DNA序列,查看比对上的基因数量以及比对上的完整度,判断标准:比对上的编码基因数量不能有缺失,编码基因长度要完整;如果基因数量有缺失,则把包含缺失基因的最长三代测序数据序列进行单独延伸,然后融合到已有的候选序列中,如果无法融合,则遗弃该基因;对候选的线性线粒体基因组DNA序列进行环化,获取环状线粒体基因组DNA序列,称为pseudo genome序列;
(6)检查步骤:将校正后的三代测序数据使用minimap2比对到pseudo genome序列上,然后筛选比对上的长度大于3kb的测序数据,然后使用mumer查看比对上的三代测序数据和pseudo genome的共线性情况,判断所有比对上的三代测序数据是否均出现在pseudo genome路径上,如果是,则线粒体基因组组装完整;如果在pseudo genome同一位置存在三代测序数据某些序列前端无法比对上、且同时存在三代测序数据某些序列后端无法比对上,则上述pseudo genome位置存在由于多结构导致的片段丢失,需要对上述pseudo genome位置存在的序列使用三代测序数据进行延伸,填补缺失的序列。
(7):使用NextPolish软件用三代测序数据对步骤(6)得到的植物线粒体基因组DNA序列进行polish,然后使用pilon软件用二代测序数据对三代测序数据校正完成的植物线粒体基因组DNA序列进一步polish,得到最终的基因组组装结果。
2.根据权利要求1所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于:步骤(5)中延伸方法为:设置overlap>600,相似度>95,延伸过程中如果遇到分支,保留所有分支情况,并对分支进行延伸,得到多条contig序列,然后使用测序的reads和contig之间有overlap进行连接,将所有contig连接成一条序列,从而获取完整的植物线粒体基因组序列。
3.根据权利要求1所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于:步骤(5)中环化方法为:检测到植物线粒体基因组序列末尾延伸的过程中与序列开头有重叠,即可判断该序列成环状,将该序列的首尾相连,生成环状结构。
4.根据权利要求1所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于:还包括步骤(8):如果测序数据量达到标准,且线性线粒体基因组DNA序列无法环化,则判定此物种为线性基因组序列。
5. 根据权利要求1‑4中任一项所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于: 步骤(1)中二代测序采二代Novaseq6000平台,并用fastp软件去除二代数据中的低质量序列。
6.根据权利要求5所述的基于二代和三代测序技术的植物线粒体基因组组装方法,其特征在于:步骤(3)中使用LorDEC软件用二代测序数据进行三代数据的校正。
说明书 :
基于二代和三代测序技术的植物线粒体基因组组装方法
技术领域
背景技术
此外线粒体基因组中存在多元环状的情况,例如蝇子草中存在59个环状DNA序列,包括1个
主环和58个小环。高等植物在所有已知的高等生物中拥有最大的线粒体,从200kb到11M变
化不等。同一物种线粒体基因组大小差异主要是由重复序列尤其是基因区的非编码序列引
起的。线粒体基因组的进化方式主要靠内部重组和外部重组,内部重组即是由于复杂而引
起的内部重排,是序列获得和缺失的主要原因;外部重组是指核、叶绿体、类质体以及未知
来源的序列整合到植物线粒体基因组导致的重组。
组。但该方法成本高,效率低。
高等植物线粒体基因组线性序列,不能成环,而且得到的序列普遍存在不完整的现象。
发明内容
‑10
(v2.10.1+),evalue阈值设置为10 、相似度和覆盖度均大于70%,记录比对上的编码基因
名称信息,挑选比对上的最长的一条序列作为seed序列,获取得到的seed序列进行下一步
分析;其中植物线粒体基因数据库是从美国国家生物技术信息中心(NCBI)中下载目前已发
表的所有植物线粒体基因组基因,用来构建参考序列数据库,数据库需要定期更新,通常每
个月更新一次;
组DNA序列,查看比对上的基因数量以及比对上的完整度,判断标准:比对上的编码基因数
量不能有缺失,编码基因长度要完整;如果基因数量有缺失,则可能是多结构引起的片段丢
失,把包含缺失基因的最长三代测序数据序列进行单独延伸,然后融合到已有的候选序列
中(如果无法融合,则遗弃该基因)。对候选的线性线粒体基因组DNA序列进行环化,获取环
状线粒体基因组DNA序列,称为pseudo genome序列;
据和pseudo genome的共线性情况,判断所有比对上的三代测序数据是否均出现在pseudo
genome路径上,如果是,则线粒体基因组组装完整;如果在同一位置存在三代测序数据某些
序列前端无法比对上且同时存在某些序列后端无法比对上pseudo genome上,则该处存在
由于多结构导致的片段丢失,需要对该处存在的序列使用三代测序数据进行延伸,填补缺
失的序列。
得到多条contig序列,然后使用三代测序数据和contig之间用overlap进行连接,将所有
contig连接成一条序列,从而获取初步的植物线粒体基因组DNA序列。
据校正完成的植物线粒体基因组DNA序列进一步polish,得到最终的基因组组装结果。
10X以上。
言,重叠的具体长度视开头和结尾的contig长度而定,因为线粒体一般都是环状序列,得到
的线性序列开头和结尾的序列肯定会有重叠,如若不然,线粒体基因组序列要么是延伸错
误,要么此物种线粒体基因组是线性序列而非环状序列。发现重叠序列后,根据开头和结尾
的序列产生交叠的部分来确定线粒体基因组环状结构。
域的研究和应用,例如系统发育演化、谱系遗传学,种群遗传结构等。
附图说明
具体实施方式
本发明中的实施例,本领普通技术人员在没有做出创造性劳动的前提下所获得的所有其他
实施例,都属于本发明保护的范围。
‑10
(v2.10.1+),evalue阈值设置为10 、相似度和覆盖度均大于70%,记录比对上的编码基因
名称信息,挑选比对上的最长的一条序列作为seed序列,获取得到的seed序列进行下一步
分析;其中植物线粒体基因数据库是从美国国家生物技术信息中心(NCBI)中下载目前已发
表的所有植物线粒体基因组基因,用来构建参考序列数据库,并且数据库进行定时更新;
线粒体基因组DNA序列,查看比对上的基因数量以及比对上的完整度,判断标准:比对上的
编码基因数量不能有缺失,编码基因长度要完整;如果基因数量有缺失,则可能是多结构引
起的片段丢失,把包含缺失基因的最长三代测序数据序列进行单独延伸,然后融合到已有
的铃铛子候选序列中(如果无法融合,则遗弃该基因)。对候选的铃铛子线性线粒体基因组
DNA序列进行环化,获取环状铃铛子线粒体基因组DNA序列,称为铃铛子pseudo genome序
列。
三代测序数据和铃铛子pseudo genome的共线性情况,发现所有比对上的三代测序数据均
出现在铃铛子pseudo genome路径上,铃铛子线粒体基因组组装完整。
铃铛子植物线粒体基因组DNA序列进一步polish,得到最终的基因组组装结果。
(即此物种线粒体基因组大小的10倍数据量)以上。