一种获得活体营养型植物病原卵菌无污染基因组的方法转让专利
申请号 : CN201911223140.4
文献号 : CN111028889B
文献日 : 2021-04-20
发明人 : 尹玲 , 曲俊杰
申请人 : 广西壮族自治区农业科学院
摘要 :
权利要求 :
1.一种获得活体营养型植物病原卵菌无污染基因组的方法,其特征在于,包括以下步骤:
(1)进行污染源的鉴定工作,基于获得的污染源对应的物种信息,直接从NCBI下载候选污染物种对应的全基因组序列,并将这些基因组序列合并到一个文件中;
其中,所述污染源的鉴定工作步骤为:
(a)组装denovo测序的原始基因组测序数据,得到组装结果;
(b)将组装结果与NCBI的NT数据库进行blast比对,得到有同源性的序列,作为原始比对数据库;
(c)从原始比对数据库中,提取序列对应的物种信息并排序,将序列对应的物种从多到少进行排序,判断是否存在外源污染;
(d)将组装结果进行基因结构的注释并获得对应的基因所翻译蛋白的氨基酸序列,将氨基酸序列与NCBI的NR数据库进行blast比对;
(e)得到步骤(d)的比对结果后,再依照步骤(c)的方法,提取物种信息和排序,将氨基酸序列对应的物种从多到少进行排序,判断是否存在外源污染;
(f)结合步骤(c)和步骤(e)的结果,根据两步分析统计中均存在的结果,最终确定污染情况及具体污染源;
其中,步骤(a)中采用基于k‑mer的开源基因组组装软件进行组装;
其中,步骤(b)中进行blast比对时使用的具体命令为:blastall‑p blastn‑dBlastDB‑i in_file.fasta‑m8–b 20‑e 1e‑5>blast_output;
其中,步骤(c)中,提取物种信息和排序的功能是通过基于Java程序的算法来实现的,具体包含以下两个步骤:
①java PollutedIdentificationgetAnnotationFromNCBIDBByBlastOutblastOutResultncbiDB>result1,本步骤从NCBI的数据库中获取原始比对数据库中每条序列对应的注释信息,注释信息中就包含对应的物种信息;②java PollutedIdentificationgetPollutedSpeciesInfoByNCBIDBBlastOut result1ThreadHold>result2,本步骤设定e value≤
1e‑5、identity≥80%,将第①步的结果中的物种信息进行统计,凡是大于设定阈值的物种都会被统计,从而得到最终的物种统计结果,最终统计结果的格式为:每一个物种信息占一行,每行两列,第一列为物种信息,第二列为对应的比对到此物种的query序列总数,统计结果以文本文档的格式用记事本或Notepad++软件打开,然后将内容拷贝到excel表格中,按第二列统计数字按从大到小排序,排序后,就清晰直观的观察到最终的组装序列对应的物种从多到少的排序,进而根据物种的信息,判断是否有污染,以及主要污染源及其污染情况;
其中,在完成步骤(c)之后,根据排序结果判断,如排在最前面的不是测序物种及近源物种,而是细菌或其他明显为污染的物种,且e value≤1e‑5、identity≥80%,就说明污染较严重;或排在前面的是近源物种,但其他非近源物种的e value≤1e‑5、identity≥80%,且每个占比或总量≥1%,也说明有污染;
其中,在步骤(d)中,使用AUGUSTUS软件将组装结果进行基因结构的注释并获得对应的基因所翻译蛋白的氨基酸序列;进行blast比对时使用的具体命令为:blastall‑p blastp‑dBlastDB‑i in_file.fasta‑m8–b 20‑e 1e‑5>blast_output2;
(2)以步骤(1)合并的污染源全基因组序列文件作为reference,将高通量测序得到的待组装的原始reads map到reference,根据比对结果,将map到污染源reference的reads去除,没有map上的reads保留;
(3)将保留的reads再组装,基于组装结果,重复(1)、(2)步骤,直至没有更多的污染数据被去除,并利用这些最终保留的reads进行组装,获得组装结果;
(4)将获得的组装结果作为reference,将用于组装的reads map比对到该reference,保留原始的比对结果;
(5)将步骤(4)使用的reference分成多个窗口,根据步骤(4)中的比对结果统计每个窗口的基因组区域的深度平均值和GC含量;
(6)以步骤(5)统计的每个窗口的GC含量为横坐标,以对应的深度平均值为纵坐标,在二维坐标系中标注出所有窗口GC含量和深度平均值的统计结果,最终绘制成一个GC分布图,由于活体营养型植物病原卵菌基因组的GC含量和测序深度与可能的污染源物种存在差异,因此属于植物病原卵菌的统计点会集中分布在一起,与可能的污染源物种的统计点分布在坐标系中会产生明显的分离,因此通过GC分布将植物病原卵菌和污染源物种基因组的窗口区域区分开,进而获得污染源物种基因组对应的窗口区域;
(7)获得污染源物种基因组的窗口区域,并根据第4步的map结果,去除map到污染源物种基因组窗口区域的reads序列,保留剩余的reads;
(8)将剩余的reads再组装,得到最终的组装结果。
2.按照权利要求1所述的方法,其特征在于:在步骤(5)中,将reference以每500bp作为一个窗口进行统计,依次统计窗口内每一个位点的read map深度,计算深度平均值;同时统计窗口内500bp的基因组区域的GC含量;统计结束后,将统计窗口后移,统计下一个500bp的窗口的GC含量和深度;直至将全基因组的GC含量和深度统计完毕。
3.按照权利要求1所述的方法,其特征在于,在步骤(5)中深度平均值的计算方法为:
500个位点的深度值累加后,再除以500。
4.按照权利要求1所述的方法,其特征在于,在步骤(5)中GC含量的统计方法为:窗口内的G或C的碱基总数,除以500,再乘以100%。
说明书 :
一种获得活体营养型植物病原卵菌无污染基因组的方法
技术领域
背景技术
真菌界中,随着学科的发展,卵菌纲早已从真菌中划分到藻界或茸鞭生物界。
植物寄生在一起,导致该类型的致病菌无法离开寄主植物存活繁殖,无法对活体营养型植
物病原卵菌在离体的无菌培养基上进行培养,这类病原菌有葡萄霜霉菌、拟南芥霜霉菌、黄
瓜霜霉菌等。因此在活体营养型植物病原卵菌的菌株培养和收集过程中,必须通过采集寄
主植物的组织,如植物叶片对其进行侵染培养,在整个操作过程中,不可避免的会接触外界
空气、环境,植物的组织也不可能生长在无菌环境。以上特点,决定了对活体营养型植物病
原卵菌的收集和DNA提取过程中,无法避免寄主植物和环境微生物的DNA污染掺入,特别是
环境微生物。通常情况下,在最终的高通量测序数据中,有相当一部分测序数据(最多可达
到40%~50%左右)为外源污染数据,因此需要有效分析鉴定出外源污染数据,组装活体营
养型植物病原卵菌无污染基因组。
SpecificPutative Host Adaptation Genes”文章,提及了一种相对完整的去污染和组装
方法:
平,但可能同时将一些本来想留下的活体营养型植物病原卵菌的测序数据也扔掉了。这可
能是在进行第4步时导致的。由于测序的偏好性,一些活体营养型植物病原卵菌的基因组区
域测序深度较低;另外,一些没有比对到植物病原卵菌或同源物种上的contig及其原始
reads,可能是一些潜在的尚未被发现的未知植物病原卵菌基因组区域,因此在已知的公共
数据库中没有记录;这些基因组区域及其对应的测序数据,也被该方法错误的丢弃了。
序列被错误的去除的可能性。出现以上问题的原因是由于该方法在鉴定污染时,仅仅是以
组装结果中,鉴定到的属于污染物种的contig作为参考去除map到这些contig上的reads,
而不是以该污染物种对应的完整的基因组序列作为参考。而实际上,由于用于组装的原始
数据中,只含有部分的污染物种序列,大部分的序列仍为测序的植物病原卵菌序列,且同时
含有其他污染物种的序列;由于污染物种原始数据的测序深度不足导致最终组装结果中污
染物种的contig很有可能仅仅是污染物种基因组的一部分,很多污染物种的基因组区域,
虽然有测序数据覆盖,但由于测序深度低而没有组装出来;另外,因为原始数据的物种来源
混杂,最终的contig组装结果往往不是来自某个单一物种,而是中间还掺杂着其他物种的
信息,比如待测序的植物病原卵菌。所以,以这些contig为参考,最终去除及保留的reads,
存在两个问题:一是可能去除不够彻底,有些reads属于污染物种,但由于没有被组装到
contig中,导致无法通过reads map剔除出来;二是由于contig中可能掺杂其他物种,特别
是待测序的植物病原卵菌,导致本该留下的植物病原卵菌reads序列也被错误的剔除出去
了。
complexprotein coding and noncoding‑based arms race during infection”文章,也
提及了一种污染处理及组装的方法:
盖信息,将预测为Stramenopiles类或者没有物种信息的,且测序深度覆盖较高的区域,截
断并作为候选scaffold保留;
信息为Stramenopiles类或者没有任何比对结果的scaffold认为是Plasmopara类,将其留
下;将剩余的比对结果为非Stramenopiles类的scaffold扔掉;
的组装结果。
信息的,而有些区域,是没有基因注释的。但是该方法基于先是基于基因注释信息进行污染
鉴定,会直接导致步骤3、4、5存在鉴定错误的情况。
scaffold中,可能存在Stramenopiles类且没有基因注释的基因组区域被错误的认定为非
Stramenopiles类,这些区域被错误的剔除了。步骤5中判定的scaffold中最终被保留下来
的区域以及被剔除的区域中,同时存在以上步骤3和4中被错误保留或错误剔除的可能。步
骤6中根据与NCBI的NT库比对的结果决定scaffold的去留,本质上与基于预测的基因集与
NCBI的NR库比对的结果决定scaffold的去留一致,同样存在被错误保留或错误剔除的可
能。
找到一个十分准确的碱基位置,在该位置的一边是测序物种序列,另一边紧接着就是污染
物种的序列。另外一个不容忽视的问题是有些活体营养型植物病原卵菌的基因组区域,由
于测序深度低等原因,未能组装出来,这些区域对应的原始reads信息,无法通过该方法被
识别并保留。
现象。利用这些最终的reads进行二次组装,自然无法最大化的保证组装结果的纯净度,也
无法确保基因组的完整度。
型及污染程度的情况,但该方法仅仅局限在污染源的鉴定层面,但如何对污染数据进行有
效的精准快速去除,并进一步获得准确的基因组组装结果,该方法并没有涉及。
系到后续基因组分析和致病基因预测的准确性,对后续科学研究具有重要意义。
发明内容
物病原卵菌无污染基因组的方法。
息,直接从NCBI下载候选污染物种对应的全基因组序列,并将这些基因组序列合并到一个
文件中;
的注释信息,注释信息中就包含对应的物种信息;②java PollutedIdentificationgetPo
llutedSpeciesInfoByNCBIDBBlastOut result1ThreadHold>result2,本步骤设定e value
≤1e‑5、identity≥80%,将第①步的结果中的物种信息进行统计,凡是大于设定阈值的物
种都会被统计,从而得到最终的物种统计结果,最终统计结果的格式为:每一个物种信息占
一行,每行两列,第一列为物种信息,第二列为对应的比对到此物种的query序列总数,统计
结果以文本文档的格式用记事本或Notepad++软件打开,然后将内容拷贝到excel表格中,
按第二列统计数字按从大到小排序,排序后,就可以清晰直观的观察到最终的组装序列对
应的物种从多到少的排序,进而根据物种的信息,判断是否有污染,以及主要污染源及其污
染情况;
物等),且e value≤1e‑5、identity≥80%,就说明污染较严重;或排在前面的是近源物种,
但其他非近源物种的e value≤1e‑5、identity≥80%,且每个占比或总量≥1%,也说明有
污染;
blastp‑dBlastDB‑i in_file.fasta‑m8–b 20‑e 1e‑5>blast_output2;
reads去除,没有map上的reads保留;
分布图,由于活体营养型植物病原卵菌的GC含量和测序深度与可能的污染源物种存在差
异,因此属于植物病原卵菌的统计点会集中分布在一起,与可能的污染源物种的统计点分
布在坐标系中会产生明显的分离,因此可通过GC分布将植物病原卵菌和污染源物种基因组
的窗口区域区分开,进而获得污染源物种基因组对应的窗口区域;
GC含量;统计结束后,将统计窗口后移,统计下一个500bp的窗口的GC含量和深度;直至将全
基因组的GC含量和深度统计完毕。
去除,取代前人方法中以组装出的代表污染源部分基因组的contig组装结果作为
reference作为污染源reads鉴定的方法,从根本上保证最全面的去除属于污染源物种的
reads,且彻底杜绝出现将活体营养型植物病原卵菌reads被错误去除的可能性;
离,并将对应的原始reads分离去除,将最终去除后的reads进行组装,获得最终的组装结
果。
去除的现象,并且彻底解决了仅仅依赖已知数据库,无法鉴定和去除未知污染源数据的短
板。依赖更完整更纯净的活体营养型植物病原卵菌原始reads信息,从根本上保证获得的活
体营养型植物病原卵菌基因组序列信息的完整性和准确性,为后续挖掘致病相关基因并对
其进行致病机理研究,揭示活体营养型植物病原卵菌的致病机制及其与寄主植物的互作机
制,提供有力保证。
具体实施方式
均为常规生化试剂,购自试剂公司。
方法》(CN201610117589)公开的方法进行污染源的鉴定工作,鉴定到包括寄主植物在内的
246种污染源物种,直接从NCBI下载候选污染物种对应的全基因组序列,并将这些基因组序
列合并到一个文件中;
reads去除,没有map上的reads保留;
044条,共计14.7G,去除的污染数据量占原始数据量的24%,利用最终保留的reads进行组
装,得到1598条contig,共计98.2M的基因组,contig N50达到404.7K,GC含量为45.21%;
含量;统计结束后,将统计窗口后移,统计下一个500bp的窗口的GC含量和深度,直至将全基
因组的GC含量和深度统计完毕;
分布图,由于葡萄霜霉菌的GC含量和测序深度与可能的污染源物种存在差异,因此属于葡
萄霜霉菌的统计点会集中分布在一起,与可能的污染源物种的统计点分布在坐标系中会产
生明显的分离,因此可通过GC分布将葡萄霜霉菌和污染源物种基因组的窗口区域区分开,
进而获得污染源物种基因组对应的窗口区域;
得了98.2M的葡萄霜霉菌基因组。
此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。