一种构建蔷薇科原始染色体的方法转让专利

申请号 : CN201110439976.5

文献号 : CN102559880B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张启翔孙丽丹黄邦清陈文彬程堂仁杨炜茹王佳

申请人 : 北京林业大学深圳华大基因科技有限公司

摘要 :

本发明提供了一种基于生物信息学的方法构建蔷薇科原始染色体的方法及其应用。本发明方法是通过对比苹果、草莓和梅花三个蔷薇科已知基因数据,鉴定同源基因,确定参考物种染色体间关系,确定已测序物种与参考物种染色体间关系,从而构建蔷薇科原始染色体和确定测序物种从祖先染色体的进化历史。

权利要求 :

1.一种构建蔷薇科原始染色体的方法,包括以下步骤:

1)收集蔷薇科已测序物种数据;其中,所述的已测序物种为苹果、草莓、梅花;物种数据是物种基因CDS序列和基因在染色体上的定位信息;

2)鉴定同源基因;所述的鉴定同源基因是将两个基因blast的结果用累加一致性百分比CIP和累加比对长度百分比CALP鉴定同源基因;

3)确定参考物种染色体同源区域;其中,步骤3)的确定参考物种染色体同源区域是通过参考物种的自身blastn比对找到的同源区域,得到参考物种基因的染色体复制信息;

4)确定比对物种和参考物种在染色体上的同源区域;所述步骤4)中,通过比对物种和参考物种之间的blastn比对找到在染色体上的同源区域;

5)构建原始染色体,通过参考物种自身比对和比对物种与参考物种的比对得到的在染色体上的区域方法,实现原始染色体的构建其中,步骤3)是通过参考物种基因的CDS序列自身blastn比对,挑选E-value小于1e-5的基因比对结果;计算两个基因的CIP和CALP值,判定同源基因,保留一个比对基因对应一个参考基因的结果;根据挑选出的基因对及这些基因在染色体上的坐标信息,运行CloseUp软件,得到参考物种的复制区域;根据区域结果确定参考物种的复制信息,从而得到参考物种基因的染色体复制信息; 所述参考物种为苹果,所述比对物种为梅花和/或草莓; 其中,在步骤2)同源基因的鉴定中,两个基因比对的CIP和CALP;根据比对物种基因和参考物种基因blastn的比对结果和比对基因的长度来计算;比对基因A和参考基因B的CIP=∑(NAB/LAB)×100,其中NAB为基因A和基因B每段比对上的长度,LAB为基因A和基因B参与比对的长度;基因A和基因B的CALP=(LAB/LA)×100,其中LAB为基因A和基因B参与比对的长度,LA为基因A的长度;对于苹果自身比对,blastn E-value小于1e-5,CIP和CALP都大于70的基因对判定为同源基因;对于梅花、草 莓与苹果的比对,blastn E-value小于1e-5,CIP大于60,且CALP大于70的基因对判定为同源基因;苹果内部的比对得到

85560对同源基因;梅花与苹果之间的比对得到30463对同源基因;草莓与苹果之间的比对得到13227对同源基因;其中,步骤4)是通过参考物种与比对物种的CDS序列blastn比对,挑选E-value小于1e-5的基因比对结果;计算基因的CIP和CALP值,判定同源基因,保留一个比对基因对应一个参考基因的结果;根据挑选出的基因对及这些基因在染色体上的坐标信息,运行CloseUp软件,得到比对物种和参考物种同源基因的区域;根据区域结果确定比对物种和参考物种在染色体上的同源区域; 所述运行CloseUp软件的参数为Minimum number of matches in a run=5,Minimum Cluster density ratio=2,Maximum Cluster length difference=40,其余参数默认; 所述步骤5)是根据参考物种自身的复制信息、区域和比对物种与参考物种比对得到的同源区域,确定测序物种的同源区域及组合信息,并构建其从祖先染色体到现在的演化历史,从而实现原始染色体的构建。

说明书 :

一种构建蔷薇科原始染色体的方法

技术领域

[0001] 本发明涉及生物信息学领域,具体涉及一种构建蔷薇科原始染色体的方法及其应用。
[0002] 背景技术
[0003] 古基因组学是根据现有物种的基因创建原始的基因组,是对原始基因组结构的研究。在silico共线性研究中,通过染色体片段适度的重新洗牌重建哺乳动物的原始基因。相对于哺乳动物而言,古基因组学在植物中研究较少,因为被子植物经历了多次的全基因组复制,大片段的复制,二倍体化,小规模的重排和基因的复制事件,致使在单子叶植物和双子叶植物中的比较基因组研究相当困难。在过去的几十年中,比较基因组学的研究在单子叶植物特别是在草类中有很大的进展。Jerome salse利用小麦,大麦,水稻,大豆和玉米这5个谷类的基因信息,预测了禾本科5条原始的染色体【Jerome salse,et al Reconstruction of monocotelydoneous proto-Chromos omes reveals faster evolution in plants than in animals.PNAS,2009,35:14908-14913】。在真双子叶植物中,Jaillon and Velasco基于葡萄、拟南芥和杨树的基因组信息,预测了其7条原始染色体【Jaillon O,et al.The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla.Nature,2007,449:463-467;Velasco R,et al.A high quality draft consensus sequence of the genome of a heterozygous grapevine variety.2007】。
[0004] 蔷薇科由100多个属,3000多个种组成,是温带地区第三大重要的经济植物,所包含的水果,坚果,观赏植物等,均具有重要的食用和观赏价值。根据果实的类型,蔷薇科分为4个亚科,包括蔷薇亚科(x=7,8或是9),李亚科(x=8),绣线菊亚科(x=9),和苹果亚科(x=17)。随着测序技术的发展和成本的降低,蔷薇科中苹果和草莓均已完成全基因组测序,李亚科中的梅花的全基因组测序也已经完成。在此基础上,有必要构建蔷薇科原 始染色体,以便于对蔷薇科染色体的进化做进一步的研究。传统的构建原始染色体的方法基于SSR、RAPD等分子标记,得到数量少的同源区段构建低密度的蔷薇科原始染色体;传统构建原始染色体的方法另一不足在于仅基于Blast比对的结果,设置相应的阈值,鉴定物种间的同源基因,并应用物种内部与物种和参照物种中一对多的同源基因,容易引起同源区域的交叉干扰,且限于Mcsan等传统的软件得出同源区域较小的共线性区域。 [0005] 发明内容
[0006] 本发明的目的在于构建蔷薇科原始染色体的方法及其应用。
[0007] 本发明的技术方案如图1所示。
[0008] 本发明提供了一种构建蔷薇科原始染色体的方法,包括以下步骤: [0009] (1)收集蔷薇科已测序物种数据;
[0010] (2)鉴定同源基因;
[0011] (3)确定参考物种染色体同源区域;
[0012] (4)确定比对物种和参考物种在染色体上的同源区域;
[0013] (5)构建原始染色体。
[0014] 具体地,上述方法的步骤1)是获得物种基因CDS序列和基因在染色体上的定位信息。
[0015] 步骤2)是将两个基因blast的结果用累加一致性百分比(CIP,cumulative identity percentage)和累加比对长度百分比(CALP,cumulative alignment length percentage)鉴定同源基因。
[0016] 所述步骤3)是是通过参考物种的自身blastn比对找到的同源区域,得到参考物种基因的染色体复制信息。
[0017] 具体地,是通过参考物种基因的CDS序列自身blastn比对,挑选E-value小于1e-5的基因比对结果;计算两个基因的CIP和CALP值,判定同源基因,保留一个比对基因对应一个参考基因的结果;根据挑选出的基因对及这些基因在染色体上的坐标信息,运行CloseUp软件,得到参考物种的复制区域;根据区域结果确定参考物种的复制信息。 [0018] 所述步骤4)是比对物种和参考物种之间的blastn比对找到的同源区域。具体是挑选E-value小于1e-5的基因比对结果;计算基因的CIP和CALP值,判定同源基因,保留一个比对基因对应一个参考基因的结果;根据挑选出的基因对及这些基因在染色体上的坐标信息,运行CloseUp软件,得到比对物种和参考物种同源基因的区域;根据区域结果确定比对物种和参考物种在染色体上的同源区域。
[0019] 所述步骤5)是根据参考物种自身的复制信息、区域和比对物种与参考物种比对得到的同源区域,确定测序物种的同源区域及组合信息,并构建其从祖先染色体到现在的演化历史。
[0020] 本发明提供的一种构建蔷薇科原始染色体方法中,获得的已测序物种为苹果、草莓、梅花。
[0021] 本发明的参考物种为苹果,所述比对物种为梅花和/或草莓。
[0022] 本发明提供了上述方法在确定植物物种祖先染色体进化方面的应用。 [0023] 所述的植物为蔷薇科植物。
[0024] 本发明首次在基因组的水平上,通过生物信息学的方法确定蔷薇科原始染色体的进化历史,构建了蔷薇科原始染色体构建蔷薇科的9条原始染色体,解析梅花、草莓和苹果三个物种之间的共线性关系,为研究梅花、草莓和苹果三个物种间的进化奠定了基础,有助于对蔷薇科其他物种演变历程的研究。本发明方法的有益效果为突破常规同源比对的方法,使用严格的鉴定同源基因的指标,首次在全基因组水平上揭示苹果、梅花和草莓染色体之间的共线性关系,得到数量多的同源区段构建高密度的蔷薇科原始染色体,促进对李属、苹果属和草莓属进化关系的研究。本发明方法引入了CIP和CALP两个参数来鉴定物种间的同源基因,提供了鉴定同源基因的准确性,并且本发明挑选物种内部与物种和参照物种中一对一的同源基因,避免了同源区段的干扰,其本方法应用CloseUP软件来判断基因组的同源区域,并根据区域间基因的相交关系合并区域,扩大了基因组的同源区域。因此本发明具有重要的应用前景。
[0025] 附图说明
[0026] 图1是本发明方法的技术路线图。
[0027] 具体实施方式
[0028] 以下实施例进一步说明本发明的内容,但不应理解为对本发明的限制。在不背离本发明精神和实质的情况下,对本发明方法、步骤或条件所作的修改或替换,均属于本发明的范围。若未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段。 [0029] 实施例1
[0030] 1、苹果,草莓和梅花基因组数据的收集。从http://www.rosaceae.org/projects/apple_genome得到苹果基因CDS序列和基因在染色体上的定位信息;从http://www.strawberrygenome.org/下载草莓基因CDS序列、基因在染色体的定位信息;梅花全基因组测序得到CDS序列、基因在染色体的定位信息。2、同源基因的鉴定。两个基因比对的累加一致性百分比(CIP:cumulative identity percentage)和累加比对长度百分比(CALP:cumulative alignment length percentage)。根据比对物种(query)基因和参考物种(subject)基因blastn的比对结果和比对基因的长度来计算。比对基因A和参考基因B的CIP=∑(NAB/LAB)×100,其中NAB为基因A和基因B每段比对上的长度,LAB为基因A和基因B参与比对的长度;基因A和基因B的CALP=(LAB/LA)×100,其中LAB为基因A和基因B参与比对的长度,LA为基因A的长度。对于苹果自身比对,blastn E-value小于1e-5,CIP和CALP都大于70的基因对判定为同源基因;对于梅花、草莓与苹果的比对,blastn E-value小于1e-5,CIP大于60,且CALP大于70的基因对判定为同源基因。苹果内部的比对得到
85560对同源基因;梅花与苹果之间的比对得到30463对同源基因;草莓与苹果之间的比对得到13227对同源基因。
[0031] 3、苹果染色体间来源的确定。根据苹果自身比对得到的同源基因,去除基因自身比对的结果及比对基因和参考基因都在同一条染色体上的基因对;去除一个比对基因比上多个参考基因的基因对,仅保留一个比对基因对应 一个参考基因的结果,得到10754对同源基因;根据挑选出的基因对及这些基因在染色体上的坐标信息,运行CloseUp软件(Minimum number of matches in a run=5,Minimum Cluster density ratio=2,Maximum Cluster length difference=40,其余参数默认),得到苹果的复制区域,共57986个区域块;根据区域间基因的相交关系合并区域,得253个区域块,共7999对基因;根据结果确定苹果的复制信息,见表1。
[0032] 4、参考物种和苹果的比对。将作为比对物种的梅花基因和草莓基因与作为参考物种的苹果基因分别比对得到的同源基因,去除一个比对基因比上多个参考的基因对,仅保留一个比对基因对应一个参考的基因对,过滤后,梅花与苹果之间得到5915对同源基因,草莓与苹果之间得到3012对同源基因;根据挑选出的基因对及这些基因在染色体上的坐标信息,运行CloseUp软件(Minimum number of matches in a run=5,Minimum Cluster density ratio=2,Maximum Cluster length difference=40,其余参数默认),得到比对物种和苹果的同源区域,梅花与苹果之间共25503个区域块,草莓与苹果之间共8103个区域块;根据区域间基因的相交关系合并区域,梅花与苹果之间得到174个区域块,4584对同源基因,草莓与苹果之间得到132个区域块,2031对同源基因;根据区域结果确定比对物种(梅花与草莓)和参考物种苹果在染色体上的同源区域(表2和表3)。 [0033] 5、确定蔷薇科祖先染色体和苹果、草莓和梅花从祖先染色体的进化历史。根据苹果自身的复制信息、区域和草莓及梅花与苹果比对得到的同源区域,确定三个物种的同源区域及组合信息,并根据组合信息确定蔷薇科9条祖先染色体,并揭示出草莓经过15次染色体间的融合由祖先的9条染色体演化为7条染色体(表3),苹果经过一次全基因组复制和5次染色体间的融合由祖先的9条染色体演化为17条染色体(表1),梅花经过15次染色体间的融合由祖先的9条染色体演化为8条染色体,并且梅花4,5,7号染色体并没有经历重排,分别来自祖先3,7,6号染色体(表2)。
[0034]
[0035]
[0036]
[0037]
[0038]
[0039]
[0040]
[0041]
[0042]
[0043]
[0044]
[0045]
[0046]
[0047]
[0048]