一种基因注释方法和系统转让专利

申请号 : CN201010213759.X

文献号 : CN101894211B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 徐讯张博

申请人 : 深圳华大基因科技有限公司

摘要 :

本发明公开一种基因注释方法和系统。该方法包括:采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。本发明中的多证据联合基因注释方法和系统,有效整合了传统基因注释方法的优点。进一步运用源自目标物种自身的转录组测序数据,能够最大程度的保证基因结构的准确性,同时能够最大程度的获取基因可变剪接形式的注释。

权利要求 :

1.一种基因注释方法,其特征在于,包括:

采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;

采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;

根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列;

运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;

对获得的目标基因组的表达序列进行编码区预测,确定优选读码框及其相应的蛋白质序列数据集;

比较并整合获得的综合基因预测结果和表达基因数据集,针对目标基因组序列获得含有可变剪接形式的基因注释结果。

2.根据权利要求1所述的基因注释方法,其特征在于,采用先比对后组装策略或者先组装后比对策略进行所述转录组序列组装及基因组定位。

3.根据权利要求1所述的基因注释方法,其特征在于,所述比较并整合获得的综合基因预测结果和表达基因数据集的步骤包括:对于所述综合基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采用目标物种自身转录组序列组装及基因组定位结果替换所述综合基因预测结果;

和/或

对于所述综合基因预测结果和转录组序列组装及基因组定位结果差异较大的情况,分别将综合基因预测结果与转录组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。

4.根据权利要求1所述的基因注释方法,其特征在于,所述采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置的步骤包括:采用多种基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置。

5.根据权利要求1至4中任意一项所述的基因注释方法,其特征在于,所述基于序列特征与统计模型的基因预测方法包括隐马科夫模型、人工神经网络、支持向量机、和/或贝叶斯网络。

6.根据权利要求1至4中任意一项所述的基因注释方法,其特征在于,所述采用基于序列相似性的基因注释方法将已知基因序列和物种间同源保守序列比对到目标基因组上的步骤包括:基于序列相似性的基因预测工具NSCAN、GeneWise、TWAIN、或PASA,或者采用常规的序列比对软件BLAST、GMAP、或sim4将已知基因序列和物种间同源保守序列比对到目标基因组上。

7.根据权利要求1至4中任意一项所述的基因注释方法,其特征在于,根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果获得综合基因预测结果及相应的编码序列的步骤包括:将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位置的不同结果转换为统一的标准格式;

根据不同支持证据的可信度与可靠性设定不同的权重和阈值;

运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序列。

8.一种基因注释系统,其特征在于,包括:

统计基因预测装置,用于通过基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;

相似基因比对装置,用于采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;

结果整合与筛选装置,用于根据所述统计基因预测装置获得的所述目标基因组上潜在基因的位置和所述相似基因比对装置获得的目标基因组上的相似基因的位置,采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列;

转录组序列组装及定位装置,用于通过运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;

编码区预测装置,用于对所述转录组序列组装及定位装置获得的目标基因组的表达序列进行编码区预测,确定优选读码框及其相应的蛋白质序列数据集;

可变剪接基因注释装置,用于比较并整合所述结果整合与筛选装置获得的综合基因预测结果和所述编码区预测装置获得的表达基因数据集,针对目标基因组序列获得含有可变剪接形式的基因注释结果。

9.根据权利要求8所述的基因注释系统,其特征在于,所述转录组序列组装及定位装置采用先比对后组装策略或者先组装后比对策略进行转录组序列组装及基因组定位。

10.根据权利要求8所述的基因注释系统,其特征在于,所述可变剪接基因注释装置对于所述综合基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采用目标物种自身转录组序列组装及基因组定位结果替换综合基因预测结果;和/或对于所述综合基因预测结果和转录组序列组装及基因组定位结果差异较大的情况,分别将综合基因预测结果与转录组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。

11.根据权利要求8至10中任意一项所述的基因注释系统,其特征在于,所述结果整合与筛选装置用于将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位置的不同结果转换为统一的标准格式;根据不同支持证据的可信度与可靠性设定不同的权重和阈值;运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序列。

说明书 :

一种基因注释方法和系统

技术领域

[0001] 本发明涉及生物信息技术领域,尤其涉及一种基因注释方法和系统。

背景技术

[0002] 基因注释,即在基因组序列上标定基因位置与组成结构,是基因组学研究的一个必需步骤和基本前提。注释结果的好坏直接影响到后续研究的有效性和准确性。随着基因组学和生物信息学的不断发展,多种多样的基因结构注释方法和软件日益涌现。总体上可分为基于序列内在特征与统计模型的de novo方法和基于序列相似性的方法。但是,现阶段的单一算法的基因注释工具在真核生物基因结构预测,特别是可变剪接形式等方面的敏感性和准确性方面仍然存在着巨大的技术瓶颈,需要大量的人工检查和验证的后续工作。

发明内容

[0003] 本发明要解决的一个技术问题是提供一种基因注释方法,可以提高基因注释结果的准确性。
[0004] 根据本发明的一个方面,提供一种基因注释方法,包括:
[0005] 采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;
[0006] 采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;
[0007] 根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。
[0008] 根据本发明的基因注释方法的一个实施例,还包括步骤:
[0009] 运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;
[0010] 对获得的目标基因组的表达序列进行编码区预测,确定优选读码框及其相应的蛋白质序列数据集;
[0011] 比较并整合获得的综合基因预测结果和表达基因数据集,针对目标基因组序列获得含有可变剪接形式的基因注释结果。
[0012] 根据本发明的基因注释方法的一个实施例,采用先比对后组装策略或者先组装后比对策略进行所述转录组序列组装及基因组定位。
[0013] 根据本发明的基因注释方法的一个实施例,上述比较并整合获得的综合基因预测结果和表达基因数据集的步骤包括:
[0014] 对于所述综合基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采用目标物种自身转录组序列组装及基因组定位结果替换综合基因预测结果;
[0015] 对于所述综合基因预测结果和转录组序列组装及基因组定位结果差异较大的情况,分别将综合基因预测结果与转录组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。
[0016] 根据本发明的基因注释方法的一个实施例,采用基于序列相似性的基因注释方法将已知基因序列和物种间同源保守序列比对到目标基因组上的步骤包括:
[0017] 基于序列相似性的基因预测工具NSCAN、GeneWise、TWAIN、或PASA,或者采用常规的序列比对软件BLAST、GMAP、或sim4将已知基因序列和物种间同源保守序列比对到目标基因组上。
[0018] 根据本发明的基因注释方法的一个实施例,根据所述目标基因组上潜在基因的位置和相似基因的位置采用加权投票的方法整合并筛选预测结果获得综合基因预测结果及相应的编码序列的步骤包括:
[0019] 将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位置的不同结果转换为统一的标准格式;
[0020] 根据不同支持证据的可信度与可靠性设定不同的权重和阈值;
[0021] 运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序列。
[0022] 本发明的基因注释方法,通过统计学模型预测潜在基因的位置,可能发现未知基因,根据已知基因的序列的比对结果来标记相似序列位置和结构,精度相对较高;综合预测结果整合了两种方法得到的结果,不仅提高了精度,又发现未知基因。
[0023] 进一步,在整合预测结果的基础上,运用目标物种转录组高通量测序数据辅助,能够在很大程度上提高基因注释的准确性,补充并完善基因注释结果。
[0024] 本发明要解决的一个技术问题是提供一种基因注释系统,可以提高基因注释结果的准确性。
[0025] 根据本发明的另一方面,提供一种基因注释系统,包括:
[0026] 统计基因预测装置,用于通过基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;
[0027] 相似基因比对装置,用于采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;
[0028] 结果整合与筛选装置,用于根据所述统计基因预测装置获得的所述目标基因组上潜在基因的位置和所述相似基因比对装置获得的目标基因组上的相似基因的位置,采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。
[0029] 根据本发明的基因注释系统的一个实施例,还包括:
[0030] 转录组序列组装及定位装置,用于通过运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;
[0031] 编码区预测装置,用于对所述转录组序列组装及定位装置获得的目标基因组的表达序列进行编码区预测,确定优选读码框及其相应的蛋白质序列数据集;
[0032] 可变剪接基因注释装置,用于比较并整合所述结果整合与筛选装置获得的综合基因预测结果和所述编码区预测装置获得的表达基因数据集,针对目标基因组序列获得含有可变剪接形式的基因注释结果。
[0033] 根据本发明的基因注释系统的一个实施例,转录组序列组装及定位装置采用先比对后组装策略或者先组装后比对策略进行转录组序列组装及基因组定位。
[0034] 根据本发明的基因注释系统的一个实施例,可变剪接基因注释装置对于所述综合基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采用目标物种自身转录组序列组装及基因组定位结果替换综合基因预测结果;和/或对于所述综合基因预测结果和转录组序列组装及基因组定位结果差异较大的情况,分别将综合基因预测结果与转录组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。
[0035] 根据本发明的基因注释系统的一个实施例,结果整合与筛选装置用于将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位置的不同结果转换为统一的标准格式;根据不同支持证据的可信度与可靠性设定不同的权重和阈值;运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序列。
[0036] 本发明的基因注释系统,通过统计基因预测装置预测潜在基因的位置,可能发现未知基因,相似基因比对装置根据已知基因的序列的比对结果来标记相似序列位置和结构,精度相对较高;结果整合与筛选装置整合了两种方法得到的结果,不仅提高了精度,同时也可能发现未知基因。

附图说明

[0037] 图1示出本发明的基因注释方法的一个实施例的流程图;
[0038] 图2示出本发明的基因注释方法的另一个实施例的流程图;
[0039] 图3示出本发明的基因注释方法的一个应用例的流程图;
[0040] 图4示出本发明的基因注释系统的一个实施例的框图;
[0041] 图5示出本发明的基因注释系统的另一实施例的框图。

具体实施方式

[0042] 下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。
[0043] 联合多方面预测结果的综合性注释方法被证明为更加有效和准确的基因注释方法。尤其是加入了生物体自身基因表达数据支持后的注释结果,在基因结构预测的准确性方面得到有效提升,大大减少了后续人工查错和验证的工作量,并使得大规模自动化流程化的基因注释结果更加可靠,进而提高了生产效率。
[0044] 图1示出本发明的基因注释方法的一个实施例的流程图。
[0045] 如图1所示,在步骤102,采用基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置。可以采用多种基于序列特征与统计模型的基因预测方法进行基因预测。根据不同算法平行地获取多个预测结果有益于提高基因注释的准确性。
[0046] 在步骤104,采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置。可以尽可能多的比较已知基因数据库,如:非冗余蛋白质数据库、表达序列标签(Expressed Sequence Tag,EST)数据库、UniGene数据库、保守序列数据库以及重复序列数据库等等。通过和多个已知基因数据库进行比较,能够更准确地标定基因组序列中潜在基因的范围。
[0047] 在步骤106,根据目标基因组上潜在基因的位置和相似基因的位置,采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。综合基因预测结果包括基因的开始和结束位置、编码序列等信息。进一步,可以根据基因编码序列获得蛋白质序列数据集。
[0048] 在该实施例中,通过统计学模型预测潜在基因的位置,可能发现未知基因,根据已知基因的序列的比对结果来标记相似序列位置和结构,精度相对较高;综合预测结果整合了两种方法得到的结果,不仅提高了精度,同时也可能发现未知基因。
[0049] 图2示出本发明的基因注释方法的另一个实施例的流程图。
[0050] 在步骤202,基于序列特征和统计模型的基因预测。采用多种基于序列特征和统计模型的基因预测方法,获取目标基因组序列上潜在基因的位置。采用的预测算法包括但不限于,隐马科夫模型(HiddenMarkov model,HMM)、人工神经网络(Artificial Neural Network,ANN)、支持向量机(Support Vector Machine,SVM)、贝叶斯网络(Bayesian Networks Toolbox,BNT)等。可以采用的如Genscan、Glimmer.HMM等预测工具。在采用这些预测工具时,可以有针对性地根据目标物种的基因组特征选择预测模型并调整训练参数。
[0051] 在步骤204,基于序列相似性比对的基因预测。采用基于序列相似性的基因注释方法,通过与已知基因序列和物种间同源保守序列进行序列比对,标记目标基因组上相似序列的位置和基因结构。可采用基于序列相似性的基因预测工具如NSCAN、GeneWise、TWAIN、PASA等,也可采用常规的序列比对软件BLAST、GMAP、sim4等。
[0052] 在步骤206,联合多证据加权投票的基因注释。将上述基因预测和序列比对结果作为支持证据,采用加权投票的方法,整合并筛选预测结果,获得一套综合基因预测结果及相应的编码序列和蛋白质序列数据集。可以运用整合预测工具,如GLEAN、JIGSAW、EVM等。将步骤202与步骤204中获得的不同结果转换为统一的标准格式,如GFF3.0格式,并根据不同支持证据的可信度与可靠性设定不同的权重和阈值。
[0053] 在步骤208,基于转录序列组装的基因注释,运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;
[0054] 在步骤210,对步骤208得到的所有表达序列进行编码区预测,寻找最优的读码框及其相应的蛋白质序列数据集。读码框是开放读码框的简称,其不含终止子、由编码氨基酸的三联体组成的连续DNA序列,能翻译成蛋白质。该步骤主要用于区分表达序列的类型:编码还是非编码,进一步获取编码序列对应的蛋白质序列。
[0055] 在步骤212,比较并整合步骤206所得到的综合基因预测结果与步骤210所得到的表达基因数据集,最终针对目标基因组序列获得含有可变剪接(alternative splicing)形式的高精度基因注释结果。表达基因数据集是指正常表达并能够编码蛋白质的基因(DNA序列),即在表达序列数据集中经过蛋白质编码区预测得到能够编码蛋白质的那部分DNA序列。通常来说,表达基因序列是基因组表达序列的一个子集。步骤212是对步骤206所得结果的修正与完善。对于基因预测结果与转录组序列组装及基因组定位结果高度一致的情况,应采纳目标物种自身转录组序列组装及基因组定位结果,替换基因预测结果。对于差异较大的情况,可分别将预测结果与转录组序列组装及基因组定位结果视作同一基因的不同表达形式进行注释。此外,对注释结果按照证据支持的类型和可信度进行分类,供后续的分析和研究使用。
[0056] 根据本发明的一个实施例,在缺乏高通量转录组测序数据的情况下,也可以不必进行后续的步骤208、210、212,将整合后的基因预测结果作为有效的基因注释结果供后续分析和研究。
[0057] 在整合预测结果的基础上,运用目标物种转录组高通量测序数据辅助,能够在很大程度上提高基因注释的准确性,补充并完善基因注释结果。因此,在高通量转录组测序数据可用的前提下,可以进一步进行步骤208:转录组序列组装及定位。可采用的策略包括先比对后组装或者先组装后比对等,获取并在目标基因组上定位表达基因的转录本序列。
[0058] 本领域的技术人员应当理解,本发明在综合多方面支持证据的基础上获取高精度基因注释结果,所提及的支持证据不局限于基因预测结果与相似序列比对结果等。凡有助于标定目标基因组序列上基因区域范围的数据同样适用于本方法,均可作为支持证据加入到基因注释过程。
[0059] 上述实施例的基因注释方法,采用了分层次、分权重的注释流程,通过序列特征预测、序列相似性预测、混合预测、多证据联合基因结构预测和转录数据支持的模型校正等多个步骤,可获得较为精确并含有可变剪接形式基因结构注释结果。
[0060] 下面结合图3对本发明的基因注释方法的一个应用例进行详细描述。
[0061] 图3示出本发明的基因注释方法的一个应用例的流程图。该应用例以已公开的家养大豆(Glycine max)基因 组(http://www.phytozome.net/cgi-bin/gbrowse/soybean/#search)中获取的一段长度为177kp的序列片段scaffold_41(碱基序列为AGAACGATATCCACGTTCCAGAGATAGCATTTATGTGAAGAGAAATGGTTTAATTAAGAT...<177600bp>...AAAGATTAAAAAAAATAGAGATTAAAAAAGTACTGATGTACAAAAAGACAA)为例,在进行注释之前进行数据及工具准备,包括待注释的目标基因组序列、基因预测软件、已知蛋白质及表达序列数据库、高通量转录组测序数据、序列比对软件等。该应用例包括如下步骤:
[0062] 步骤302,对基因组序列进行基于序列特征和统计模型的从头预测(Ab initio)(参见:http://en.wikipedia.org/wiki/Gene_prediction)。由于许多基因固有的特征而难于获得外源证据,从头预测方法在基因预测过程中很有必要。这种方法直接在基因组序列上系统地寻找可能的蛋白质编码基因的信号。在该序列中采用Genscan基于植物特征参数进行模型训练并预测,共得到16个预测基因。预测结果如表1所示。
[0063] 表1基于基因序列特征的预测结果
[0064]序列名 工具 特征 起始 终止 方向
scaffold_41 genscan mRNA 4943 8875 +
scaffold_41 genscan mRNA 9777 18626 -
scaffold_41 genscan mRNA 26318 39279 +
scaffold_41 genscan mRNA 41763 44257 -
scaffold_41 genscan mRNA 48229 48951 +
scaffold_41 genscan mRNA 52008 58385 +
scaffold_41 genscan mRNA 62078 66257 +
scaffold_41 genscan mRNA 71933 73383 -
scaffold_41 genscan mRNA 76688 94402 +
scaffold_41 genscan mRNA 96752 97344 -
scaffold_41 genscan mRNA 110684 113926 -
scaffold_41 genscan mRNA 117314 122968 -
scaffold_41 genscan mRNA 138871 141725 +
scaffold_41 genscan mRNA 147708 162458 +
scaffold_41 genscan mRNA 165979 174292 -
scaffold_41 genscan mRNA 175659 177077 -
[0065] 步骤304,对该基因组进行基于序列同源性的基因预测。分别使用相近物种的已知基因数据库,如拟南芥、葡萄、黄瓜、木瓜、水稻等植物的蛋白质序列数据库,与目标基因组序列进行序列比对,获取高度相似的同源序列位置。再运用基于序列相似性的基因预测软件GeneWise,结合相似序列比对结果,从该片段上预测出潜在基因片段,得到52个预测结果,如表2所示。
[0066] 表2基于同源基因相似性的预测结果
[0067]序列名 工具 特征 起始 终止 方向
scaffold_41 Gen eWise mRNA 104993 106343 +
scaffold_41 GeneWise mRNA 48229 48837 +
scaffold_41 Gen eWise mRNA 32873 33165 +
scaffold_41 GeneWise mRNA 165982 170976 -
scaffold_41 GeneWise mRNA 96827 97419 -
scaffold_41 Gen eWise mRNA 150172 151982 +
scaffold_41 GeneWise mRNA 62078 66157 +
scaffold_41 Gen eWise mRNA 87287 94137 +
scaffold_41 GeneWise mRNA 4985 8869 +
scaffold_41 Gen eWise mRNA 76619 77892 +
scaffold_41 Gen eWise mRNA 112840 113926 -
scaffold_41 GeneWise mRNA 112669 113926 -
scaffold_41 Gen eWise mRNA 76619 77892 +
scaffold_41 Gen eWise mRNA 170237 171345 -
scaffold_41 GeneWise mRNA 62084 65932 +
scaffold_41 Gen eWise mRNA 28558 30496 +
scaffold_41 Gen eWise mRNA 4943 8869 +
scaffold_41 GeneWise mRNA 166021 166805 -
scaffold_41 GeneWise mRNA 48304 48891 +
scaffold_41 Gen eWise mRNA 48520 48828 -
scaffold_41 Gen eWise mRNA 87299 93945 +
scaffold_41 Gen eWise mRNA 105771 106331 +
scaffold_41 Gen eWise mRNA 4976 8869 +
scaffold_41 Gen eWise mRNA 28672 30281 +
scaffold_41 GeneWise mRNA 102485 103057 +
scaffold_41 Gen eWise mRNA 76631 77886 +
scaffold_41 Gen eWise mRNA 165982 171345 -
scaffold_41 GeneWise mRNA 112570 113926 -
scaffold_41 GeneWise mRNA 87287 93960 +
scaffold_41 GeneWise mRNA 96827 97404 -
scaffold_41 GeneWise mRNA 149890 151970 +
scaffold_41 GeneWise mRNA 62078 66157 +
scaffold_41 GeneWise mRNA 48256 48948 +
scaffold_41 GeneWise mRNA 87287 94209 +
scaffold_41 GeneWise mRNA 112714 113926 -
[0068]scaffold_41 GeneWise mRNA 165982 171237 -
scaffold_41 GeneWise mRNA 6252 8310 +
scaffold_41 GeneWise mRNA 40342 48927 +
scaffold_41 GeneWise mRNA 63633 65983 +
scaffold_41 GeneWise mRNA 102530 103033 +
scaffold_41 GeneWise mRNA 76619 77892 +
scaffold_41 GeneWise mRNA 76613 77892 +
scaffold_41 GeneWise mRNA 112642 113926 -
scaffold_41 Gen eWise mRNA 5102 8869 +
scaffold_41 GeneWise mRNA 29565 30466 +
scaffold_41 GeneWise mRNA 62078 66157 +
scaffold_41 GeneWise mRNA 87287 94227 +
scaffold_41 Gen eWise mRNA 97069 97476 -
scaffold_41 Gen eWise mRNA 149878 151970 +
scaffold_41 Gen eWise mRNA 165982 171345 -
scaffold_41 Gen eWise mRNA 48268 48597 +
scaffold_41 Gen eWise mRNA 103563 104403 +
[0069] 步骤306,运用表达序列比对软件Sim4将大豆及相近物种如拟南芥、葡萄、黄瓜、木瓜、水稻等的EST/cDNA序列与基因组序列进行比较,得到潜在表达序列的范围。再用预测工具PASA在该序列上标记出26个可能的基因片段。如表3所示:
[0070] 表3基于表达序列EST/cDNA相似性的预测结果
[0071]序列名 工具 特征 起始 终止 方向
scaffold_41 pasa mRNA 5170 5265 +
scaffold_41 pasa mRNA 4564 5201 -
scaffold_41 pasa mRNA 5947 6162 +
scaffold_41 pasa mRNA 6407 7305 +
scaffold_41 pasa mRNA 6275 6819 -
scaffold_41 pasa mRNA 8448 9035 +
scaffold_41 pasa mRNA 9065 9169 +
scaffold_41 pasa mRNA 29933 30442 +
scaffold_41 pasa mRNA 28956 30260 +
scaffold_41 pasa mRNA 48145 49241 +
scaffold_41 pasa mRNA 61919 64688 +
scaffold_41 pasa mRNA 65067 66813 +
scaffold_41 pasa mRNA 66264 66368 -
scaffold_41 pasa mRNA 74171 78007 +
scaffold_41 pasa mRNA 78019 78108 +
scaffold_41 pasa mRNA 91748 92215 +
scaffold_41 pasa mRNA 87514 87749 -
scaffold_41 pasa mRNA 87514 87908 +
scaffold_41 pasa mRNA 85455 94695 -
scaffold_41 pasa mRNA 94968 95625 +
scaffold_41 pasa mRNA 96415 98767 -
scaffold_41 pasa mRNA 96082 96485 +
scaffold_41 pasa mRNA 149790 152313 +
scaffold_41 pasa mRNA 165768 166594 -
scaffold_41 pasa mRNA 171108 171508 -
scaffold_41 pasa mRNA 170949 171807 -
[0072] 步骤308,将各部分预测结果转换为统一标准格式,例如gff3.0格式,将这些预测结果作为支持证据,依照预测可信度设定相应的权重,本实施例中Genscan从头预测结果的权重设为1,GeneWise蛋白质同源序列预测结果的权重设为1,PASA表达序列比对结果的权重设为2。此处,表达序列比对结果的权重高于从头预测结果以及蛋白质同源序列预测结果,在不完全吻合的情况下能够优先选择表达序列比对结果。本领域的技术人员应当理解,技术人员可以根据需要进行权重的设置。将各方面支持证据输入整合预测软件GLEAN中进行整合处理,设定阈值为3,即至少有一个相似序列支持和一个从头预测证据支持,或者有多个相似序列支持。在该基因组序列上共获得13个基因注释结果,包含13条蛋白质编码序列。如表4所示:
[0073] 表4联合多证据加权的综合基因注释结果
[0074]序列名 工具 特征 起始 终止 方向
scaffold_41 GLEAN mRNA 4943 8319 +
scaffold_41 GLEAN mRNA 8474 8875 +
scaffold_41 GLEAN mRNA 28579 30646 +
scaffold_41 GLEAN mRNA 48229 48951 +
scaffold_41 GLEAN mRNA 62078 66166 +
scaffold_41 GLEAN mRNA 72142 73383 -
scaffold_41 GLEAN mRNA 74488 77895 +
scaffold_41 GLEAN mRNA 87287 95273 +
scaffold_41 GLEAN mRNA 96752 98700 -
scaffold_41 GLEAN mRNA 112228 113926 -
scaffold_41 GLEAN mRNA 117314 118460 -
scaffold_41 GLEAN mRNA 149878 152102 +
scaffold_41 GLEAN mRNA 165979 171345 -
[0075] 步骤310,用先定位后组装的策略,用转录组序列定位软件TopHat将大豆转录组RNA-Seq测序数据定位到基因组相应位置,然后用工具Cufflinks进行转录组组装,共得到21个转录本注释结果。对这21个转录本进行编码区预测,区别编码序列与非编码序列,共得到17条完整蛋白质编码序列。
[0076] 步骤312,比较并融合预测结果与转录组序列组装及基因组定位结果,得到最终注释结果。即,该片段上含有12个基因区域共23个转录本,其中19个转录本含有蛋白质编码区,有对应的蛋白质序列,另外4个转录本注释为非编码序列。如表5所示:
[0077] 表5高通量转录组数据辅助的基因注释结果
[0078]序列名 工具 特征 起始 终止 方向
scaffold_41 BGI gene 4637 9529 -
scaffold_41 Cufflinks noncoding_transcript 4637 6854 +
scaffold_41 Cufflinks mRNA 7112 9529 +
scaffold_41 BGI gene 27298 31662 -
scaffold_41 Cufflinks mRNA 27298 31662 +
scaffold_41 BGI gene 48102 49201 -
scaffold_41 Cufflinks mRNA 48102 49201 +
scaffold_41 BGI gene 61888 66711 -
scaffold_41 Cufflinks mRNA 61888 66711 +
scaffold_41 Cufflinks mRNA 61888 66711 +
scaffold_41 BGI gene 74119 78196 -
scaffold_41 Cufflinks mRNA 74119 77642 +
scaffold_41 Cufflinks mRNA 74119 78196 +
scaffold_41 BGI gene 85475 95627 -
scaffold_41 GLEAN mRNA 87287 95273 +
scaffold_41 Cufflinks mRNA 85475 94649 +
scaffold_41 Cufflinks mRNA 85475 94649 +
scaffold_41 Cufflinks noncoding_transcript 94866 95129 -
scaffold_41 Cufflinks mRNA 95181 95627 +
scaffold_41 BGI gene 149759 152342 -
scaffold_41 Cufflinks mRNA 149759 152342 +
scaffold_41 BGI gene 70041 73561 -
scaffold_41 Cufflinks mRNA 70041 73561 -
scaffold_41 Cufflinks mRNA 70041 73561 -
scaffold_41 Cufflinks mRNA 71609 73561 -
scaffold_41 BGI gene 96367 98760 -
[0079]scaffold_41 Cufflinks mRNA 96367 98760 -
scaffold_41 BGI gene 111939 114065 -
scaffold_41 Cufflinks mRNA 111939 114065 -
scaffold_41 BGI gene 117314 118460 -
scaffold_41 GLEAN mRNA 117314 118460 -
scaffold_41 Cufflinks noncoding_transcript 117381 117514 -
scaffold_41 Cufflinks noncoding_transcript 118105 118205 -
scaffold_41 BGI gene 165534 171874 -
scaffold_41 Cufflinks mRNA 165534 171874 -
[0080] 通过进一步的基因功能分析表明,通过本发明上述应用例注释出的19个蛋白质序列均有相关的蛋白质功能结构域,其中14个蛋白质能够在其他物种蛋白质数据库中找到高度相似的序列。尤其是转录组序列组装所支持的注释结果不仅基因结构完整准确,而且获得了可靠的蛋白质的功能注释信息。
[0081] 本发明的多证据联合的基因注释方法,在注释准确性方面相对于单一方法的基因预测结果有着有效的提高。尤其在加入物种自身转录组测序数据辅助后,在注释结果可靠性方面有了进一步提升。本发明中的实施例仅是用以解释本发明的实施方案,并不用于限定本发明。凡在本发明的原则和精神之内所做的替换、修改和改进等均包含在本发明的权利要求范围之内。
[0082] 图4示出本发明的基因注释系统的一个实施例的框图。如图4所示,该实施例的基因注释系统包括统计基因预测装置41、相似基因比对装置42和结果整合与筛选装置43。其中,统计基因预测装置41,用于通过基于序列特征与统计模型的基因预测方法获得目标基因组上潜在基因的位置;相似基因比对装置42,用于采用基于序列相似性的基因注释方法,将已知基因序列和物种间同源保守序列比对到目标基因组上,标记目标基因组上相似基因的位置;结果整合与筛选装置43,用于根据统计基因预测装置41获得的目标基因组上潜在基因的位置和相似基因比对装置42获得的目标基因组上的相似基因的位置,采用加权投票的方法整合并筛选预测结果,获得综合基因预测结果及相应的编码序列。统计基因预测装置41可以采用多种基于序列特征与统计模型的基因预测方法进行基因预测,从而提高基因注释的准确性。相似基因比对装置42通过和多个已知基因数据库进行比较,能够更准确地标定基因组序列中潜在基因的范围。根据本发明的一个实施例,结果整合与筛选装置将获得的所述目标基因组上潜在基因的位置和所述目标基因组上相似基因的位置的不同结果转换为统一的标准格式;根据不同支持证据的可信度与可靠性设定不同的权重和阈值;运用整合预测工具整合并筛选预测结果获得综合基因预测结果及相应的编码序列。
[0083] 在上述实施例中,通过统计基因预测装置预测潜在基因的位置,可能发现未知基因,相似基因比对装置根据已知基因的序列的比对结果来标记相似序列位置和结构,精度相对较高;结果整合与筛选装置整合了两种方法得到的结果,不仅提高了精度,同时也可能发现未知基因。
[0084] 图5示出本发明的基因注释系统的另一实施例的框图。该实施例的基因注释系统包括统计基因预测装置41、相似基因比对装置42、结果整合与筛选装置43、转录组序列组装及定位装置54、编码区预测装置55和可变剪接基因注释装置56。统计基因预测装置41、相似基因比对装置42和结果整合与筛选装置43可以参见图4中的对应描述,为简洁起见在此不再详述。其中,转录组序列组装及定位装置54,用于通过运用目标生物体及其近亲物种的高通量转录组测序数据进行转录组序列组装及基因组定位,获得目标基因组的表达序列数据集;编码区预测装置55,用于对转录组序列组装及定位装置54获得的目标基因组的表达序列进行编码区预测,确定优选读码框及其相应的蛋白质序列数据集;可变剪接基因注释装置56,用于比较并整合结果整合与筛选装置43获得的综合基因预测结果和编码区预测装置55获得的表达基因数据集,针对目标基因组序列获得含有可变剪接形式的基因注释结果。转录组序列组装及定位装置54可以采用先比对后组装策略或者先组装后比对策略进行转录组序列组装及基因组定位。在一个实施例中,可变剪接基因注释装置对于综合基因预测结果和转录组序列组装及基因组定位结果高度一致的情况,采用目标物种自身转录组序列组装及基因组定位结果替换综合基因预测结果;对于综合基因预测结果和转录组序列组装及基因组定位结果差异较大的情况,分别将综合基因预测结果与转录组序列组装及基因组定位结果作为同一基因的不同表达形式进行注释。
[0085] 本领域的技术人员应当理解,对于图4、5中的各个装置,可以通过单独的技术处理识别实现,或者将其集成为一个独立的设备实现。在图4和图5中用框示出以说明它们的功能。这些功能块可以用硬件、软件、固件、中间件、微代码、硬件描述语音或者它们的任意组合来实现。举例来说,一个或者两个功能块都可以利用运行在微处理器、数字信号处理器(DSP)或任何其他适当计算设备上的代码实现。代码可以表示过程、功能、子程序、程序、例行程序、子例行程序、模块或者指令、数据结构或程序语句的任意组合。代码可以位于计算机可读介质中。计算机可读介质可以包括一个或者多个存储设备,例如,包括RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或本领域公知的其他任何形式的存储介质。计算机可读介质还可以包括编码数据信号的载波。
[0086] 本领域技术人员将意识到硬件、固件和软件配置在这些情况下的可替换性,以及如何最好地实现每个特定应用地所述功能。
[0087] 本发明中所采用的多证据联合基因注释方法,有效整合了传统基因注释流程的优点,并在很大程度上克服了各自的弊病,如预测工具物种特异性偏好,遗漏低表达量基因和物种特异性基因,较高的假阳率,基因结构(外显子/内含子)错误等等。而分层次、分权重投票的注释策略更保证了整合注释结果优于预测软件独立注释结果。进一步运用源自目标物种自身的转录组测序数据,能够最大程度的保证基因结构的准确性,同时能够最大程度的获取基因可变剪接形式的注释,以及更好的界定编码区与非编码区。本发明有益效果在于,在综合传统基因注释方法的基础之上得到了更加丰富、更加准确的注释信息,能够很好的应用于流程化的基因注释工作中,减少因为校正注释错误而额外投入的劳动量。
[0088] 本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。