确定异常状态相关生物标志物的方法及系统转让专利

申请号 : CN201280075072.1

文献号 : CN104603283B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李胜辉冯强覃俊杰朱剑锋张东亚揭著业王俊汪建杨焕明

申请人 : 深圳华大基因研究院深圳华大基因科技有限公司

摘要 :

本发明提出了确定对象中异常状态相关生物标记物的方法和系统,包括:对来自第一对象的核酸样本和来自第二对象的核酸样本进行核酸测序,以便获得分别由第一测序结果和第二测序结果构成的多个测序序列,其中,所述第一对象具有所述异常状态,所述第二对象不具有所述异常状态,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本都是分离自相同类型的样本,所述第一对象和所述第二对象属于相同物种;以及基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物。

权利要求 :

1.一种确定对象中异常状态生物相关标志物的方法,包括:

对来自第一对象的核酸样本和来自第二对象的核酸样本进行核酸测序,以便获得分别由第一测序结果和第二测序结果构成的多个测序序列,其中,所述第一对象具有所述异常状态,所述第二对象不具有所述异常状态,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本都是分离自相同类型的样本,所述第一对象和所述第二对象属于相同物种;以及基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物;

所述基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物进一步包括:将所述第一测序结果和所述第二测序结果与参考基因集进行比对;

基于比对结果,分别确定来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度;以及对来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度进行统计检验;以及确定在来自所述第一对象和所述第二对象的所述核酸样本之间相对丰度存在显著差异的基因为基因标志物,对所述基因标志物进行聚类分析,获得宏基因组连锁群,作为物种标志物。

2.根据权利要求1所述的方法,其特征在于,所述异常状态为疾病。

3.根据权利要求2所述的方法,其特征在于,所述疾病为选自肿瘤性疾病、自身免疫性疾病、遗传性疾病和代谢性疾病中的至少一种。

4.根据权利要求1所述的方法,其特征在于,所述异常状态为糖尿病。

5.根据权利要求1所述的方法,其特征在于,所述第一对象和所述第二对象为人。

6.根据权利要求1所述的方法,其特征在于,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本分别分离自所述第一对象和第二对象的排泄物。

7.根据权利要求1所述的方法,其特征在于,利用第二代测序方法或第三代测序方法对来自所述第一对象的核酸样本和来自所述第二对象的核酸样本进行测序。

8.根据权利要求1所述的方法,其特征在于,利用选自Hiseq2000、SOLID、454、和单分子测序装置的至少一种进行所述测序步骤。

9.根据权利要求1所述的方法,其特征在于,获得所述相对丰度后,使用泊松分布对所述相对丰度的精确度进行统计检验。

10.根据权利要求1所述的方法,其特征在于,在将所述第一测序结果和所述第二测序结果与参考基因集进行比对之前,采用过滤步骤以便去除污染序列,其中,所述污染序列为选自下列的至少一种:接头序列,低质量序列和宿主基因组序列。

11.根据权利要求1所述的方法,其特征在于,利用选自SOAP2和MAQ的至少一种进行所述比对步骤,将所述第一测序结果和所述第二测序结果与参考基因集进行比对,或者,与人类肠道微生物群落非冗余基因集进行比对。

12.根据权利要求1所述的方法,进一步包括:

对来自所述第一测序结果和所述第二测序结果的高质量测序序列,进行从头组装和宏基因组的基因预测,其中,不能与参考基因集比对上的所述基因被定义为新基因;以及将所述新基因整合至所述参考基因集中以便获得一个更新的基因集;以及进行物种分类和功能注释。

13.根据权利要求12所述的方法,其特征在于,所述物种分类是通过将所述参考基因集中每个基因与IMG数据库进行比对而进行的。

14.根据权利要求13所述的方法,其特征在于,利用BLASTP方法将所述参考基因集中每个基因与IMG数据库进行比对,以便确定所述基因的物种分类水平,利用85%相似性和80%比对覆盖度作为属水平的分类阈值,对于每个基因,超过所述两个阈值的最高得分结果被选择为属水平的分类;以及对于门水平的物种分类,用65%相似性代替。

15.根据权利要求12所述的方法,其特征在于,功能注释是通过将假定氨基酸序列与eggNOG和KEGG的至少之一数据库中的“蛋白/结构域”进行比对而进行的,其中,所述假定氨基酸序列是由所述基因集翻译的。

16.根据权利要求15所述的方法,其特征在于,根据E-Value值小于1e-5的函数,利用BLASTP方法将假定氨基酸序列与eggNOG和KEGG的至少之一数据库中的“蛋白/结构域”进行比对而进行的,其中,所述假定氨基酸序列是由所述基因集翻译的。

17.根据权利要求1所述的方法,其特征在于,基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物进一步包括:将所述第一测序结果和所述第二测序结果与经功能注释后的参考基因集进行比对;以及基于比对结果,分别确定来自所述第一对象和所述第二对象的核酸样本中功能相对丰度;以及对来自所述第一对象和所述第二对象的核酸样本中功能相对丰度进行统计检验;以及分别确定在来自所述第一对象和所述第二对象的核酸样本之间相对丰度存在显著差异的功能标志物。

18.根据权利要求1所述的方法,其特征在于,所述统计检验选自Student T检验、Wilcox轶和检验的至少一种进行。

19.根据权利要求1所述的方法,进一步包括肠型鉴定。

20.根据权利要求1所述的方法,进一步包括:

对所述宏基因组连锁群进行深度组装,构建所述异常状态的相关生物基因组,并进行MLG物种分类。

21.根据权利要求1所述的方法,进一步包括对所述生物标志物进行验证的步骤。

22.一种确定对象中异常状态生物相关标志物的方法,包括:

对来自第一对象的核酸样本和来自第二对象的核酸样本进行核酸测序,以便获得分别由第一测序结果和第二测序结果构成的多个测序序列,其中,所述第一对象具有所述异常状态,所述第二对象不具有所述异常状态,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本都是分离自相同类型的样本,所述第一对象和所述第二对象属于相同物种;以及基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物,其中,

基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物进一步包括:将所述第一测序结果和所述第二测序结果与参考基因集进行比对;

基于比对结果,分别确定来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度;以及对来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度进行统计检验;以及确定在来自所述第一对象和所述第二对象的所述核酸样本之间相对丰度存在显著差异的基因为基因标志物,进一步包括对所述基因标志物进行聚类分析,获得宏基因组连锁群,作为物种标志物,还包括对所述宏基因组连锁群进行深度组装,构建所述异常状态的相关生物基因组,并进行MLG物种分类。

23.根据权利要求22所述的方法,其特征在于,获得所述相对丰度后,使用泊松分布对所述相对丰度的精确度进行统计检验。

24.根据权利要求22所述的方法,其特征在于,所述异常状态为疾病。

25.根据权利要求24所述的方法,其特征在于,所述疾病为选自肿瘤性疾病、自身免疫性疾病、遗传性疾病和代谢性疾病中的至少一种。

26.根据权利要求22所述的方法,其特征在于,所述异常状态为糖尿病。

27.根据权利要求22所述的方法,其特征在于,所述第一对象和所述第二对象为人。

28.根据权利要求22所述的方法,其特征在于,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本分别分离自所述第一对象和第二对象的排泄物。

29.根据权利要求22所述的方法,其特征在于,利用第二代测序方法或第三代测序方法对来自所述第一对象的核酸样本和来自所述第二对象的核酸样本进行测序。

30.根据权利要求22所述的方法,其特征在于,利用选自Hiseq2000、SOLID、454、和单分子测序装置的至少一种进行所述测序步骤。

31.根据权利要求22所述的方法,其特征在于,在将所述第一测序结果和所述第二测序结果与参考基因集进行比对之前,采用过滤步骤以便去除污染序列,其中,所述污染序列为选自下列的至少一种:接头序列,低质量序列和宿主基因组序列。

32.根据权利要求22所述的方法,其特征在于,利用选自SOAP2和MAQ的至少一种进行所述比对步骤,将所述第一测序结果和所述第二测序结果与参考基因集进行比对,或者,与人类肠道微生物群落非冗余基因集进行比对。

33.根据权利要求22所述的方法,进一步包括:

对来自所述第一测序结果和所述第二测序结果的高质量测序序列,进行从头组装和宏基因组的基因预测,其中,不能与参考基因集比对上的所述基因被定义为新基因;以及将所述新基因整合至所述参考基因集中以便获得一个更新的基因集;以及进行物种分类和功能注释。

34.根据权利要求33所述的方法,其特征在于,所述物种分类是通过将所述参考基因集中每个基因与IMG数据库进行比对而进行的。

35.根据权利要求34所述的方法,其特征在于,利用BLASTP方法将所述参考基因集中每个基因与IMG数据库进行比对,以便确定所述基因的物种分类水平,利用85%相似性和80%比对覆盖度作为属水平的分类阈值,对于每个基因,超过所述两个阈值的最高得分结果被选择为属水平的分类;以及对于门水平的物种分类,用65%相似性代替。

36.根据权利要求33所述的方法,其特征在于,功能注释是通过将假定氨基酸序列与eggNOG和KEGG的至少之一数据库中的“蛋白/结构域”进行比对而进行的,其中,所述假定氨基酸序列是由所述基因集翻译的。

37.根据权利要求36所述的方法,其特征在于,根据E-Value值小于1e-5的函数,利用BLASTP方法将假定氨基酸序列与eggNOG和KEGG的至少之一数据库中的“蛋白/结构域”进行比对而进行的,其中,所述假定氨基酸序列是由所述基因集翻译的。

38.根据权利要求22所述的方法,其特征在于,

基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物进一步包括:将所述第一测序结果和所述第二测序结果与经功能注释后的参考基因集进行比对;以及基于比对结果,分别确定来自所述第一对象和所述第二对象的核酸样本中各功能相对丰度;以及对来自所述第一对象和所述第二对象的核酸样本中功能相对丰度进行统计检验;以及分别确定在来自所述第一对象和所述第二对象的核酸样本之间相对丰度存在显著差异的功能标志物。

39.根据权利要求22所述的方法,其特征在于,所述统计检验选自Student T检验、Wilcox轶和检验的至少一种进行。

40.根据权利要求22所述的方法,进一步包括肠型鉴定。

41.根据权利要求22所述的方法,进一步包括对所述生物标志物进行验证的步骤。

42.一种确定对象中异常状态相关生物标志物的系统,包括:

测序装置,所述测序装置适于对来自第一对象的核酸样本和来自第二对象的核酸样本进行测序,以便获得分别由第一测序结果和第二测序结果构成的多个测序序列,其中,所述第一对象具有所述异常状态,以及所述第二对象不具有所述异常状态,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本都是分离自相同类型的样本,所述第一对象和所述第二对象属于相同物种;以及分析装置,所述分析装置与测序装置相连,并且适于基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物,所述分析装置进一步包括:

用于比对的工具,所述用于比对的工具适于将所述第一测序结果和所述第二测序结果与参考基因集进行比对;以及用于确定相对丰度的工具,所述用于确定相对丰度的工具与所述用于比对的工具相连,并且适于基于比对结果,分别确定来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度;以及用于进行统计检验的工具,所述用于进行统计检验的工具与所述用于确定相对丰度的工具相连,并且适于对来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度进行统计检验;以及用于确定标志物的工具,所述用于确定标志物的工具与所述用于进行统计检验的工具相连,并且适于确定来自所述第一对象和所述第二对象的所述核酸样本之间相对丰度存在显著差异的基因标志物;

聚类装置,其适于对所述基因标志物进行聚类分析,获得宏基因组连锁群,作为物种标志物。

43.根据权利要求42所述的系统,进一步包括:

核酸样本分离装置,所述核酸样本分离装置与所述测序装置相连,并且适于从所述对象分离核酸样本。

44.根据权利要求43所述的系统,其特征在于,所述测序装置适于进行第二代测序方法或第三代测序方法。

45.根据权利要求43所述的系统,其特征在于,所述测序装置适于选自Hiseq2000、SOLID、454、和单分子测序装置的至少一种进行。

46.根据权利要求42所述的系统,其特征在于,所述分析装置进一步包括:用于过滤的工具,所述用于过滤的工具与所述用于比对的工具相连,并且在将所述第一测序结果和所述第二测序结果与参考基因集进行比对之前,进行过滤步骤以便去除污染序列,以及所述污染序列为选自下列的至少一种:接头序列,低质量序列和宿主基因组序列。

47.根据权利要求42所述的系统,其特征在于,所述用于比对的工具利用SOAP2和MAQ的至少一种,将所述第一测序结果和所述第二测序结果与参考基因集进行比对,或者,为人类非冗余基因集。

48.根据权利要求42所述的系统,其特征在于,所述参考基因集包含基因的功能注释,进一步包括:用于确定相对丰度的工具,其适于基于比对结果,分别确定来自所述第一对象和所述第二对象的所述核酸样本中功能相对丰度;

用于进行统计检验的工具,其适于对来自所述第一对象和所述第二对象的所述核酸样本中基因的功能相对丰度进行统计检验;以及用于确定标志物的工具,其适于确定功能标志物,所述功能标志物在来自所述第一对象和所述第二对象的所述核酸样本之间相对丰度存在显著差异。

49.根据权利要求42所述的系统,其特征在于,所述用于进行统计检验的工具利用Student T检验、Wilcox轶和检验的至少一种进行的。

50.根据权利要求42所述的系统,进一步包括基因组组装装置,其适于对所述宏基因组连锁群进行深度组装,构建所述异常状态的相关生物基因组,并进行MLG物种分类。

51.根据权利要求1所述的方法,进一步包括评估每个表观因素的影响,所述表观因素是指肠型、II型糖尿病、年龄、性别和BMI。

52.根据权利要求51所述的方法,利用置换多元方差分析方法进行所述评估。

53.根据权利要求51所述的方法,进一步包括校正所述数据的群体分层分析,其中,利用EIGENSTRAT方法校正所述基因的相对丰度谱以便剔除所述表观因素的影响。

54.一种确定对象中异常状态相关生物标志物的系统,包括:

测序装置,所述测序装置适于对来自第一对象的核酸样本和来自第二对象的核酸样本进行测序,以便获得分别由第一测序结果和第二测序结果构成的多个测序序列,其中,所述第一对象具有所述异常状态,以及所述第二对象不具有所述异常状态,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本都是分离自相同类型的样本,所述第一对象和所述第二对象属于相同物种;以及分析装置,所述分析装置与测序装置相连,并且适于基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物,其中,

所述分析装置进一步包括:

用于比对的工具,所述用于比对的工具适于将所述第一测序结果和所述第二测序结果与参考基因集进行比对;以及用于确定相对丰度的工具,所述用于确定相对丰度的工具与所述用于比对的工具相连,并且适于基于比对结果,分别确定来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度;以及用于进行统计检验的工具,所述用于进行统计检验的工具与所述用于确定相对丰度的工具相连,并且适于对来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度进行统计检验;以及用于确定标志物的工具,所述用于确定标志物的工具与所述用于进行统计检验的工具相连,并且适于确定来自所述第一对象和所述第二对象的所述核酸样本之间相对丰度存在显著差异的基因标志物,进一步包括聚类装置,其适于对所述基因标志物进行聚类分析,获得宏基因组连锁群,作为物种标志物,基因组组装装置,其适于对所述宏基因组连锁群进行深度组装,构建所述异常状态的相关生物基因组,并进行MLG物种分类。

55.根据权利要求54所述的系统,进一步包括:

核酸样本分离装置,所述核酸样本分离装置与所述测序装置相连,并且适于从所述对象分离核酸样本。

56.根据权利要求54所述的系统,其特征在于,所述测序装置适于进行第二代测序方法或第三代测序方法。

57.根据权利要求54所述的系统,其特征在于,所述测序装置适于选自Hiseq2000、SOLID、454、和单分子测序装置的至少一种进行。

58.根据权利要求54所述的系统,其特征在于,所述分析装置进一步包括:用于过滤的工具,所述用于过滤的工具与所述用于比对的工具相连,并且在将所述第一测序结果和所述第二测序结果与参考基因集进行比对之前,进行过滤步骤以便去除污染序列,以及所述污染序列为选自下列的至少一种:接头序列,低质量序列和宿主基因组序列。

59.根据权利要求54所述的系统,其特征在于,所述用于比对的工具利用SOAP2和MAQ的至少一种,将所述第一测序结果和所述第二测序结果与参考基因集进行比对,或者,为人类非冗余基因集。

60.根据权利要求54所述的系统,其特征在于,所述参考基因集包含基因的功能注释,进一步包括:用于确定相对丰度的工具,其适于基于比对结果,分别确定来自所述第一对象和所述第二对象的所述核酸样本中功能相对丰度;

用于进行统计检验的工具,其适于对来自所述第一对象和所述第二对象的所述核酸样本中功能相对丰度进行统计检验;以及用于确定标志物的工具,其适于确定功能标志物,所述功能标志物在来自所述第一对象和所述第二对象的所述核酸样本之间相对丰度存在显著差异。

61.根据权利要求54所述的系统,其特征在于,所述用于进行统计检验的工具利用Student T检验、Wilcox轶和检验的至少一种进行的。

62.根据权利要求22所述的方法,其特征在于,进一步包括评估每个表观因素的影响,所述表观因素是指肠型、II型糖尿病、年龄、性别和BMI。

63.根据权利要求62所述的方法,其特征在于,利用置换多元方差分析方法进行所述评估。

64.根据权利要求22所述的方法,进一步包括校正所述数据的群体分层分析,其中,利用EIGENSTRAT方法校正所述基因的相对丰度谱以便剔除所述表观因素的影响。

说明书 :

确定异常状态相关生物标志物的方法及系统

[0001] 优先权信息
[0002] 本发明专利申请要求于2012年8月1日提交的PCT专利申请NO.PCT/CN2012/079524的权益,该专利申请在此全部引用作为参考。

技术领域

[0003] 本发明涉及生物技术领域。具体地,本发明涉及确定异常状态相关生物标志物的方法及系统。

背景技术

[0004] 宏基因组学(metagenomics)又称为环境基因组学,元基因组学,生态基因组学,或者群落基因组学,这是一门直接研究自然状态下微生物群落,包含了可培养的和不可培养的细菌、真菌和病毒的基因组总和的学科。1998年,威斯康辛大学植物病理学部门的Handelsman等人在研究土壤微生物时,最早提出了“宏基因组学”这一概念。传统的微生物研究受到微生物分离和纯培养技术限制。然而,宏基因组学研究是基于特定环境下的微生物群落,其研究目的是微生物多样性、种群结构、进化关系、功能活性、相互协作关系及新微生物之间的环境关系。宏基因组学的基本研究策略包括:环境基因组大片段DNA的提取和纯化、文库构建、目的基因筛选和/或大规模测序分析。宏基因组文库中包含了可培养的和不可培养的微生物基因和基因组。将某个自然环境中的DNA克隆到可培养的宿主细胞中,从而避开了微生物分离和培养的难题。在该研究中,借助于大规模序列分析并结合生物信息学工具,在基因序列分析的基础上,大量未知微生基因或新基因簇被发现。这对了解微生物群落组成、进化历程和代谢特点,以及挖掘具有应用潜力的新基因具有重要意义。
[0005] 然而,目前的宏基因组研究仍有待改进。

发明内容

[0006] 本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出了能够有效确定对象中异常状态相关生物标志物的方法和系统。
[0007] 根据本发明的第一方面,本发明提出了一种确定对象中异常状态相关生物标志物的方法。根据本发明的实施例,该方法包括:对来自第一对象的核酸样本和来自第二对象的核酸样本进行核酸测序,以便获得分别由第一测序结果和第二测序结果构成的多个测序序列,其中,所述第一对象具有所述异常状态,所述第二对象不具有所述异常状态,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本都分离自相同类型的样本,所述第一对象和所述第二对象属于相同物种;以及基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物。
[0008] 根据本发明的实施例,所述确定对象中异常状态相关生物标志物的方法可能进一步具有下列附加技术特征:
[0009] 根据本发明的一个实施例,所述异常状态为疾病。
[0010] 根据本发明的一个实施例,所述疾病为选自肿瘤性疾病、自身免疫性疾病、遗传性疾病和代谢性疾病中的至少一种。
[0011] 根据本发明的一个实施例,所述异常状态为糖尿病。
[0012] 根据本发明的一个实施例,所述第一对象和所述第二对象为人。
[0013] 根据本发明的一个实施例,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本分别分离自所述第一对象和第二对象的排泄物。
[0014] 根据本发明的一个实施例,利用第二代测序方法或第三代测序方法对来自所述第一对象的核酸样本和来自所述第二对象的核酸样本进行测序。
[0015] 根据本发明的一个实施例,利用选自Hiseq2000、SOLID、454、和单分子测序装置的至少一种进行所述测序步骤。
[0016] 根据本发明的一个实施例,基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物进一步包括:将所述第一测序结果和所述第二测序结果与参考基因集进行比对;基于比对结果,分别确定来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度;对来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度进行统计检验;以及确定在来自所述第一对象和所述第二对象的所述核酸样本之间相对丰度存在显著差异的基因为基因标志物。
[0017] 根据本发明的一个实施例,在将所述第一测序结果和所述第二测序结果与参考基因集进行比对之前,采用过滤步骤以便去除污染序列。所述污染序列为选自下列的至少一种:接头序列,低质量序列和宿主基因组序列。
[0018] 根据本发明的一个实施例,利用选自SOAP2和MAQ的至少一种进行所述比对步骤,将所述第一测序结果和所述第二测序结果与参考基因集进行比对,任选地,人类肠道微生物群落非冗余基因集。
[0019] 根据本发明的一个实施例,所述方法进一步包括:对来自所述第一测序结果和所述第二测序结果的高质量测序序列,进行从头组装和宏基因组的基因预测,其中,不能与参考基因集比对上的所述基因被定义为新基因;以及将所述新基因整合至所述参考基因集中以便获得一个更新的基因集;以及进行物种分类和功能注释。
[0020] 根据本发明的一个实施例,所述物种分类是通过将所述参考基因集中每个基因与IMG数据库进行比对而进行的。
[0021] 根据本发明的一个实施例,利用BLASTP方法将所述参考基因集中每个基因与IMG数据库进行比对,以便确定所述基因的物种分类水平,利用85%相似性和80%比对覆盖度作为属水平的分类阈值,对于每个基因,超过所述两个域值的最高得分结果被选择为属水平的分类;以及对于门水平的物种分类,用65%相似性代替。
[0022] 根据本发明的一个实施例,功能注释是通过将假定氨基酸序列与eggNOG和KEGG的至少之一数据库中的“蛋白/结构域”进行比对而进行的,其中,所述假定氨基酸序列是由所述基因集翻译的。
[0023] 根据本发明的一个实施例,根据E-Value值小于1e-5的函数,利用BLASTP方法将假定氨基酸序列与eggNOG和KEGG的至少之一数据库中的“蛋白/结构域”进行比对而进行的,其中,所述假定氨基酸序列是由所述基因集翻译的。
[0024] 根据本发明的一个实施例,所述相对丰度包含物种相对丰度和功能相对丰度,以及所述参考基因集包含物种分类和功能注释。基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物进一步包括:将所述第一测序结果和所述第二测序结果与参考基因集进行比对;以及基于比对结果,分别确定来自所述第一对象和所述第二对象的核酸样本中各基因的物种相对丰度和功能相对丰度;以及对来自所述第一对象和所述第二对象的核酸样本中各基因的物种相对丰度和功能相对丰度进行统计检验;以及分别确定在来自所述第一对象和所述第二对象的核酸样本之间相对丰度存在显著差异的物种标志物和功能标志物。任选地,在获得所述相对丰度之后,泊松分布用于对相对丰度的精确性进行统计检验。
[0025] 根据本发明的一个实施例,所述方法进一步包括肠型鉴定。
[0026] 根据本发明的一个实施例,所述方法进一步包括评估每个表观因素(covariate)的影响,任选地,肠型、II型糖尿病、年龄、性别和BMI。优选地,利用置换多元方差分析方法进行评估。
[0027] 根据本发明的一个实施例,所述方法进一步包括校正所述数据的群体分层分析,其中,校正基因的相对丰度谱,优选地,利用EIGENSTRAT方法以便剔除所述表观因素的影响。
[0028] 根据本发明的一个实施例,所述统计检验选自Student T检验、Wilcox轶和检验的至少一种进行。
[0029] 根据本发明的一个实施例,所述方法进一步包括对所述基因标志物进行聚类分析和深度组装,以便构建所述异常状态的相关生物基因组。
[0030] 根据本发明的一个实施例,所述方法进一步包括对所述生物标记物进行验证的步骤。
[0031] 根据本发明的第二方面,本发明还提出了一种确定对象中异常状态相关生物标志物的系统。根据本发明的实施例,该系统包括:测序装置,所述测序装置适于对来自第一对象的核酸样本和来自第二对象的核酸样本进行测序,以便获得分别由第一测序结果和第二测序结果构成的多个测序序列,其中,所述第一对象具有所述异常状态,以及所述第二对象不具有所述异常状态,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本都是分离自相同类型的样本,所述第一对象和所述第二对象属于相同物种;以及分析装置,所述分析装置与测序装置相连,并且适于基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物。
[0032] 根据本发明的实施例,所述确定对象中异常状态相关生物标志物的系统可能进一步具有下列附加技术特征:
[0033] 根据本发明的一个实施例,所述系统进一步包括:核酸样本分离装置,所述核酸样本分离装置与所述测序装置相连,并且适于从所述对象分离核酸样本,任选地,从其排泄物。
[0034] 根据本发明的一个实施例,所述测序装置适于进行第二代测序方法或第三代测序方法。
[0035] 根据本发明的一个实施例,所述测序装置适于选自Hiseq2000、SOLID、454、和单分子测序装置的至少一种进行。
[0036] 根据本发明的一个实施例,所述分析装置进一步包括:
[0037] 用于比对的工具,所述用于比对的工具适于将所述第一测序结果和所述第二测序结果与参考基因集进行比对;以及
[0038] 用于确定相对丰度的工具,所述用于确定相对丰度的工具与所述用于比对的工具相连,并且适于基于比对结果,分别确定来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度;以及
[0039] 用于进行统计检验的工具,所述用于进行统计检验的工具与所述用于确定相对丰度确定的单元相连,并且适于对来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度进行统计检验;以及
[0040] 用于确定标志物的工具,所述用于确定标志物的工具与所述用于进行统计检验的工具相连,并且适于确定来自所述第一对象和所述第二对象的所述核酸样本之间相对丰度存在显著差异的的基因标志物。
[0041] 根据本发明的一个实施例,所述分析装置进一步包括:
[0042] 用于过滤的工具,所述用于过滤的工具与所述用于比对的工具相连,并且在将所述第一测序结果和所述第二测序结果与参考基因集进行比对之前,进行过滤步骤以便去除污染序列,以及,所述污染序列为选自下列的至少一种:接头序列,低质量序列和宿主基因组序列。
[0043] 根据本发明的一个实施例,所述用于比对的工具利用SOAP2和MAQ的至少一种,将所述第一测序结果和所述第二测序结果与参考基因集进行比对,任选地,为人类肠道微生物群落非冗余基因集。
[0044] 根据本发明的一个实施例,所述相对丰度包含物种相对丰度和功能相对丰度,以及参考基因集包含物种分类和功能注释,所述系统进一步包括:
[0045] 用于确定相对丰度的工具,其适于基于比对结果,分别确定来自所述第一对象和所述第二对象的所述核酸样本中基因的物种相对丰度和基因的功能相对丰度;
[0046] 用于进行统计检验的工具,其适于对来自所述第一对象和所述第二对象的所述核酸样本中基因的物种相对丰度和基因的功能相对丰度进行统计检验;以及
[0047] 用于确定标志物的工具,其适于确定物种标志物和功能标志物,所述物种标志物和功能标志物在来自所述第一对象和所述第二对象的所述核酸样本之间相对丰度存在显著差异。
[0048] 根据本发明的一个实施例,所述用于进行统计检验的工具利用Student T检验、Wilcox轶和检验的至少一种进行的。
[0049] 根据本发明的一个实施例,所述系统进一步包括基因组组装装置,其适于对所述基因标志物进行聚类分析和深度组装,以便构建所述异常状态的相关生物基因组。优选地,利用宏基因组联锁群(MLG)。
[0050] 通过根据本发明实施例,所述确定对象中异常状态相关生物标志物的方法(也称为MGWAS(两步法“案例-对照”宏基因组关联研究)),基于高通量测序技术,可以在宏基因组和疾病之间进行关联研究,从而发现与所述疾病相关的生物标志物。由于测序技术通量大幅度提高以及成本大幅度降低,大群体研究可以进行实施。充分利用参考基因集,可以使的关联分析重复性和可信性更好。同时,运用多重关联性统计检验方法,由于相对丰度估计的波动引起的假阳性大大减少。所述方法可以直接发现目标性状相关生物标志物以及所述关联分析具有高可靠性及高准确性。
[0051] 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

[0052] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0053] 图1示出了根据本发明的一个实施例确定异常状态相关生物标志物的方法的流程示意图;
[0054] 图2示出了根据本发明的另一个实施例确定异常状态相关生物标志物的方法的流程示意图;
[0055] 图3示出了根据本发明的一个实施例确定异常状态相关生物标志物的系统的示意图;
[0056] 图4-6示出了根据本发明的实施例3、4和5确定异常状态相关生物标志物的方法的流程示意图;
[0057] 图7显示了根据本发明的一个实施例,显示在不同测序量中,相对丰度谱的检测误差率分布。X轴代表样本的测序量,其被定义为双末端测序序列的数目,Y轴代表基因的相对丰度。估计相对丰度的99%置信区间(CI),并且将检测误差率定义为置信区间宽度与相对丰度自身的比例。通过log10(log10(1+x))转化标准的检测误差率用于对所有的点进行着色,颜色越深代表检测误差率越高。添加两条无差异曲线:落入两条曲线右上方的检测误差率将分别小于1X和10X。

具体实施方式

[0058] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0059] 需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。进一步地,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0060] 确定异常状态相关生物标志物的方法
[0061] 根据本发明的第一方面,本发明提出了一种确定对象中异常状态相关生物标志物的方法。
[0062] 参考图1,所述确定异常状态相关生物标志物的方法包括下列步骤:
[0063] 首先,对来自第一对象的核酸样本和来自第二对象的核酸样本进行核酸测序,以便获得分别由第一测序结果和第二测序结果构成的多个测序序列。根据本发明的实施例,所述第一对象和所述第二对象具有不同的状态,具体地,所述第一对象具有所述异常状态,所述第二对象不具有所述异常状态,并且所述来自第一对象的核酸样本和所述来自第二对象的核酸样本都分离自相同类型的样本,所述第一对象和所述第二对象属于相同物种。
[0064] 接下来,获得所述第一测序结果和所述第二测序结果之后,基于所述第一测序结果和所述第二测序结果的差异,确定所述对象中所述异常状态相关生物标志物。由于所述第一对象和所述第二对象来自相同的物种以及它们的核酸样本来自相同类型,所述第一测序结果和所述第二测序结果之间的所述差异可以反映出异常状态相关生物标志物。
[0065] 在本文中所使用的术语“异常状态”应做广义理解,其可以指对象(生物体)不同于正常状态的任何状态,既可以是生理上的异常,也可以是心理上的异常。根据本发明的实施例,本发明使用的所述疾病的所述类型不受特别限制。根据本发明的一个实施例,所述疾病为选自肿瘤性疾病、自身免疫性疾病、遗传性疾病和代谢性疾病中的至少一种。根据本发明的一个具体实例,所述异常状态为糖尿病。由此,利用本发明的所述方法,可以有效地发现特定物种和特定疾病的生物标志物。根据本发明的实施例,在本文中所使用术语“对象”的范围不受限制,并且可以为任意生物体。根据本发明的一个实施例,所述第一对象和所述第二对象为人。由此,根据本发明的实施例,所述第一对象可以为患有特定疾病的患者,以及所述第二对象可以为健康人。另外,根据本发明的实施例,所述第一对象和所述第二对象的数目并不受限制,并且可以为多个。以这种方式,能够使得确定的所述生物标志物更加可信。
[0066] 根据本发明的实施例,核酸样本的来源不受特别限制,只要它们来自相同类型的来源。根据本发明的一个实施例,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本分别分离自所述第一对象的排泄物和所述第二对象的排泄物。以这种方式,可以有效地确定肠道微生物信息,并且可以有效地发现肠道微生物和特定疾病之间的关系。
[0067] 根据本发明的实施例,所述测序技术不受限制。根据本发明的一个实施例,利用第二代测序方法或第三代测序方法对来自所述第一对象的核酸样本和来自所述第二对象的核酸样本进行核酸测序。根据本发明的一个具体实例,利用选自Hiseq2000、SOLID、454、和单分子测序装置的至少一种进行所述测序步骤。由此,能够利用这些测序装置的高通量、深度测序的特点,从而有利于`后续测序数据进行分析,尤其是统计检验分析时的精确性和准确度。
[0068] 根据本发明的实施例,发明人可以实施任何一种方法来分析所述测序结果。根据本发明的一个实施例,参考图2,可以通过下列方法来确定生物标志物:
[0069] 首先,将所述第一测序结果和所述第二测序结果与参考基因集进行比对。根据本发明的实施例,所述参考基因集不受限制,并且可以为新构建或者任何已知的数据库,例如,人类肠道微生物群落非冗余基因集。根据本发明的一个实施例,在所述第一测序结果和所述第二测序结果与参考基因集进行比对之前,过滤步骤被用来去除污染序列。根据本发明的实施例,所述污染序列为选自下列的至少一种:接头序列,低质量序列和宿主基因组序列。以这种方式,可以提高比对的效率,进而提高确定生物标志物的效率。根据本发明的实施例,所述将用于比对所述第一测序结果和所述第二测序结果与参考基因集进行比对的工具可以采用任何已知的工具。根据本发明的一个实施例,所述比对步骤可以利用选自SOAP2和MAQ的至少一种进行,将所述第一测序结果和所述第二测序结果与参考基因集进行比对。以这种方式,可以提高比对的效率,进而提高确定生物标志物的效率。
[0070] 接下来,基于比对结果,分别确定所述来自第一对象的核酸样本和所述来自第二对象的核酸样本中基因的相对丰度。通过将所述测序序列与所述参考基因集进行比对,测序序列与所述参考基因集中的基因建立对应关系。从而针对核酸样本中的特定基因,相对应的测序序列的相对数目可以有效地反映所述基因的相对丰度。由此,可以通过比对结果和统计分析,确定在所述核酸样本中基因的相对丰度。根据本发明的实施例,任选地,在获得所述相对丰度之后,优选地,泊松分布被用于对相对丰度的精确性进行统计检验。具体地,发明人采用Audic和Claverie(1997)的方法对相对丰度估计(relative abundance estimate)的理论精确性进行评估。假设发明人从基因i获得了xi个测序序列,其只占据了样本中全部测序序列的一小部分,对xi的分布通过泊松分布(Poisson distribution)很好地进行了估计。将样品中全部测序序列(reads)的数目记录为N,则N=Σixi。假设所有的基因都是相同长度的,则基因i的相对丰度值ai可以简单地表示为ai=xi/N。进而,发明人可以按照下列公式评估从相同的基因i获得yi个序列的期望概率,
[0071]
[0072] 其中, 表示由yi个序列计算得到的相对丰度。根据该公式,发明人通过设定ai为0.0~1e-5以及设定N为0~4000万,以便计算 的99%置信区间,并且进一步评估检测误差率,结果见图7。
[0073] 最后,确定所述核酸样本中基因的相对丰度后,对所述来自第一对象的核酸样本和所述来自第二对象的核酸样本中基因的相对丰度进行统计检验,为了确定基因标志物,并且所述基因标志物为来自所述第一对象和所述第二对象的所述核酸样本之间相对丰度中存在显著差异。如果存在显著差异的所述基因,所述基因被认为为异常状态相关生物标志物,即基因标志物。
[0074] 根据本发明的实施例,在本文中使用的术语“生物标志物”应做广义理解,是任何能够反映异常状态的可检测生物指标,包括基因标志物,物种标志物(种/属标志物)以及功能标记物(KO/OG标志物)。
[0075] 另外,根据本发明的实施例,所述方法进一步包括:对来自所述第一和第二测序结果的高质量序列进行从头组装和宏基因组的基因预测,其中,如果所述基因不能与所述参考基因集比对上,所述基因被定义为新基因;并将所述新基因整合到参考基因集中从而获得一个更新的基因集。因此,参考基因集的容量被扩大从而提高确定生物标志物的效率。根据本发明的一个实施例,可以通过将所述参考基因集中每个基因与IMG数据库进行比对而进行物种分类。根据本发明的一个实施例,利用BLASTP将所述参考基因集中每个基因与IMG数据库进行比对,确定所述基因的物种分类,利用85%相似性、80%比对覆盖度作为属水平的分类阈值。对于每个基因,超过上述两个阈值的最高得分结果用来确定物种属水平的分类。对于门水平的物种分类,使用65%相似性代替。因此,基因的物种分类可以有效地确定。根据本发明的一个实施例,功能注释是通过将将定氨基酸序列与eggNOG和KEGG的至少之一的“蛋白/结构域”数据库进行比对而进行的,其中,所述假定氨基酸序列是由所述基因集翻译的。。根据本发明的一个实施例,根据E-Value值小于1e-5的函数,利用BLASTP方法将假定氨基酸序列与eggNOG和KEGG的至少之一数据库中的“蛋白/结构域”进行比对而进行的,从而确定所述基因的功能注释,其中,所述假定氨基酸序列是由所述基因集翻译的。。由此,可以有效地确定所述基因的功能注释。
[0076] 另外,对于已知或新构建的的参考基因集,其可以包含基因物种分类和功能注释。以这种方式,基于基因相对丰度,进行基因的物种分类和功能注释,从而确定物种相对丰度和功能相对丰度。进一步确定异常状态相关物种标志物和功能标志物。由此,根据本发明的一个实施例,所述相对丰度包含物种相对丰度和功能相对丰度,以及参考基因集包含基因物种分类和功能注释。基于所述第一测序结果和所述第二测序结果的差异,确定所述异常状态相关生物标志物进一步包括:将所述第一测序结果和所述第二测序结果与参考基因集进行比对;并且基于比对结果,分别确定来自所述第一对象和第二对象的所述核酸样本中基因的物种相对丰度和功能相对丰度;并且对来自所述第一对象和第二对象的所述核酸样本中基因的物种相对丰度和功能相对丰度进行统计检验;以及分别确定在来自所述第一对象和所述第二对象的核酸样本之间相对丰度存在显著差异的物种标志物和功能标志物。任选地,在获得所述相对丰度之后,优选地,泊松分布用于对相对丰度的精确性进行统计检验。所述确定物种相对丰度和功能相对丰度的方法不受限制。根据本发明的实施例,对来自相同物种的基因的基因相对丰度和来自具有相同功能注释的基因的基因相对丰度进行统计检验,例如加和、取平均值、中位数值等,从而确定物种相对丰度和功能相对丰度。根据本发明的一个实施例,所述计算基因相对丰度的公式如下所述。
[0077] 对于任何样本S,发明人按照下列公式计算所述相对丰度:
[0078] 步骤1:计算每个基因的拷贝数目:
[0079]
[0080] 步骤2:计算基因i的相对丰度:
[0081]
[0082] αi:为基因i在样本S中的相对丰度;
[0083] Li:基因i的长度;
[0084] xi:基因i在样本中被检测到的次数(匹配序列数目);
[0085] bi:来自样本S的测序数据中基因i的拷贝数。
[0086] 根据本发明的实施例,基因相对丰度、物种相对丰度和功能相对丰度的统计检验并不受限制。根据本发明的一个实施例,所述统计检验可以为利用Student T检验、Wilcox轶和检验的至少一种进行。
[0087] 正常状态下的人类肠道微生物群落能够被划分为三个类型(enterotypes,中文简称为肠型),肠型的划分不受年龄、性别等表观因素影响,并且也不受肥胖等慢性代谢性疾病的影响。由于肠型,一些真正的标志物可能不易被发现,因此,需要评价每个样本的肠型并且进行群体分层检验从而除去通常疾病肠道微生物关联分析中肠型的影响,。属水平相对丰度被评价并被用来鉴定来自中国人样本的肠型的。发明人采用的方法与划分肠型原始文献描述的方法相一致。在本研究中,样本使用Jensen-Shannon距离对样本进行聚类。实际上,发明者也能利用其它聚类方法,比如Hierarchical clustering算法。肠型鉴定结果还可以通过功能相对丰度谱进行验证。另一方面,关联分析可能会受到诸如肠型、II型糖尿病、年龄、性别和BMI等表观因素的影响,这些影响可以通过群体分层分析予以去除。利用置换多元方差分析方法评估每个表观因素的影响,并校正群体分层分析数据,其中,校正基因的相对丰度谱,优选地,采用EIGENSTRAT方法,从而剔除表观因素的影响。
[0088] 在获得基因标记物后,根据本发明的一个实施例,所述方法可以进一步包括对所得到的基因标记物进行聚类分析和深度组装,以便构建所述异常状态相关生物基因组,优选地,通过鉴定宏基因组联锁群(MLG)。对于所获得的基因标记物,一般情况下,很多基因都可能来自较低数量级的相关物种以及许多人类肠道微生物群落没有培养和没有成功分离的物种。对上述基因进行聚类的方法被使用并且发明人重建了其基因组从而获得更多的疾病相关微生物信息。已知的聚类算法也可以被应用于聚类基因。进行聚类后,发明人可以利用比对方法,例如可以采用SOAP2,从基因标志物中选取双末端序列。从头组装,比如SOAPdenovo,被用于选择获得的序列从而构建微生物基因组。进一步地,应用组成分级方法(composition-based binning method)修饰并且提高基因组。并且重复修饰过程直至所述组装没有进一步明显的提高,获得微生物因组草图。根据本发明的一个实施例,所述方法进一步包括对所述生物标志物进行验证的步骤。由此,可以提高生物标记物与异常状态例如疾病诸如糖尿病之间关联的有效性和可靠性。
[0089] 确定异常状态生物相关生物标志物的系统
[0090] 根据本发明的又一方面,本发明还提出了一种确定异常状态相关生物标志物的系统。参考图3,所述系统1000包括:测序装置100和分析装置200。根据本发明的一个实施例,测序装置100适于对所述来自第一对象的核酸样本和所述来自第二对象的核酸样本进行测序,以便获得分别由第一测序结果和第二测序结果构成的多个测序序列,其中,所述第一对象具有异常状态,以及第二对象不具有异常状态,所述来自第一对象的核酸样本和所述来自第二对象的核酸样本都是分离自相同类型的样本,所述第一对象和所述第二对象属于相同物种。根据本发明的实施例,分析装置200与测序装置100相连,并且适于基于所述第一测序结果和所述第二测序结果的差异,确定对象中异常状态相关生物标志物。以这种方式,利用所述系统1000可以确定异常状态相关生物标志物。根据本发明的实施例,异常状态相关生物标志物可以有效地确定。
[0091] 根据本发明的一个实施例,所述系统1000进一步包括核酸样本分离装置300,所述核酸样本分离装置300与所述测序装置100相连,并且适于从所述对象中分离核酸样本,任选地,从所述对象的排泄物。因此,所述核酸样本分离装置300为所述测序装置100提供核酸样本进行测序。根据本发明的实施例,所述方法和设备不受限制。根据本发明的实施例,所述测序装置100适于采用第二代测序方法或第三代测序方法进行。根据本发明的一个实施例,所述测序装置100为选自Hiseq2000、SOLiD、454、和单分子测序装置的至少一种进行。结合最新的测序技术以及针对单个位点可以达到较高的测序深度,检测灵敏度和准确性大大提高。以这种方式,利用所述测序装置的高通量、深度测序的特点,进一步提高对核酸样本进行检测分析的效率并且有利于对后续测序数据进行分析,尤其是统计检验的精确性和准确度。
[0092] 参考图4,根据本发明的一个实施例,所述分析装置200进一步包括:用于比对的工具201、用于确定相对丰度的工具202、用于进行统计检验的工具203以及用于确定标志物的工具204。根据本发明的一个实施例,用于比对的工具201适于将所述第一测序结果和所述第二测序结果与参考基因集进行比对,用于确定相对丰度的工具202与用于比对的工具201相连,并且适于基于比对结果,分别确定来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度,用于进行统计检验的工具203与用于确定相对丰度的工具202相连,并且适于对来自所述第一对象和所述第二对象的所述核酸样本中基因的相对丰度进行统计检验,用于确定标志物的工具204与用于进行统计检验的工具203相连,并且适于确定来自所述第一对象和所述第二对象的所述核酸样本之间相对丰度存在显著差异的基因标记物。根据本发明的一个实施例,所述用于进行统计检验的工具203利用Student T检验、Wilcox轶和检验的至少一种进行的。
[0093] 根据本发明的一个实施例,分析装置200可以进一步包括:用于过滤的工具(205),所述用于过滤的工具与用于比对的工具201相连,并且在将所述第一测序结果和所述第二测序结果与参考基因集进行比对之前,进行过滤步骤以便去除污染序列。所述污染序列为选自下列的至少一种:接头序列,低质量序列和宿主基因组序列。根据本发明的一个实施例,所述用于比对的工具201利用选自SOAP2和MAQ的至少一种,将所述第一测序结果和所述第二测序结果与参考基因集进行比对。所述参考基因集可以被存储于用于比对的工具201中,任选地,人类肠道微生物群落非冗余基因集被存储。由此,可以提高比对效率。
[0094] 根据本发明的一个实施例,所述相对丰度包含基因的物种相对丰度和功能相对丰度,以及参考基因集包含基因物种分类和功能注释。所述系统进一步包含:所述用于确定相对丰度的工具,适于基于比对结果,分别确定来自所述第一对象和所述第二对象的所述核酸样本中基因的物种相对丰度和基因的功能相对丰度;所述用于统计检验的工具,其适于对来自所述第一对象和所述第二对象的所述核酸样本中基因的物种相对丰度和基因的功能相对丰度进行统计检验;以及所述用于确定标志物的工具,其适于确定物种标志物和功能标志物,所述物种标志物和功能标志物在来自所述第一对象和所述第二对象的所述核酸样本之间相对丰度存在显著差异。由此,可以有效地确定异常状态相关物种标志物和功能标志物。
[0095] 根据本发明实施例,借助所述确定异常状态相关生物标志物的系统1000,能够有效地实施根据本发明实施例所述确定异常状态相关生物标志物的方法。关于所述方法的优点,前面已经进行了详细描述,不再赘述。需要说明的是,本领域技术人员能够理解。在前面所描述的确定异常状态相关生物标志物的方法的特征和优点也适合于确定异常状态相关生物标志物的系统。为描述方便,不再详述。
[0096] 详细说明
[0097] 下面参考具体实施例,对本发明进行说明,需要说明的是,这些实施例仅仅是说明性的,而不能理解为对本发明的限制。
[0098] 若未特别指明,实施例中所采用的技术手段为本领域技术人员所熟知的常规手段,可以参照《分子克隆实验指南》第三版或者相关产品进行,所采用的试剂和产品也均为可商业获得的。未详细描述的各种过程和方法是本领域中公知的常规方法,所用试剂的来源、商品名以及有必要列出其组成成分者,均在首次出现时标明,其后所用相同试剂如无特殊说明,均以首次标明的内容相同。
[0099] 实施例1:样品收集
[0100] 所有344个粪便样品分别采自344个志愿者,由中国深圳北大医院进行粪便样品的采集。以1999年WHO发布的标准进行II型糖尿病诊断(Alberti,K.G.&Zimmet,P.Z.Definition,diagnosis and classification of diabetes mellitus and its complications.Part 1:diagnosis and classification of diabetes mellitus provisional report of a WHO consultation.Diabetic medicine:a journal of the British Diabetic Association15,539-553,doi:10.1002/(SICI)15,539-553,doi:
10.1002/(SICI)1096-9136(199807)15:7<539::AID-DIA668>3.0.CO;2-S(1998),通过参照将其并入本文),诊断出的II型糖尿病患者作为病例组,其他非糖尿病个体作为对照组(参见表1)。患者和健康对照被要求提供冷冻的粪便样品。志愿者在采样前3天需注意饮食,宜饮食清淡,不宜食用高油脂类食物;且在取样前5天不要食用酸奶等乳酸制品及益生元,在采集粪便样品时需注意不要混入尿样,并注意取样时尽量隔绝人体污染及空气。
[0101] 表1样品采集统计
[0102]
[0103] 实施例2:DNA提取及测序
[0104] 2.1粪便样品的存储:
[0105] 新鲜的粪便样品放入灭菌后的粪便收集管,并且将样品存储于家用冰箱立即冷冻。冷冻的样品运送到保存点后,在-80℃中保存。
[0106] 2.2 DNA提取
[0107] 每份分别取200mg冷冻粪便样品,悬浮于含250μl硫氰酸胍、0.1M Tris(pH 7.5)和40μl 10%月桂酰肌氨酸的溶液中。DNA提取方法与前述相同(Manichanh,C.et al.Reduced diversity of fecal microbiota in Crohn's disease revealed by a metagenomic approach.Gut 55,205-211,doi:gut.2005.073817[pii]10.1136/gut.2005.073817(2006),通过参照将其并入本文)。DNA浓度及分子量大小分别采用Nanodrop仪器(Thermo Scientific)和琼脂糖凝胶进行测定。
[0108] 2.3 DNA文库构建及测序:
[0109] DNA文库的构建按照测序仪器(Illumina Genome Analyzer IIx测序平台)制造商Illumina公司提供的操作指南进行。发明人使用与其他地方描述的相同的流程进行簇生成、模板杂交、等温扩增、线性化、阻断变性以及与测序引物杂交等过程。
[0110] 发明人对每个样品构建插入长度350bp文库进行双末端(paired-end,PE)测序,通过高通量测序获得2000万对PE序列。这些序列的长度为75bp~90bp(第一期样品序列长度为75bp和90bp;第二期样品序列长度为90bp)
[0111] 参考图4-6所示的流程显示确定II型糖尿病相关生物标志物,包括几个主要步骤,如下:
[0112] 实施例3:生物标志物的鉴定
[0113] 3.1测序数据的基本处理
[0114] 获得第一期145个样品的测序数据以后,通过对来自Illumina原始数据进行过滤从而提取高质量序列,即,去除含’N’的低质量序列、接头污染序列和人类DNA污染,最终获得378.4 Gb高质量数据。平均来说,高质量数据占全部数据大约98.1%。并且,PE文库的实际插入长度介于313bp和381bp之间。
[0115] 3.2基因集更新
[0116] 应用与MetaHIT基因集构建所使用的相同的参数(Junjie Qin,Ruiqiang Li,JeroenRaes,et al.(2010)A human gut microbial gene catalogueestablished by metagenomic sequencing.Nature,464:59-65,通过参照将其并入本文),发明人在第一期分别利用SOAPdenovo v1.0642和GeneMark v2.743对145个样品进行从头组装和基因预测。然后用BLAT软件将所有预测的基因进行比对,如果一条序列与另一条序列超过90%的长度相似性高于95%(不允许空隙),即可认为是冗余序列,需要去除。去冗余后,构建出一个含有2,088.328个基因的非冗余参考基因集,也即非冗余参照基因集。来自中国人样本的基因集进一步结合原来的所构建的MetaHIT基因集,以同样的方式除去冗余。最终,发明人获得一个包含4,267,985个预测的基因的更新的基因集,其中1,090,889个基因独特地来自中国样本。
[0117] 3.3基因的物种分类
[0118] 所述预测基因的物种分类使用内部管路进行。在分析中,发明人收集来自IMG(v3.4)数据库的所述参考微生物基因组,然后使用BLASTP将所有420万基因与所述参照基因组进行比对。基于采用MetaHIT肠型论文并且通过系统级别后的序列相似综合的参数探究,发明人采用85%相似度,80%覆盖度作为属水平的物种分类的阈值(Arumugam,M.et al.Enterotypes of the human gut microbiome.Nature 473,174-180,doi:10.1038/nature09944(2011),通过参照将其并入本文),对于每个基因,超过所述两个域值的最高得分结果被选择为属水平的分类。对于门水平的物种分类,用65%相似度代替。更新后的基因集中21.3%的基因被分类到属水平,在145个样本中,覆盖26.4–90.6%(平均61.2%)的测序序列,其余的基因来自目前仍没被定义的微生物物种。
[0119] 3.4功能注释
[0120] 使用BLASTP(e-value<1e-5),发明人将假定氨基酸序列与eggNOG和KEGG的数据库(59.0)中的“蛋白/结构域”进行比对而进行的,其中,所述假定氨基酸序列是由所述更新基因集翻译而来。,将每个蛋白划分到KEGG同源群(KO)或eggNOG同源群(OG)中,依据最高分值结果(high scoring annotated hit(s))包含至少一个HSP分值在60bits以上。对于在eggNOG数据库中仍然没有任何注释的基因,发明人基于BLASTP进行互相比对的结果,利用MCL鉴定出新的基因家族(使用参数为:膨胀因子(inflation factor)1.1,比特分数阈值(bit-score cutoff)60)。通过这种方法,发明人从更新的基因集中共鉴定出7,042个新的基因家族(可编译不少于20个蛋白质)
[0121] 3.5宏基因组定量
[0122] 3.5.1计算基因的相对丰度
[0123] 使用SOAP2,比对标准为“相似性>90%”,将来自每个样本的高质量序列与基因集进行比对,。在基于测序的图谱分析中,只有两种比对情况被接受:i).插入长度正确的双末端序列都可以完整地匹配到某个基因上;ii)双末端序列中的其中一端匹配到某个基因的尾部,另一端匹配到基因外部。在这两种情况下,匹配上的序列都算做一个拷贝。
[0124] 对于任意一个样品S,发明人通过以下步骤计算所述丰度:
[0125] 步骤1:计算每个基因的拷贝数
[0126]
[0127] 步骤2:计算基因i的相对丰度
[0128]
[0129] αi为在样品S中基因i的相对丰度;
[0130] Li:基因i的长度;
[0131] xi:基因i在样品S中被检测到的次数(匹配序列数目);
[0132] bi表示在来自样品S的测序数据中基因i的拷贝数。
[0133] 基于基因相对丰度谱和上述已知的物种分类和功能注释,通过分别对来自相同物种和相同功能注释的基因的相对丰度加和得到物种和功能的相对丰度谱。
[0134] 3.5.2图谱精确性估计
[0135] 发明人采用Audic和Claverie(1997)的方法(Audic,S.&Claverie,J.M.The significance of digital gene expression profiles.Genome Res 7,986-995(1997),通过参照将其并入本文)对相对丰度估计(relative abundance estimate)的理论精确性进行评估。假设从基因i获得了xi个序列,其只占据了样品全部测序数据中的一小部分,通过泊松分布(Poisson distribution)对xi的分布进行估计。将样品中全部测序序列(reads)的数目记录为N,则N=Σixi。假设所有的基因都是相同长度的,则基因i的相对丰度值ai可以简单地表示为ai=xi/N。进而,发明人可以按照下列公式评估从相同的基因i获得yi个测序序列的期望概率,
[0136]
[0137] 其中, 表示由yi个测序序列计算得到的相对丰度。根据该公式,发明人通过设定ai为0.0~1e-5,设定N为0~4000万,以便计算 的99%置信区间,并且进一步评估检测误差率,结果见图7。
[0138] 3.5.3构建基因、KO和OG图谱
[0139] 更新后的基因集含有4,267,985个非冗余基因,其可以被分入6,313个KOs(KEGG Orthologue,KEGG同源群)和45,683个OGs(Orthologue group in eggNOG,eggNOG同源群,包括7,042个新的基因家族)中。首先去除在第一期的所有145个样品中仅在少于6个样品中出现的基因、KOs或OGs。为了减少统计分析MGWAS的维度,在构建基因图谱时,发明人鉴定高度相关的基因对,并随后,使用分层聚类算法(straightforward hierarchical clustering algorithm)对这些基因进行聚类分析。如果在任意两个基因之间的Pearson相关系数为>0.9,则为这两个基因分配边界。之后,A集群和B集群就不会被聚类在一起,如果A和B之间边界(edge)的总长度小于|A|*|B|/3,其中|A|和|B|分别是A和B所包含基因的长度(size)。在基因连锁群中仅选择最长的基因代表该群,由此产生了总计1,138,151个基因。这1,138,151个基因以及他们在第一期的145个样品中的相对丰度的相关测量值用于建立基因图谱(gene profile),进而用于关联分析。
[0140] 对于KO图谱(KO profile),利用最初4,267,985个基因的基因注释信息,把来自相同KO的基因的相对丰度求和,得到的总的相对丰度作为该KO在样品中的含量,以便产生145个样品的KO图谱。利用与KO图谱相同的方法,构建OG图谱(OG profile)。
[0141] 3.6肠型划分
[0142] 属水平相对丰度采用与构建KO图谱相同的方法来进行估计,之后用于鉴定来自中国样本的肠型。发明人采用相同的鉴定方法与划分肠型原始文献描述的方法相一致(Arumugam,M.et al.Enterotypes of the human gut microbiome.Nature 473,174-180,doi:10.1038/nature09944(2011),通过参照将其并入本文)。在本研究中,样本使用Jensen-Shannon距离来进行聚类。
[0143]
[0144] 其中
[0145]
[0146]
[0147]
[0148] P(i)和Q(i)分别是样品P、Q中基因i的相对丰度。
[0149] 通过采用与OG/KO相对丰度谱同样方法可以验证每个样本的肠型。
[0150] 3.7 MGWAS的统计分析
[0151] 3.7.1 PERMANOVA
[0152] 在本研究中,通过置换多元方差分析的方法(PERMANOVA,McArdle,B.H.&Anderson,M.J.Fitting Multivariate Models to Community Data:A Comment on Distance-Based Redundancy Analysis.Ecology 82,290-297(2001),通过参照将其并入本文)用来估计每一种表观因素(covariate),包括肠型,T2D,年龄,性别和BMI,对4类图谱的影响情况。发明人使用R package-“vegan”方法进行分析(Zapala,M.A.&Schork,N.J.Multivariate regression analysis of distance matrices for testing associations  between  gene  expression  patterns  and  related variables.Proceedings of the National Academy of Sciences of the United States of America 103,19430-19435,doi:10.1073/pnas.0609333103(2006),通过参照将其并入本文),一共进行10000次置换检验。
[0153]
[0154] 3.7.2群体分层分析
[0155] 为了校正群体分层中的数据,发明人使用经过修正的EIGENSTRAT方法(Price,A.L.et al.Principal components analysis corrects for stratification in genome-wide association studies.Nature genetics 38,904-909,doi:10.1038/ng1847(2006),通过参照将其并入本文)从丰度水平而不是基因型得到协方差矩阵。然而数据中的信息可能是许多基因结合所引起的,不仅仅是一小部分基因的作用(GWAS研究中所假设的),发明人修正了EIGENSTRAT方法,用异常状态和原来主成分的回归残差替换掉原来的主成分。校正的主成分的个数,由Tracy-Widom检验P<0.0551确定。
[0156] 3.7.3图谱统计假设检验
[0157] 在第一期,为了鉴定宏基因组图谱与T2D之间的关系,利用双边Wilcoxon轶和检验方法对经调整的非T2D相关的群体分层图谱进行检验。在第二期评估第一期标志物的时候,采用了单边Wilcoxon轶和检验方法进行。由于T2D是影响第二期基因标志物图谱的主要影响因素,因此,发明人没有对这些基因群体分层进行调整。
[0158] 3.7.4阳性错误率(FDR)评估及评估效能
[0159] 为了评估阳性错误率,发明人没有使用P值拒绝方法,而是使用了“q值”方法,该方法在以前的一个研究中提出(Storey,J.D.A direct approach to false discovery rates.Journal of the Royal  Statistical Society-Series B:Statistical Methodology 64,479-498(2002),通过参照将其并入本文)来评估阳性错误率(FDR)。在宏基因组关联分析(MGWAS)中,统计假设检验是在大量的特征数据上进行,这些特征数据来自基因、KO、OG和属水平分类谱。由于阳性错误率是由“q值”方法得到的,发明人根据已知p值域值利用下面公式计算了的评估FDR的效能Pe:
[0160]
[0161] 其中,π0是所有被检验的假设中无效分布的P值所占比率;Ne是小于P值域值的P值个数;N是所有被检测假设的总个数;FDRe是经评估小于P值域值的阳性错误率。
[0162] 3.8筛选标志物
[0163] 基于第一期中经过群体校准后的基因和功能(KO和OG)的相对丰度谱,发明人使用双边Wilcox秩和检验进行检验,并且发明人通过估计阳性错误率(FDR)校准多重检验。最终,通过检验的基因为生物标志物。最后,发明人使用聚类方法,对基因进行聚类,得到物种标记物(MLG)。同时,发明人采用Student T检验对基因、功能(KO和OG)、物种标记物的进行验证。每个标志物的P值见下表2-1,2-2和3。
[0164] 为了从结构上整理分析大量的宏基因组数据,减少信息量以便进行分类描述,设计分类学的概念MLG(Metagenomic Linkage Group,宏基因组连锁群,也称为候选物种)代替宏基因组物种的概念,这里一个MLG指的是在宏基因组的一组遗传物质,可能是作为一个单元链接,而不是独立分布的。这样,在研究中则可不需要完全确定在宏基因组中特定的微生物物种,这些都是重要的大量的未知的生物,细菌之间有频繁的横向基因转移(LGT,frequent lateral gene transfer)。一个MLG定义为一组共同存在于不同个体样品的基因,并且具有一致的丰度和物种分类水平。
[0165] 3.9鉴定宏基因组连锁群(MLG)
[0166] 3.9.1用于鉴定MLG的聚类方法
[0167] 在本发明中,发明人设计了宏基因组连锁群(MLG)的概念,有利于对来自全基因组鸟枪法测序获得的宏基因组测序数据进行分类描述。为了从T2D相关基因标记物中鉴定MLG,发明人按照下列步骤进行分析:
[0168] 步骤1:选择T2D相关基因标记物的原始组作为基因的起始子聚类(subcluster)。需要注意的是,在建立基因图谱时,发明人构建了基因连锁群,以减少统计分析的维数。因此,所有来自基因连锁群(gene linkage group)的基因都被认为是子聚类。
[0169] 步骤2:采用Chameleon算法(Karypis,G.&Kumar,V.Chameleon:hierarchical clustering using dynamic modeling.Computer 32,68-75(1999),通过参照并入本文),利用动态建模技术和基于相互关联性(interconnectivity)以及相近性(closeness),对展现出最小相似性>0.4的子聚类进行组合。这里的相似性是由相互关联性和相近性的乘积定义的(该定义运用于MLG鉴定的整个分析过程中)。并将这些聚类定义为半-聚类(semi-cluster)。
[0170] 步骤3:为了将步骤2中所建立的半-聚类进行合并。在步骤3中,首先更新任意两个半-聚类之间的相似性,并随后对每个半-聚类进行物种分类(taxonomic assignment,具体方法见下)。最后,将满足下面两个要求的两个或者更多个半-聚类进行合并为MLG:a)半-聚类之间的相似性>0.2;b)所有这些半-聚类都被分配自相同的分类谱系(taxonomy lineage)。
[0171] 3.9.2 MLG的物种分类
[0172] 将所有来自MLG的基因在核苷酸水平(通过BLASTN)与参考微生物基因组(IMG数据库,v3.4)进行比对,并且,在蛋白质水平(通过BLASTP)上比对至NCBI-nr数据库。利用e-value(核苷酸水平<1×10-10,蛋白质水平<1×10-5)和比对覆盖率(覆盖>70%的检索序列)对比对结果进行过滤。通过与参考微生物基因组的比对,每一个MLG都可以找到一些物种和它对应,将这些物种按照MLG在它中的基因含量比例进行排序,同样可以获得比对的平均相似度。通过下面的原则确定MLG的物种分类:1)如果该MLG中超过90%的基因可以映射至参考基因组,并且在核苷酸水平上阈值为95%,则认为该特定MLG为来自于该已知的细菌物种;2)如果该MLG中超过80%的基因可以映射至参考基因组,并且在核苷酸水平和蛋白质水平上阈值为85%,则认为该特定MLG为来自于该已知的细菌物种的同一个属;3)如果可以从MLG组装结果鉴定16S序列,则通过RDP-Classifier进行多进化树分析(bootstrap value>0.80)(Wang,Q.,Garrity,G.M.,Tiedje,J.M.&Cole,J.R.Naive Bayesian classifier for rapid assignment of rRNA sequences into the new bacterial taxonomy.Appl Environ Microbiol 73,5261-5267,doi:AEM.00062-07[pii]10.1128/AEM.00062-07(2007),通过参照并入本文),然后如果来自16S序列的种系型(phylotype)与来自基因的一致,则为MLG定义物种分类。
[0173] 3.9.3对MLG进行深度组装
[0174] 为了重新构建潜在的细菌基因组,则发明人设计了额外的方法对每个MLG进行深入组装,其包括四步:
[0175] 步骤1:从MLG提取基因作为种子(Seed),鉴定在所有样品中以最高丰度含有该种子的样品,然后从这些样品选择双末端测序数据,其可以被匹配到种子上(包括仅一端可以被匹配的双末端测序)。这些双末端测序数据覆盖率的下限是在不超过5个样品中为50×,其可以通过将选定的测序数据的总数目除以种子的总长度来计算得到。
[0176] 步骤2:通过使用SOAPdenovo借助用于构建基因类型所使用的参数,对步骤1中所选择的序列进行从头组装。
[0177] 步骤3:为了鉴定和除去可能由污染序列造成的错配重叠群(contig),采用基于组成特征的聚类方法(composition-based binning method)。将GC含量和测序深度值与组装结果的其他contig不同的contig从组装结果中除去,因为他们可能是由于各种原因被错误组装的。
[0178] 步骤4:从步骤3,获得最终组装结果,重复步骤2,直到组装不再有明显改进(具体的,总重叠群(contig)长度的提高低于5%)。
[0179] 3.10基于MLG的分析
[0180] 3.10.1MLG方法的有效性:
[0181] 通过下列步骤评估MLG鉴定方法的性能:1)在发明人定量的基因结果中,首先过滤很少出现的基因(在小于6个样品中出现);2)基于在更新的基因集中的物种分类结果,鉴定了一组肠道细菌菌种,其标准为含有1,000~5,000个唯一匹配的基因,其中,相似性阈值为95%。在该步骤,人工去除了一个物种内的冗余菌株,并且丢弃了可以匹配至多个物种的基因。最后,来自50个细菌菌种的130,065个基因被鉴定作为用于评价MLG方法有效性的测试组;3)针对测试组进行上面描述的标准MLG方法。对于每个MLG,发明人计算了并非来自主要物种(major species)的基因的百分比,作为精度(即%基因,见表7)。
[0182] 3.10.2 MLG的相对丰度
[0183] 通过使用来自MLG的基因的相对丰度值,评估该MLG在所有样品中的相对丰度。对于该MLG,首先去除了分别于最高和最低相对丰度差异在5%以内的基因,然后对其他进行与泊松分布的拟合。泊松分布的预计平均值被解释为该MLG的相对丰度。最后,获得了所有样品的MLG图谱(MLG profile),用于下列分析。
[0184] 实施例4:两步验证
[0185] 4.1数据分析
[0186] 发明人重复实施例1和实施例2的步骤从而获得测序数据,并且对使用第二期199个样品重复实施例3的步骤从而获得基因、功能和物种相对丰度图谱。
[0187] 4.2标志物验证
[0188] 基于第一期中经过群体调整后的基因和功能(KO和OG)的相对丰度数据,发明人使用双边Wilcox秩和检验,并且基于原始基因和功能(KO和OG)相对丰度图谱和在第一期基因方向中所确定的方向,在第二期发明人使用单边Wilcox秩和检验。同时,发明人通过估计阳性错误率(FDR)校准多重检验。最终,通过检验的基因为生物标志物。最后,发明人使用聚类方法,对基因进行聚类,得到物种标记物(MLG)。同时,发明人采用Student T检验对基因、功能(KO和OG)、物种标记物的进行验证。每个标志物的P值见下表2-1,2-2和3。
[0189] 发明人接着在第二期分析中对阳性错误率(FDR)进行控制。从对应FDR为2.5%(P<0.01)的基因中确定出共52,484个T2D关联基因标记物。应用同样的两步分析法对KO图谱和OG图谱进行分析,从而鉴定出与T2D相关1,345个KO标记物(P<0.05,FDR4.5%)及5,612个OG标记物(P<0.05,FDR 6.6%)。
[0190] 表2-1基因标志物
[0191]
[0192]
[0193] 表2-2功能标志物
[0194]
[0195]
[0196] 表3物种标志物
[0197]
[0198]
[0199] 4.3生物标志物的预测分析
[0200] 4.3.1基因标志物的预测分析
[0201] 使用基因相对丰度作为风险值,发明人估计曲线下面积AUC(Michael J.Pencina,Ralph B.D'Agostino Sr,Ralph B.D'Agostino Jr,et al.Evaluating the added predictive ability of a new marker:From area under the ROC curve to reclassification and beyond.Statistics in medicine,2008,27(2):157-172),AUC越大,表示诊断能力越高,评价基因对II型糖尿病的诊断能力。对于每一个基因,确定一个诊断的临界值(cutoff),使得在这个临界值下,诊断的敏感度跟特异度的和最高。
[0202] 临界值的详细说明如下:将基因的相对丰度从小到大排序,然后顺序取一个值出来作为候选临界值,在这个候选临界值下算出敏感度和特异度,将敏度度和特异度求和最大的候选临界值作为最终的最优临界值。对于有益基因,相对丰度值小于临界值就被诊断为II型糖尿病;对于有害基因,相对丰度值大于临界值就被诊断为II型糖尿病。结果见表4-1。
[0203] 敏感度称真阳性率,是实际患者且被指标诊断为患者的概率,即患者被诊断为阳性的概率。特异度称真阴性率,是指实际未患病被指标诊断为非患者的概率,即非患者被诊断为阴性的概率。
[0204] 表4-1基因标志物的AUC和cutoff
[0205]
[0206] 4.3.2功能标志物的预测分析
[0207] 使用功能标志物的相对丰度作为风险值,发明人估计曲线下面积AUC(Michael J.Pencina,Ralph B.D'AgostinoSr,Ralph B.D'AgostinoJr,et al.Evaluating the added predictive ability of a new marker:From area under the ROC curve to reclassification and beyond.Statistics in medicine,2008,27(2):157-172),AUC越大,表示诊断能力越高,评价功能标记物对II型糖尿病的诊断能力。对于每一个功能标记物,确定一个诊断的临界值(cutoff),使得在这个临界值下,诊断的敏感度跟特异度的和最高。
[0208] 临界值的详细说明如下:将功能标记物的相对丰度从小到大排序,然后顺序取一个值出来作为候选临界值,在这个候选临界值下算出敏感度和特异度,将敏度度和特异度求和最大的候选临界值作为最终的最优临界值。当方向等于1时,表示这个功能标记物是有害的,等于0时,表示功能标记物是有益的。对于有益功能标记物,相对丰度值小于临界值就被诊断为II型糖尿病;有害功能标记物,相对丰度值大于临界值就被诊断为II型糖尿病。见表4-2。
[0209] 敏感度称真阳性率,是实际患者且被指标诊断为患者的概率,即患者被诊断为阳性的概率。特异度称真阴性率,是指实际未患病被指标诊断为非患者的概率,即非患者被诊断为阴性的概率。
[0210] 表4-2功能标志物的AUC和Cutoff
[0211]
[0212] 4.3.3物种标记物的预测分析
[0213] 使用物种标志物的相对丰度作为风险值,发明人估计曲线下面积AUC,评价MLG对II型糖尿病的诊断能力。AUC越大,表示诊断能力越高,评价物种标记物对II型糖尿病的诊断能力。对于每一个物种标记物,确定一个诊断的临界值(cutoff),使得在这个临界值下,诊断的敏感度跟特异度的和最高。
[0214] 临界值的详细说明如下:将物种标志物的相对丰度从小到大排序,然后顺序取一个值出来作为候选临界值,在这个候选临界值下算出敏感度和特异度,将敏度度和特异度求和最大的候选临界值作为最终的最优临界值。对于有益物种标志物,相对丰度值小于临界值就被诊断为II型糖尿病;对于有害物种标志物,相对丰度值大于临界值就被诊断为II型糖尿病。结果总结如下表5。
[0215] 敏感度称真阳性率,是实际患者且被指标诊断为患者的概率,即患者被诊断为阳性的概率。特异度称真阴性率,是指实际未患病被指标诊断为非患者的概率,即非患者被诊断为阴性的概率。
[0216] 表5物种标记物的AUC和cutoff
[0217]
[0218]
[0219] 实施例5:疾病相关微生物基因组的重建
[0220] 5.1深度组装
[0221] 使用实施例3的方法,利用MLG深度组装,重建疾病相关微生物基因组,结果见表6。
[0222] 表6 MLG深度组装
[0223]
[0224]
[0225] 5.2微生物基因组的鉴别
[0226] 基于所获得的微生物基因组,使用实施例3中的方法进行MLG物种分类,结果见表7。
[0227] 表7 MLG物种分类
[0228]
[0229]
[0230] 实施例6:物种标志物的优势比
[0231] 为了对找到的物种标志物进一步验证,分别计算各物种标记物在上述344个样品中的优势比(odds ratio),参见表8。结果显示,物种的关联强度高(优势比均大于1,优势比越大,说明该物种标记物在其相应组的样品中富集越明显)。
[0232] 表8物种标志物的优势比
[0233]
[0234]
[0235] 表9基因标志物的序列
[0236]
[0237]
[0238]
[0239]
[0240]
[0241]
[0242]
[0243]
[0244]
[0245]
[0246]
[0247] 尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解。根据已经公开的所有教导,可以对那些细节进行各种修改和替换,这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。
[0248] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。