糖尿病生物标志物及其应用转让专利

申请号 : CN201380040887.0

文献号 : CN104583403B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 李胜辉冯强揭著业张东亚覃俊杰王俊汪建杨焕明

申请人 : 深圳华大基因研究院深圳华大基因科技有限公司

摘要 :

本发明提出了糖尿病生物标志物及其应用。其中,糖尿病生物标志物为含有SEQ IDNO:1‑50所示多核苷酸序列的核酸。

权利要求 :

1.一组分离的核酸,其由SEQ ID NO:1-50所示的多核苷酸序列的核苷酸构成。

说明书 :

糖尿病生物标志物及其应用

[0001] 优先权信息
[0002] 本发明专利申请要求于2012年8月1日提交的PCT专利申请NO.PCT/CN2012/079497的权益,该专利申请在此全部引用作为参考。

技术领域

[0003] 本发明涉及生物标志物领域,具体地涉及II型糖尿病标志物及其应用。

背景技术

[0004] II型糖尿病是一种受遗传因素和环境因素共同影响的复杂失调,已在全世界成为一个主要公共健康问题。目前,研究潜在的遗传因素对II型糖尿病的影响主要是通过全基因组关联研究(GWAS),关注于从生物体基因组中识别遗传组分。最近,研究表明,II型糖尿病发展的危险因素还可能包括来源于“另一个基因组”的因素,即“肠道微生物组”(也叫“肠道宏基因组”)。
[0005] 在肠道宏基因上先前的宏基因组研究,主要利用16S rRNA测序及鸟枪法(WGS)测序,已经提供了一个共生的微生物群落以及其功能的概貌。例如,MetaHIT联盟于2010年建立了包含330万个基因的人类肠道微生物基因集。值得注意的,一个更加广泛的肠道微生物集及其基因随后在,“人类肠道宏基因组计划联盟”(HMPC)中公开。
[0006] 然而,为了了解II型糖尿病,需要更多的研究工作。

发明内容

[0007] 本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明是基于发明人的下列发现而完成的:
[0008] 在人类疾病包括世界上最流行的内分泌疾病II型糖尿病(T2D)中,肠道微生物的评估和鉴定已经成为主要的研究领域。为了分析II型糖尿病患者的肠道微生物组成,发明人开发了一套方案,用于宏基因组关联研究(MGWAS),并且开展两步宏基因组关联研究(MGWAS),基于对来自344位中国人的肠道微生物DNA的深度鸟枪测序。发明人鉴定并且验证了~60,000个II型糖尿病关联标记物。为了开发利用肠道微生物进行II型糖尿病分类的潜力,发明人开发了一种基于基因标记物的疾病分类系统,使用的基因标记物是利用最小冗余-最大相关特征选择法(mRMR)筛选出来的50个基因标记物,其被定义为一组最优基因集。为了直观地评价基于这50个肠道微生物基因标记物的II型糖尿病的风险,发明人计算出一个健康指数。本发明的数据为II型糖尿病相关的肠道宏基因组的特性提供了具有洞察力的见解,为未来研究肠道宏基因组在其他相关失调中的病理学作用提供了示例,为基于肠道微生物评估个体具有如此疾病的风险方法提供了潜在用途。
[0009] 根据本发明的第一方面,本发明提出了一组分离的核酸,所述一组分离的核酸由具有SEQ ID NO:1-50所示的多核苷酸序列的核苷酸所构成。根据本发明的实施例,每个分离的核酸可能被当成动物异常状态的所述生物标志物。例如,异常状态是糖尿病,任选地,是II型糖尿病。本发明还进一步提出了一组分离的核酸,其由具有SEQ ID NO:1-50至少之一所示的多核苷酸序列的核酸构成。
[0010]
[0011]
[0012] 根据本发明的第二方面,本发明提出了一种确定对象异常状态的方法。根据本发明的实施例,该方法包括步骤:确定所述对象肠道菌群中是否存在具有SEQ ID NO:1-50所示的多核苷酸序列的核苷酸。利用该方法,能够有效地确定对象是否处于异常状态。
[0013] 根据本发明的一个实施例,所述确定对象异常状态的方法可能进一步具有以下附加特征:
[0014] 根据本发明的一个实施例,所述异常状态是糖尿病,任选地,是II型糖尿病。
[0015] 根据本发明的一个实施例,所述对象的排泄物用于分析从而确定是否存在具有SEQ ID NO:1-50所示的多核苷酸序列的所述核苷酸。任选地,所述排泄物为粪便样本。
[0016] 根据本发明的一个实施例,确定是否存在具有SEQ ID NO:1-50所示的多核苷酸序列的核苷酸进一步包括:从所述对象的所述排泄物中分离核酸样本;基于所获得的核酸样本,构建DNA文库;对所述DNA文库进行测序,以便获得测序结果;以及基于所述测序结果,确定是否存在具有SEQ ID NO:1-50所示的多核苷酸序列的核苷酸。
[0017] 根据本发明的一个实施例,所述测序步骤是利用第二代测序方法或第三代测序方法进行的。
[0018] 根据本发明的一个实施例,所述测序步骤是利用选自Hiseq 2000、SOLID、454和单分子测序装置的至少一种进行的。
[0019] 根据本发明的一个实施例,确定是否存在具有SEQ ID NO:1-50所示的多核苷酸序列的核苷酸进一步包括:将测序结果与具有SEQ ID NO:1-50所示核苷酸序列的所述核苷酸进行比对,并基于比对结果,确定是否存在具有SEQ ID NO:1-50所示核苷酸序列的所述核苷酸。
[0020] 根据本发明的一个实施例,所述比对步骤利用选自SOAP2和MAQ的至少一种进行的。
[0021] 根据本发明的一个实施例,进一步包括步骤:确定具有SEQ ID NO:1-50所示多核苷酸序列的核苷酸的的相对丰度;并将所述丰度与预测出的临界值进行比较。
[0022] 根据本发明的一个实施例,存在具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示的多核苷酸序列的核苷酸,或不存在具有SEQ ID NO:1-
5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示的多核苷酸序列的核苷酸,是异常状态的指示。特别地,为糖尿病,更特别地,为II型糖尿病。
[0023] 根据本发明的一个实施例,根据本发明的一个实施例,存在具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示多核苷酸序列的核苷酸,或不存在具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示的多核苷酸序列的核苷酸,是健康对象的指示。特别地,为就糖尿病而言,更特别地,为就II型糖尿病而言。
[0024] 根据本发明的第二方面,本发明提出了一种确定对象中异常状态的方法。根据本发明的实施例,该方法包括确定与异常状态相关的生物标志物的所述相对丰度。利用该方法,能够有效地确定所述对象是否有异常状态,并且本领域技术人员可能根据关注的所述状态筛选出生物标志物,并且还可能筛选到所述异常状态的已知生物标志物。
[0025] 根据本发明的实施例,所述确定对象异常状态的方法可能进一步具有以下附加特征:
[0026] 根据本发明的一个实施例,所述异常状态是糖尿病,任选地,是II型糖尿病。
[0027] 根据本发明的一个实施例,所述生物标志物是在所述对象肠道微生物菌群中具有SEQ ID NO:1-50所示的多核苷酸序列的核苷酸。
[0028] 根据本发明的一个实施例,存在具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示的多核苷酸序列的核苷酸,或不存在具有SEQ ID NO:1-
5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示的多核苷酸序列的核苷酸,是糖尿病的指示。更特别地,是II型糖尿病。
[0029] 根据本发明的一个实施例,存在具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示的多核苷酸序列的核苷酸,或不存在具有SEQ ID NO:6-
9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示多核苷酸序列的核苷酸,是健康对象的指示。特别地,为就糖尿病而言,更特别地,为就II型糖尿病而言。
[0030] 根据本发明的一个实施例,具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示多核苷酸序列的核苷酸的所述相对丰度高于预设临界值,或具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示多核苷酸序列的核苷酸的所述相对丰度低于预设临界值,是糖尿病的指示。更特别地,是II型糖尿病。
[0031] 根据本发明的一个实施例,具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示多核苷酸序列的核苷酸的所述相对丰度高于预设临界值,或具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示多核苷酸序列的核苷酸的所述相对丰度低于预设临界值,是健康对象的指示。特别地,为就糖尿病而言,更特别地,为就II型糖尿病而言。
[0032] 根据本发明的一个实施例,基于所述核苷酸的所述相对丰度,利用下面公式进一步确定肠道健康指数:
[0033]
[0034]
[0035]
[0036] 其中,
[0037] Ai是标记物i的相对丰度,,
[0038] N是在所选择的与异常状态相关的生物标志物中所有患者富集标志物的子集,[0039] M是在所选择的与异常状态相关的生物标志物中所有对照富集标志物的子集,[0040] |N|和|M|是两个子集的所述生物标志物数目
[0041] d代表Id是在病人组中计算的,以及
[0042] n代表In在对照组中计算的。
[0043] 根据本发明的第四方面,本发明提出了一种检测对象异常状态的系统。根据本发明的一个实施例,该系统包括:核酸样本分离装置,适于从所述对象中分离核酸样本;测序装置,与核酸样本分离装置相连,适于对所述核酸样本进行测序,以便获得测序结果;以及比对装置,与测序装置相连,并且适于以这样的方式将测序结果与具有SEQ ID NO:1-50所示核苷酸序列的所述核苷酸进行比对,基于比对结果,确定是否存在具有SEQ ID NO:1-50所示多核苷酸序列的所述核苷酸。利用该系统,能够实施上述检测对象异常状态的方法,从而有效地确定所述对象中是否有异常状态。
[0044] 根据本发明的实施例,所述确定对象异常状态的系统进一步具有以下附加特征:
[0045] 根据本发明的一个实施例,所述测序装置适用于进行第二代测序方法或第三代测序方法。
[0046] 根据本发明的一个实施例,所述测序装置适用于选自Hiseq 2000、SOLID、454和单分子测序装置的至少一种进行。
[0047] 根据本发明的一个实施例,所述比对装置是SOAP2和MAQ的至少一种。
[0048] 根据本发明的第五方面,本发明提出了一种检测对象异常状态的系统。根据本发明的一个实施例,该系统包括:核酸样本分离工具,适于从所述对象中分离核酸样本;核酸测序工具,与核酸样本分离装置相连,并且适于对所述核酸样本测序,以便获得测序结果;以及比对工具,与所述测序装置相连,并且适于这样的方式将测序结果与具有SEQ ID NO:
1-50所示多核苷酸序列的所述核苷酸进行比对,基于比对结果,确定是否存在具有SEQ ID NO:1-50所示多核苷酸序列的所述核苷酸。利用上述系统的工具,可能能够实施上述检测对象异常状态的方法,从而有效地确定所述对象中是否有异常状态。
[0049] 根据本发明的实施例,所述确定对象异常状态的系统进一步包括以下附加特征:
[0050] 根据本发明的一个实施例,所述测序装置适用于进行第二代测序方法或第三代测序方法。
[0051] 根据本发明的一个实施例,测序装置适用于选自Hiseq 2000、SOLID、454和单分子测序装置的至少一种进行。
[0052] 根据本发明的一个实施例,所述比对装置是SOAP2和MAQ的至少一种。
[0053] 根据本发明的第六方面,本发明提出了一种存储计算机指令的计算机可读介质。根据本方面的一个实施例,所述计算机指令用于确定与异常状态相关的生物标记物的所述相对丰度。利用该计算机可读介质,能够有效地检确定所述对象是否是异常状态,并且本领域技术人员可能根据关注的所述状态筛选出生物标志物,并且还可能筛选到所述异常状态的已知生物标志物。
[0054] 根据本发明的一个实施例,所述计算机可读介质可能进一步包括以下附加特征:
[0055] 根据本发明的一个实施例,所述异常状态是糖尿病,任选地,是II型糖尿病。
[0056] 根据本发明的一个实施例,所述生物标记物是在所述对象肠道微生物菌群中具有SEQ ID NO:1-50至少一所示多核苷酸序列的核苷酸。
[0057] 根据本发明的一个实施例,存在具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示的多核苷酸序列的核苷酸,或不存在具有SEQ ID NO:1-
5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示的多核苷酸序列的核苷酸,是糖尿病的指示,更特别地,是II型糖尿病。
[0058] 根据本发明的一个实施例,存在具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示的多核苷酸序列的核苷酸,或不存在具有SEQ ID NO:6-
9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示的多核苷酸序列的核苷酸,是健康对象的指示,特别地,为就糖尿病而言,更特别地,为就II型糖尿病而言。
[0059] 根据本发明的一个实施例,具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示多核苷酸序列的核苷酸的所述相对丰度高于预设临界值,具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示多核苷酸序列的核苷酸的所述相对丰度低于预设临界值,是糖尿病的指示,更特别地,是II型糖尿病。
[0060] 根据本发明的一个实施例,具有SEQ ID NO:1-5,10,13-15,18,21,24,31-32,34,36,38-47和49-50至少之一所示多核苷酸序列的核苷酸的所述相对丰度高于预设临界值,或具有SEQ ID NO:6-9,11-12,16-17,19-20,22-23,25-30,33,35,37和48至少之一所示多核苷酸序列的核苷酸的所述相对丰度低于预设临界值,是健康对象的指示,特别地,为就糖尿病而言,更特别地,为就II型糖尿病而言。
[0061] 根据本发明的一个实施例,于所述核苷酸的所述相对丰度,利用下面公式进一步确定肠道健康指数:
[0062]
[0063]
[0064]
[0065] 其中,
[0066] Ai是标记物i的相对丰度,
[0067] N是在所选择的与异常状态相关的生物标志物中所有患者富集标志物子集,[0068] M是在所选择的与异常状态相关的生物标志物中所有对照富集标志物的子集,[0069] |N|和|M|是两个子集的生物标志物数目
[0070] d代表Id在病人组中计算的,以及
[0071] n代表In在对照组中计算的。
[0072] 根据本发明的第七方面,本发明提供了一种生物标记物作为靶标用于筛选治疗或预防异常状态的药物的用途。根据本发明的一个实施例,所述生物标记物是具有SEQ ID NO:1-50所示的多核苷酸序列的核苷酸,以及所述异常状态是糖尿病,任选地,是II型糖尿病。
[0073] 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

[0074] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0075] 图1示出了根据本发明实施例1和实施例2的结果曲线和图表。其中,图1a示出了实施例1中利用mRMR筛选出来的50个基因标志物构建了一个鉴定II型糖尿病个体的分类系统,接着通过计算每个个体的肠道健康指数来评估实施例1中患有II型糖尿病的风险。直方图示出了所有个体的肠道健康指数的分布情况,其中,数值小于-1.5的分为一组,数值大于3.5的分为一组。对于每个柱子,对应的点表示II型糖尿病患者在该柱子中的比率(右侧Y轴)。图1b示出了实施例1中基于肠道微生物II型糖尿病分类系统的ROC曲线下面积(Area Under the Curve,AUC)。黑色棒表示95%置信区间(CI),两条曲线之间的面积表示95%置信区间形状。图1c示出了在实施例2中对11个中国II型糖尿病样本和12个无糖尿病对照进行计算获得肠道健康指数。其中,盒子代表第一分位数和第三分位数的四分间距(IQR),中间的线代表平均值,点代表每个样品的肠道健康指数;
[0076] 图2示出了列于表3的肠道健康指数,这与我们群体中II型糖尿病患者的比率相吻合。

具体实施方式

[0077] 本发明通过实施例进行实验验证,所描述的实施例不能理解为对本发明的限制。除非特别声明,部件及百分比用重量表示,温度用摄氏度表示。本领域的技术人员应当理解,本发明的所描述的实施例,很明显仅仅作为例证。所有的试剂可通过商业渠道获得。
[0078] 一般方法
[0079] I.生物标志物检测方法(利用两步宏基因组关联研究检测生物标记物)[0080] 为了检测II型糖尿病关联的宏基因组标志物,发明人设计并提出了一种两步宏基因组关联研究策略。利用基于测序的图谱方法,发明人对第一期样品的肠道微生物进行定量。通常地,发明人可以将测序结果特异性地匹配到新的基因集上,当到达相似性≥90%的要求。为了使测序覆盖度标准化,采用原始测序序列(raw read)的相对丰度替代原始测序序列数目对肠道微生物基因进行定量。数据校正后进行群体分层分析,这可能会受到非II型糖尿病相关的因素的影响,为此,采用改进的EIGENSTRAT方法对数据进行分析(详细信息参见:Price,A.L.et  al.Principal  components analysis  corrects  for stratification in genome-wide association studies.Nature genetics 38,904-909,doi:10.1038/ng1847(2006),通过参考将其并入本文)。然而,与基因组关联分析(GWAS)中的亚群校正不同的是,发明人通过对微生物丰度而非基因型进行分析。利用Wilcoxon轶和检测方法对基因谱进行校正来鉴定II型糖尿病患者和对照宏基因组基因含量的差别。分析结果显示,通过与零假设(null hypothesis)的期望分布相比,大量的微生物基因具有非常小的P值,意味着这些基因是真正与II型糖尿病相关联的肠道微生物基因。
[0081] 为了验证第一期鉴定出的相关性的显著性,发明人利用另外一些个体的样品在第二期进行了分析。在第二期,发明人还使用了全基因组测序。然后,发明人对在第二期P<0.05的第一期基因进行评估。发明人接着在第二期分析中对阳性错误率(FDR)进行控制,从对应FDR(第二期中P<0.01)的基因中确定出II型糖尿病关联的基因标记物。
[0082] II.从生物标志物中筛选出50个最好的标志物的方法
[0083] 为了定义出一组最优基因集,发明人使用了一种最小冗余-最大相关(mRMR)(更详细信息参见Peng,H.,Long,F.& Ding,C.Feature selection based on mutual information:criteria of max-dependency,max-relevance,and min-redundancy.IEEE Trans Pattern Anal Mach Intell27,1226-1238,doi:10.1109/TPAMI.2005.159(2005),通过参照将其并入本文)特征选择方法,从所有II型糖尿病相关基因标志物中进行筛选。获得了50个最优的基因标志物,列于表1.
[0084] 表1 50个最优的基因标记物
[0085]
[0086]
[0087]
[0088] III肠道健康指数
[0089] 为了开发利用肠道微生物进行疾病分类的潜力,发明人开发了一种基于所定义的基因标志物的疾病分类系统。基于这些肠道微生物基因标志物,为了直观地评价疾病的风险,发明人计算出了肠道健康指数。
[0090] 为了评价肠道宏基因组对II型糖尿病的影响,基于利用mRMR方法所选择的50个肠道宏基因组标志物,发明人计算出每个样品的肠道健康指数。对于样品,样本j的肠道健康指数Ij利用下面公式计算得到:
[0091]
[0092]
[0093]
[0094] 其中,
[0095] Aij是样品j中标记物i的相对丰度,
[0096] N是在所选择的与异常状态相关的生物标志物中所有患者富集标志物子集,[0097] M是在所选择的与异常状态相关的生物标志物中所有对照富集标志物的子集,[0098] |N|和|M|是两个子集的生物标志物数目
[0099] d代表Id在病人组中计算的,以及
[0100] n代表In在对照组中计算的。
[0101] IV疾病分类系统
[0102] 通过两步宏基因组关联研究策略鉴定标志物后,发明人依据“用来分类的标志物应当是可以区分患者和健康的标志物中最优势的和最小冗余”的原理,采用最小冗余-最大相关特征选择法(mRMR)对标志物进行排序,并得到了一系列标志物集(其数量(size)最大可以与标志物数目一样)。对于每个序列集,发明人使用LOOCV(leave-one-out cross-validation)检测分类系统(比如逻辑回归算法)的错误率。错误率最低的是标志物集中的最优选择(在一些实施例中,发明人选择出了50个标志物)。
[0103] 最后,为了直观地评价这些基于肠道微生物基因标志物的疾病的风险,发明人计算除了肠道健康指数。肠道健康指数越大,患病风险越高,肠道健康指数越小,就越健康。基于大群体数据,发明人可以建立最优的健康指数阈值。如果某个测试样本的健康指数高于阈值,表明该个体患病风险较大;而如果某个测试样本的健康指数低于阈值,那么其更健康。最优的健康指数阈值可以利用ROC方法确定,当灵敏度及特异性的和达到最大值时,健康指数阈值最优。
[0104] 实施例1从344个中国个体中筛选50个生物标志物并利用肠道健康指数评价他们的II型糖尿病风险
[0105] 样品收集与DNA提取
[0106] 所有344个粪便样品来自344个居住于中国南方的中国个体,由3家当地医院所收集,比如:深圳第二人民医院、中国深圳北大医院和广东省人民医院医学研究中心,包括344样本用于MWAS。根据1999年WHO发布的标准进行II型糖尿病诊断(Alberti,K.G.& Zimmet,P.Z.Definition,diagnosis and classification of diabetes mellitus and its complications.Part 1:diagnosis and classification of diabetes mellitus provisional report of a WHO consultation.Diabetic medicine:a journal of the British Diabetic Association15,539-553,doi:10.1002/(SICI)1096-9136(199807)15:7<539::AID-DIA668>3.0.CO;2-S(1998),通过参照将其并入本文),诊断出的II型糖尿病患者作为病例组,其他非糖尿病个体作为对照组(表2)。病人和健康对照组要求提供冷冻的粪便样本。在家里获得新鲜的粪便样本,并立即将样本置于冰箱中进行冷冻。冷冻的粪便样品送到深圳华大基因研究院(BGI-shenzhen),保存于-80℃备用。
[0107] 每份取200mg冷冻粪便样品,悬浮于含250μl硫氰酸胍、0.1M Tris(pH 7.5)和40μl 10%月桂酰肌氨酸的溶液中。DNA提取方法与前述相同(Manichanh,C.et al.Reduced diversity of fecal microbiota in Crohn's disease revealed by a metagenomic approach.Gut 55,205-211,doi:gut.2005.073817[pii]10.1136/gut.2005.073817(2006),通过参照将其并入本文)。DNA浓度及分子量大小分别采用Nanodrop仪器(Thermo Scientific)和琼脂糖凝胶电泳进行测定。
[0108] 表2 样本采集统计
[0109]
[0110] DNA文库构建以及测序
[0111] DNA文库构建按照测序仪器(Illumina Genome Analyzer IIx测序平台)制造商Illumina公司提供的操作指南进行。利用与其他地方描述的相同的流程进行簇生成、模板杂交、等温扩增、线性化、阻断变性以及与测序引物杂交等过程。
[0112] 发明人针对每个样本构建具有插入长度为350bp的双末端(paired-end,PE)文库,通过高通量测序获得2000万对PE测序序列。这些测序序列的长度为75~100bp(第一期样品测序序列长度为75bp和90bp;第二期样品测序序列长度为100bp)。提取高质量的测序序列通过从Illumina的原始数据中过滤去除含‘N’的低质量序列、接头污染序列和宿主基因组污染序列。平均来说,高质量数据占全部数据的98.1%。并且,PE文库的实际插入长度介于313bp和381bp之间。
[0113] 肠道宏基因组参考基因集构建
[0114] 为了鉴定II型糖尿病关联的宏基因组标志物,发明人首先构建了一个全面的宏基因组参考基因集,其中包含中国个体以及II型糖尿病特异的肠道微生物,由于已有的肠道宏基因组参考基因集(MetaHIT基因集)不包含上述数据。发明人来自145个中国个体(71个患者,74个健康人)的粪便DNA样本进行全基因组测序(WGS),每个样品获得平均2.61Gb(1,580万)双末端测序序列,去除人体DNA污染和接头污染后共获得378.4Gb高质量数据。对所有145样本进行从头重装并进行宏基因预测。发明人将这些数据整合到预测来自欧洲人肠道基因集并具有330万基因的MetaHIT基因集中(Qin,J.et al.A human gut microbial gene catalogue established by metagenomic sequencing.Nature464,59-65,doi:
nature08821[pii]10.1038/nature08821(2010),通过对照将其并入本文),从而得到一个包含4,267,985个预测的基因的更新的基因集。这些基因中1,090,889个基因独特地来自中国人的肠道,与MetaHIT基因集相比,测序序列覆盖度增加了10.8%。
[0115] 计算基因的相对丰度
[0116] 使用SOAP2将来自每个样本的高质量的测序序列与基因集进行比对,比对标准为“相似性>90%”。只有两种比对情况被接受:i).插入长度正确的双末端测序序列应该匹配到某个基因上;ii)双末端测序序列中的其中一端应该匹配到某个基因的尾部,假设测序序列另一端匹配到基因外部。在这两种情况下,匹配上的测序序列都算做一个拷贝。
[0117] 对于任意一个样品S,发明人通过以下步骤计算所述相对丰度:
[0118] 步骤1:计算每个基因的拷贝数
[0119]
[0120] 步骤2:计算基因i的相对丰度
[0121]
[0122] 其中
[0123] αi为基因i在样品S中的相对丰度;
[0124] Li:基因i的长度;
[0125] xi:基因i在样品S中被检测到的次数(匹配的测序序列的数目);
[0126] bi;表示在来自样品S的测序数据中基因i的拷贝数;
[0127] bj;表示在来自样品S的测序数据中基因j的拷贝数。
[0128] 图谱准确性评估
[0129] 发明人应用Audic和Claverie(1997)的方法(Audic,S.&Claverie,J.M.The significance of digital gene expression profiles.Genome Res 7,986-995(1997),通过参照将其并入本文)对相对丰度估计(relative abundance estimate)的理论精确性进行评估。假设从基因i获得了xi个测序序列,其只占据了样本全部测序序列中的一小部分,通过泊松分布(Poisson distribution)对xi的分布进行估计。将样本中全部测序序列(reads)的数目记录为N,则N=∑ixi。假设所有的基因都是相同长度的,则基因i的相对丰度值ai可以简单地表示为ai=xi/N。进而,发明人可以按照下列公式评估从相同的基因i获得yi个测序序列的期望概率,
[0130]
[0131] 其中,a'i=yi/N表示由yi个测序序列计算得到的相对丰度(Audic,S.& Claverie,J.M.The significance of digital gene expression profiles.Genome Res7,986-995(1997),通过参照将其并入本文)。根据该公式,发明人通过设定ai为0.0~1e-5,设定N为0~4000万,以便计算99%置信区间的a'i,并且进一步评估检测误差率。
[0132] 利用两步宏基因组关联研究鉴定标志物
[0133] 为了确定II型糖尿病关联的宏基因组标志物,发明人设计并提出了一种两步宏基因组关联研究策略。发明人对145个样本的不同图谱的亚群进行了研究,之后经校正后进行群体分层分析,这可能会受到非II型糖尿病相关的因素的影响,为此,发明人采用改进的EIGENSTRAT方法对数据进行分析(Price,A.L.et al.Principal components analysis corrects for stratification in genome-wide association studies.Nature genetics 38,904-909,doi:10.1038/ng1847(2006),通过参考将其并入本文)。然而,与基因组关联分析(GWAS)中的亚群校正不同,发明人对微生物丰度而非基因型进行分析。利用Wilcoxon轶和检测方法对基因谱进行校正来鉴定II型糖尿病患者和对照中宏基因组基因含量的差别。分析结果显示,通过与零假设(null hypothesis)的期望分布相比,大量的微生物基因具有非常小的P值,这意味着这些基因是真正与II型糖尿病相关联的肠道微生物基因。为了验证第一期鉴定出的相关性的显著性,发明人利用另外199个中国个体进行第二期分析。在第二期,发明人还使用了全基因组测序(WGS)并且获得总共830.8Gb的测序数据,其中每个样本平均2360万双末端测序序列。然后发明人对P<0.05的第一期278,167个基因进行评估,发现在第二期研究样本中这些基因中的大多数仍然与II型糖尿病相关。发明人接着在第二期分析中对阳性错误率(FDR)进行控制,并且从对应FDR为2.5%(第二期,P<0.01)的这些基因中确定出52,484个与II型糖尿病关联的基因标志物。
[0134] 基于肠道微生物的II型糖尿病分类
[0135] 为了开发利用肠道微生物进行疾病分类的潜力,发明人开发了一种基于基因标记物的疾病分类系统,使用的基因标记物是利用最小冗余-最大相关特征选择法(mRMR)筛选出来的50个基因标记物,其被定义为一组最优基因集。为了直观地评价基于这50个肠道微生物基因标记物的II型糖尿病的风险,发明人计算出一个健康指数(表3和图2),这与我们群体中II型糖尿病患者的比率相吻合(图1a)。并且,ROC(receiver  operating characteristic)曲线下面积(AUC)为0.81(95%置信区间为:[0.76-0.85])(图1b),意味着基于肠道微生物的肠道健康指数可以用来精确分类II型糖尿病个体。当阈值为0.046时,灵敏度和特异性的总和均达到最大值,分别为0.882和0.58。
[0136] 实施例2在23个中国个体中验证50个生物标志物和肠道健康指数
[0137] 发明人利用一个独立地研究群体,包括11个II型糖尿病患者和12个非糖尿病对照,验证II型糖尿病分类系统的识别能力(表4)。分析结果显示,肠道健康指数最高的8个样本全部为II型糖尿病患者(图1c),且病例与对照的平均肠道健康指数差异显著(P=0.004,Student’s T检验)。当阈值为0.046时,灵敏度为0.5833,特异性为1。当阈值为0.290时,灵敏度为0.833,特异性为0.545。
[0138] 表3 344个样品的肠道健康指数
[0139]
[0140]
[0141]
[0142]
[0143]
[0144]
[0145]
[0146]
[0147]
[0148]
[0149]
[0150]
[0151] 表4 23份样品的肠道健康指数
[0152]
[0153]
[0154] 发明人利用mRMR基于~60,000个II型糖尿病关联的肠道微生物基因标记物中筛选出50个最优的并进行了验证,接着基于这50个肠道基因标记物构建肠道健康指数对II型糖尿病患病风险进行评估。
[0155] 尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解以上实施例不应解释为对本发明的限制。对实施例细节进行的各种修改和替换,均在本发明的保护范围之内。