一种基于口腔微生物群落获得儿童个体生物年龄的方法转让专利

申请号 : CN201510213461.1

文献号 : CN106202989B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 滕飞杨芳黄适徐健

申请人 : 中国科学院青岛生物能源与过程研究所

摘要 :

本发明提供一种基于口腔微生物群落获得儿童个体生物年龄的方法,所述方法包括获得含有所述儿童个体口腔微生物的样品;提取口腔微生物的DNA;将所述DNA信息转化为微生物群落信息,利用随机森林算法,对口腔微生物群落信息与年龄进行回归分析,构建回归模型,获得所述中国人群儿童个体年龄。本发明提供的方案能准确地获得中国人群儿童个体的生物年龄,可以无侵害性、简单、快捷的获得口腔唾液或牙菌斑样品,对儿童个体年龄进行长期检测,这将有利于快速判断宿主此时生理健康状态,为健康监测提供线索,同时提高疾病早期诊断速度。

权利要求 :

1.一种基于口腔微生物群落获得儿童个体生物年龄的方法,其特征在于,包括以下步骤:数据收集:收集多个时间点的儿童个体口腔样本;

数据转化:提取获得口腔样本的DNA信息,利用生物信息学方法将所述DNA信息转化为口腔微生物群落信息;

数据模型的初步构建:将获得的口腔微生物群落信息作为输入变量,利用随机森林方法,将其对年龄信息进行回归,初步构建基于口腔微生物群落信息检测生物年龄的初步数学模型;

数学模型的优化和确定:根据变量在模型的重要性程度排序,在不影响模型性能前提下简化模型变量组合,最终确定儿童个体年龄检测的模型;

儿童个体生物年龄的检测:将所需微生物群落信息作为输入变量,利用已建立的数学模型进行回归分析,获得所检测的儿童个体此时生物年龄。

2.根据权利要求1所述的一种基于口腔微生物群落获得儿童个体生物年龄的方法,其特征在于,所述口腔样本为唾液或龈上牙菌斑样本。

3.根据权利要求1所述的一种基于口腔微生物群落获得儿童个体生物年龄的方法,其特征在于,所述将DNA信息转化为口腔微生物群落信息包括以下步骤:通过高通量测序手段获得DNA信息的16s RNA或全基因组信息;

针对16s RNA或全基因组信息进行从门到种水平细菌种系信息划归;

分别统计每个样品在种水平上各物种的序列数,并与该样品总体获得的序列数计算其比值,从而获取每个各物种的相对丰度。

4.根据权利要求1所述的一种基于口腔微生物群落获得儿童个体生物年龄的方法,其特征在于,所述数据模型的初步构建,包括以下步骤:

1)将获得的口腔微生物的全部细菌种水平的组成及其相对丰度作为输入变量;

2)利用随机森林方法,将输入变量对儿童个体的年龄信息进行回归,初步构建基于口腔微生物群落信息检测生物年龄的初步数学模型。

5.根据权利要求1所述的一种基于口腔微生物群落获得儿童个体生物年龄的方法,其特征在于,所述数据模型的优化和确定,包括以下步骤:

1)获得初步数学模型中代表菌的种类的各个变量对模型性能的重要性程度;

2)按照变量对模型重要性程度从小到大排序,逐步减少变量数量,利用随机森林方法,进行对年龄的回归分析,获得不同变量组合的模型;

3)评价在不降低模型性能前提下的最简化变量组合,确定为年龄相关变量,从而确定最终优化模型。

6.根据权利要求1所述的一种基于口腔微生物群落获得儿童个体生物年龄的方法,其特征在于,所述儿童个体生物年龄的检测,包括以下步骤:

1)获取儿童个体口腔样本的DNA;

2)利用生物信息学方法将DNA信息转换为口腔微生物群落信息;

3)获得儿童个体的年龄相关变量的相对丰度;

4)利用随机森林方法,将年龄相关变量的组成及其丰度作为变量,对建立的年龄检测模型进行回归分析,获得儿童个体此时的生物年龄。

说明书 :

一种基于口腔微生物群落获得儿童个体生物年龄的方法

技术领域

[0001] 本发明涉及微生物检测模型领域,具体的说是一种基于口腔微生物群落获得儿童个体生物年龄的方法。

背景技术

[0002] 人类并不孤单于世,每个人体内均携带有数十亿个微生物,人类与其体内共生的微生物共同组成一个“超级生物体”。子宫中是没有微生物的,人类第一次与微生物接触的是产道。在出生后,通过喝奶以及与外界环境相接触,更多的微生物迁移进入人类体内。人类微生物群落具有年龄特征,人类体内微生物群落随着年龄增长逐渐建立起来,并一生随着生理发育改变而不断进化。那些在出生后进入人体并对人体健康产生重要影响的微生物是后天禀赋的重要承载者,相当于在人类体内存在着除人类自身的基因组外的另一个基因组通过表达调控人体的生命健康,目前认为共生微生物可作为人体的第二基因组,其遗传信息的总和被称为微生物组(microbiome),赋予人类不依赖于自身进化而获得的复杂个体特征。因此,全面认识人体共生菌群可深度揭示其对人体健康或疾病状态的影响,从而构建微生物群落存在及变化情况与宿主生理状态之间的联系。
[0003] 口腔系统是连通人体内外的交通枢纽,为人体共生菌群非常重要的栖息位点,维持口腔菌群结构和功能的健康平衡状态,对于人体健康具有深刻而不容忽视的重大意义。与血液检查和骨龄作为疾病诊断媒介相比,口腔位点采样具有低侵害性、低成本、样品采集和处理简易、快捷等优势。
[0004] 人的生长发育可用两个“年龄”来表示:即生物年龄(biological age)和生活年龄(chronological age)。生物年龄指个体在潜在的生命期中,目前所在的位置,是人体健康状况的综合指数,是机体老化程度的客观表述。生活年龄指个体自出生之日算起的实际年龄,以日历上所经过的时间为准。由于营养、疾病、遗传、环境等因素的影响,一些人的生活年龄与发育程度(生物年龄)并不一致,所以生活年龄并不能真实反映一个身体的发育、成熟程度,而生物年龄与个人的 生理健康有密切的关系。
[0005] 目前广泛使用骨骼年龄(骨龄;skeletal age,SA;bone age,BA)评价生物年龄或成熟状况。骨龄测定包括手腕部、肘关节、膝关节及足等身体部位,手腕部因其敏感及摄片方便而临床上常用采用X线片进行手腕部对儿童进行测定。但手腕部骨骼数目诸多,有腕骨8块,掌骨5块,指骨14块,加上尺、桡骨共29块,此外,拇指内侧种籽骨也是骨骼发育的重要标志。评定方法主要包括图谱法和记分法,其中图谱法简单、直观,但鉴定者在实际操作中还是以整张X线片进行比较与判读,尚存在着主观判读强、骨成熟组合多等问题;记分法虽相对客观,但骨发育等级划分过细,标准掌握难度大,从而降低了骨龄评价的可靠性,而且骨龄标准图谱库的建立及计算机读片系统的研究亟待解决。此外,虽X射线对人体几乎无害,但对于儿童生长发育的长期追踪仍需在处理时采取防护措施,而非放射线骨龄发育评价与方法的开发仍处于初期阶段,如超声检测使用的判读精度较低,方法学上仍存在问题。
而除骨龄外,测定生物年龄的方法常用的还有牙齿成熟度及第二性征发育程度,但这些方法通常评估多依靠鉴定者主观判断,结果均是范围值,较难计算精确的个体生物年龄,且评估指标在个体间异质性相对较大。因此,亟待开发出客观、精确、易操作、无侵害性、高通量的生物年龄评估方法。

发明内容

[0006] 针对现有技术中存在的上述不足之处,本发明要解决的技术问题是提供一种基于口腔微生物群落获得儿童个体生物年龄的方法。
[0007] 本发明为实现上述目的所采用的技术方案是:一种基于口腔微生物群落获得儿童个体生物年龄的方法,包括以下步骤:
[0008] 数据收集:收集多个时间点的儿童个体口腔样本;
[0009] 数据转化:提取获得口腔样本的DNA信息,利用生物信息学方法将所述DNA信息转化为口腔微生物群落信息;
[0010] 数据模型的初步构建:将获得的口腔微生物群落信息作为输入变量,利用 随机森林方法,将其对年龄信息进行回归,初步构建基于口腔微生物群落信息检测生物年龄的初步数学模型;
[0011] 数学模型的优化和确定:根据变量在模型的重要性程度排序,在不影响模型性能前提下简化模型变量组合,最终确定儿童个体年龄检测的模型;
[0012] 儿童个体生物年龄的检测:将所需微生物群落信息作为输入变量,利用已建立的数学模型进行回归分析,获得所检测的儿童个体此时生物年龄。
[0013] 所述口腔样本为唾液或龈上牙菌斑样本。
[0014] 所述将DNA信息转化为口腔微生物群落信息包括以下步骤:
[0015] 通过高通量测序手段获得DNA信息的16s RNA或全基因组信息;
[0016] 针对16s RNA或全基因组信息进行从门到种水平细菌种系信息划归;
[0017] 分别统计每个样品在种水平上各物种的序列数,并与该样品总体获得的序列数计算其比值,从而获取各物种的相对丰度。
[0018] 所述数据模型的初步构建,包括以下步骤:
[0019] 1)将获得的口腔微生物的全部细菌种水平的组成及其相对丰度作为输入变量;
[0020] 2)利用随机森林方法,将输入变量对儿童个体的年龄信息进行回归,初步构建基于口腔微生物群落信息检测生物年龄的初步数学模型。
[0021] 所述数据模型的优化和确定,包括以下步骤:
[0022] 1)获得初步数学模型中代表菌的种类的各个变量对模型性能的重要性程度;
[0023] 2)按照变量对模型重要性程度从小到大排序,逐步减少变量数量,利用随机森林方法,进行对年龄的回归分析,获得不同变量组合的模型;
[0024] 3)评价在不降低模型性能前提下的最简化变量组合,确定为年龄相关变量,从而确定最终优化模型。
[0025] 所述儿童个体生物年龄的检测,包括以下步骤:
[0026] 1)获取儿童个体口腔样本的DNA;
[0027] 2)利用生物信息学方法将DNA信息转换为口腔微生物群落信息;
[0028] 3)获得儿童个体的年龄相关变量的相对丰度;
[0029] 4)利用随机森林方法,将年龄相关变量的组成及其丰度作为变量,对建立的年龄检测模型进行回归分析,获得儿童个体此时的生物年龄。
[0030] 还包括:把获得的儿童个体的生物年龄与其实际年龄进行对比,获知儿童的此时生长发育情况,即如果生物年龄低于实际年龄,则提示该儿童有由于疾病等因素导致生长发育迟缓的可能;如果生物年龄等于实际年龄,则提示该儿童生长发育情况正常;如果生物年龄高于实际年龄,则提示儿童有早熟的可能。
[0031] 本发明具有以下优点及有益效果:
[0032] 1.本发明的对象采集和处理简易、无侵害性、成本低;
[0033] 2.本发明的模型建立和优化易于操作、数据处理高效;
[0034] 3.本发明的评估客观、自动化,可提供精确数值;
[0035] 4.本发明应用广泛:其应用对象不仅适用于大规模人群评估,也可针对个体实现长期监测;其应用形式不仅可检测儿童个体此时生物年龄,也可作为评估个体发育生长和健康情况的辅助方法。

附图说明

[0036] 图1为本发明实施提供的实验设计图;
[0037] 图2为本发明实施提供的口腔微生物群落结构特征图;
[0038] 图3为本发明实施提供的通过随机森林回归方法筛选出与年龄相关的口腔微生物组成及其对模型性能贡献程度图;
[0039] 图4为本发明实施提供的优化后模型应用于健康组和龋病组结果图。

具体实施方式

[0040] 下面结合附图及实施例对本发明做进一步的详细说明。
[0041] 本发明以利用口腔牙菌斑和唾液微生物群落构建和优化可检测儿童口腔的生物年龄作为实施例(图1),包括下列内容:
[0042] (1)收集儿童口腔健康状态临床信息(表1):
[0043] 对广州市南方中英文幼儿园全日制儿童的口腔健康进行追踪调查,每半年检查一次,持续一年三次检查,之后再间隔一年进行检查,根据调查记录的儿童dmfs(龋,失,补牙数)指数,根据本研究目的选择具有下述三类口腔健康变化特征的儿童纳入此课题研究:①健康组(H2H组):口腔龋病状况始终保持健康的17名儿童;②龋病组,包括龋病发生组(H2C组):口腔龋病状况经历从健康到龋病新发过程的21名儿童,以及龋病进展组(C2C组):口腔龋病状况经历从已患龋到龋病发展过程的12名儿童。入选标准包括:年龄约4岁,20颗乳牙全部萌出,排除标准包括:有全身系统性疾病和牙周、口臭等口腔疾患,三个月服用抗生素。就整个实验流程各项细节及以后的数据公布等事宜征得志愿者监护人同意,并签署知情同意书。选取所有入选儿童的口腔检查时所取的龈上牙菌斑和唾液样品共计284个。
[0044] 调查方法:由两名牙体牙髓专科医生以视诊结合探诊的方式进行检查,检查器械高温高压消毒,必要时借助棉签去除软垢。检查前统一认识、方法和标准,标准一致性检验的Kappa值均大于0.92。采用世界卫生组织《口腔健康调查基本方法》(1997年)对龋病的诊断标准。冠龋诊断标准:牙齿的窝沟点隙或光滑面有明显龋洞、或明显釉质下破坏、或明确可探及软化洞底或洞壁的病损记为龋齿,包括有充填物或已窝沟封闭同时有龋者。有下列表现而缺乏其他阳性症状时不列入龋齿记录范围:①白色或白垩色斑点;②探诊无软化的着色或粗糙斑点;③釉质点隙或窝沟着色,但无明显釉质下潜行破坏;④中到重度氟斑牙,有光泽、质硬、有小凹陷;⑤根据分布或病史,结合触诊、视诊观察因磨损而造成病损龋齿。
[0045] 表1本发明实例提供的样本临床数据
[0046]
[0047] (2)收集儿童唾液和龈上菌斑样本:
[0048] 取样前一小时受试者避免进食及饮水,每次取样均在早上9:100-12:00,取样时儿童保持轻仰头、闭眼、直立座位。收集儿童无刺激性唾液于50ml无菌离心管中约3-5ml,并每1ml分装于1.5ml离心管中;再使用无菌牙刷采集全部萌出乳牙龈上的菌斑1分钟,将粘附于牙刷上的菌斑转移至盛有10ml双蒸水的50ml离心管,取样时避免触碰黏膜等口腔其他位点。对样品分别编号并置于-80℃保存待提取DNA。
[0049] (3)基因组DNA提取和PCR扩增16S rRNA基因片段
[0050] 采用高盐DNA提取方法。将盛有菌斑和唾液的离心管分别13,000rpm/min速度离心15min,弃上清,分别加入1ml裂解液,裂解液混合物中加入30μL蛋白酶K及150μL 10%SDS,
53℃水浴震荡过夜培养。加入400μL 5M NaCl冰上培养10min,13,000rpm/min离心10min。加入等体积的饱和酚溶液,至水相酚混匀成乳液状,以13,000rpm/min速度离心15min,吸取上层黏稠水相至新管,重复酚抽提一次。加等体积的氯仿异戊醇混合液(24:1),转动混匀,以
13,000rpm/min速度离心15min,取上层黏稠水相转移。加入800μL异丙醇,室温培养1min,以
13,000rpm/min速度离心15min。弃上清,70%乙醇洗两次,干燥后溶于50μL TE溶液。
[0051] 采用Qubit超微量分光光度仪定量DNA浓度,电泳检测DNA完整性。提取后的DNA保存于-20℃。约15ng DNA用于构建16S扩增文库。
[0052] 为获得相对准确的种系发育信息,选取16S  rRNA片段上V1-V3高变区(Escherichia coli positions 5-534)作为PCR扩增目标片段。确定PCR上游引物(5’-NNNNNNN-TGGAGAGTTTGATCCTGGCTCAG-3’)及下游引物(5’-NNNNNNN-TACCGCGGCTGCTGGCAC-3’),NNNNNNN即IDtag,是为区别不同样品来源而设计的随机组合的七个碱基,分别加入上下游引物的5’端,利用该多样品平行标记技术完成多个样品同时在测序仪上测序。
[0053] 每个样品进行三次PCR扩增,PCR反应体系(25μL)包含12.5μL的Gotag Hotstart聚合酶,各1μL上下游引物(浓度5pM),1μL基因组DNA(5ngμL-1),9.5μL PCR级别无菌水,在Thermocycler PCR system进行反应。反应条件设定为:95℃预变性2min,94℃变性30s,退火56℃25s,72℃延伸25s,共25个循环,最后72℃延伸5min。PCR产物混合后全部进行凝胶电泳(1.2%Q琼脂糖,5V cm-1,40min),确认扩增效果,将琼脂糖胶放置在紫外灯下,割取约500bp长度的DNA条带,按照Qiagen MiniElute试剂盒提供的操作流程进行回收、纯化目的片段DNA,用20μL洗涤。
[0054] (4)454GS FLX Titanium测序
[0055] 主要流程如下:①文库制备,采用Agilent BioAnalyzer 2100生物分析仪及PicoGreen超微量分光光度仪联合定量,将不同样品以等摩尔混合后共构建三份DNA文库,与特异性接头连接修饰,变性处理回收单链DNA;②乳化PCR,将DNA文库固定于磁珠,经扩增乳化,形成油水混合物,每个DNA片断在微反应器进行独立平行扩增,产生数百万计相同拷贝。打破乳化状态,回收纯化结合于磁珠上的DNA片段;③测序反应,将携带DNA的磁珠与其他反应物混合,放入PTP板中置于454GS FLX Titanium机器中,每一个与模板链互补的核苷酸的添加都会产生荧光信号并被CCD照相机所捕获,逐步完成测序;④数据收集,通过系统信息学工具对测序反应数据进行碱基解析。
[0056] (5)将获得的高通量数据转换成具体的微生物群落数据
[0057] 序列质量控制:454高质量序列分析流程主要基于MOTHUR平台,设定质量控制规范,符合标准的序列片段被视为高质量序列,予以保留。①至少有一端引物能被匹配,允许的编辑距离(插入、删除、缺失、错配的碱基数量)不超过2;②序列长度大于150bp;③设置一个50bp的碱基阅读框,从每条序列的第一个碱基开始逐个碱基向后移动,每移动一个碱基,计算一次该阅读框内的质量分数均值,该质量指数均值需大于35;④不含有模糊碱基;⑤允许标签序列错配数量不超过1。经初步过滤后,需要进一步对序列进行测序错误的筛查,包括“preclustering”和嵌合体(Chimera)序列查找等步骤。选择UCHIME程序查找并删除这些序列。
[0058] 基于16S数据库的种系发育信息分析:采用MOTHUR分类方法针对人类口腔核心微生物16S数据库(CORE)进行从门到种水平细菌种系信息划归,分别统计各个样品在每个分类水平上各物种的序列数,并与该样品总体获得的序列数计算其比值,从而获取每个门类各物种的相对丰度。
[0059] (6)不同因素对于口腔菌群分布的影响(图2):
[0060] 以杰森-香浓(Jensen-Shannon)矩阵为基础的群落结构计算方法:其除了样品 间的进化距离外,还可调查样品细菌种水平上丰度的区别。样品中的细菌种丰度分布可以看作是物种的概率分布,可以利用样品间这种概率分布的互信息熵(Jensen-Shannon divergence,JSD)来度量样品间的微生物组的区别。样品间的距离D(a,b)的计算公式如下:
[0061]
[0062] Pa和Pb分别代表样品a和样品b中的丰度分布。JSD(X,Y)定义了两个样品中不同的概率分布X和Y间的互信息熵(Jensen-Shannon divergence)。
[0063]
[0064]
[0065] KLD是X和Y间的Kullback-Leibler离散度,具体的计算方法如下:
[0066]
[0067] 非监督的主坐标分析:将Jensen-Shannon矩阵进行主坐标分析(PCoA:Principal Coordinates Analysis)以展示不同样本间口腔微生物群落结构特征,PCoA将各个物种信息视为互相独立不关联的变量,以样本×变量相对丰度的矩阵进行分析,以在不考虑环境因子影响的前提下,无偏见、整体的观察样本的内在菌群结果,发现一个或多个潜在的变量(主坐标,Principal coordinate,PC)以最大程度的在较低维度上最好的解释样本内在的变异,每一个主坐标代表在此维度下可解释的整体结构变异程度,从而达到数据降维处理并对样品排序的目的,其中样本的得分(Score)是物种得分的线性组合。
[0068] 置换多元统计分析结果显示口腔微生物群落具有明显的年龄特征,这些年龄特征与个体发育成熟度和健康状态有关,支持根据口腔微生物群落建立评估儿童个体生物年龄的方法(图1,图2):
[0069] ①在各个生态位点,时间/年龄因素是决定菌群分布的最重要因素。
[0070] ②在各个生态位点,影响菌群分布的其他重要因素根据其重要性排名顺序 为:健康/疾病状态、样品分组、个体异质性。
[0071] ③在不同分组中(包括H2H、H2C、C2C组),健康组中时间因素对其菌群影响最大,而在龋病组中时间因素收到疾病状态影响而对菌群影响作用受抑制。
[0072] 以上结果提示:口腔菌群可作为个体年龄检测的媒介,且可反应宿主口腔健康状态。
[0073] (7)初步建立口腔状态检测的数学模型(图1)
[0074] 在机器学习中,随机森林方法是一个包含多个决策树的模型,并且其输出的类别是由个别树输出的类别的众数而定,该模型被广泛用于挖掘目标变量和众多解释变量间的关联关系。此方法不但可建立分类或回归模型,同时可确定区分特定状态或标签的变量,并可通过其重要性值以判断其区分能力的大小。在本实例中,随机森林方法利用R的randomForest软件包实现,建立5000棵树,其他均为默认设置。以输入数据的2/3作为训练数据集,以输入数据的1/3作为测试数据集,随机进行100次实验以降低误差。
[0075] 以H2H组中的口腔微生物群落细菌种数据作为输入变量,以每个样本对应的实际月龄作为样本信息,将其回归到离散的输出变量(预测的月龄),初步建立检测儿童个体生物年龄的数学模型。
[0076] 随机森林机器学习(Random Forests,RF)是一种基于分类器算法的机器学习,由LeoBreiman提出,通过自助法重采样技术,从训练集(data set)n中有放回地重复随机抽取k个样本生成新的训练样本(train set)集合,然后根据自助样本集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定,分类误差取决于每一棵树的分类能力和它们之间的相关性。单棵树的分类能力可能很小,但在随机产生大量的决策树后,一个测试样品可以通过每一棵树的分类结果经统计后选择最可能的分类。它通过对大量分类树的汇总提高了模型的预测精度,由于其不存在过度拟合、预测精度高,该模型被广泛用于挖掘目标变量和众多解释变量间的关联关系。
[0077] (8)优化已建立的检测儿童个体生物年龄的模型(图3)
[0078] 除了建立检测模型和预测,随机森林方法还能用于评价解释变量的重要性,特征选择采用随机的方法去分裂每一个节点,然后比较不同情况下产生的误差。直观的评价标准是该变量越重要,对预报结果的影响也越大。随机森林模型解释变量的重要性评价采用类似标准:将所有检验标本某一解释变量的取值随机打乱,采用原随机森林模型对检验样本再次预报,袋外拟合误差增加越多,该解释变量越重要。袋外拟合误差增加量可用于定量评价解释变量重要性。本专利采用十倍交叉验证(Ten-Fold Cross Validation)评价构建模型所需纳入变量的最小数量。随机重复100次,以均值作为对算法准确性的估计。交叉验证(Cross-Validation,CV)是一种用来验证分类器性能的统计分析方法,主要用于建模评估中得到可靠稳定的模型,即在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,将每次分类误差做为评价分类器性能的指标。而十倍交叉验证将数据集分成十分,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的分类误差,10次结果均值作为对算法精度的估计。
[0079] 将变量按照其对年龄回归重要性排序,将随着变量减少而随机森林回归模型区分年龄能力没有显著改变的变量组合作为最终年龄相关微生物标记物。其中,来源于牙菌斑的标记物包括洛氏普氏菌(Prevotella  loescheii),反硝化金氏菌(Kingella denitrificans),纤毛菌属BU064(Leptotrichia BU064),多形具核梭杆菌亚种(Fusobacterium nucleatum subsp.polymorphum),伯杰菌602D02(Bergeyella602D02),口腔心杆菌(Cardiobacterium valvarum),轻型链球菌/肺炎链球菌/婴儿链球菌/口腔链球菌(Streptococcus mitis/Streptococcus pneumonia/Streptococcus infantis/Streptococcus oralis),黄奈瑟菌/粘液奈瑟菌/咽奈瑟菌(Neisseria flava/Neisseria mucosa/Neisseria pharyngis),纤细弯曲菌(Campylobacter gracilis),金黄奈瑟菌(Neisseria  flavescens),来源于唾液的15个标记物包括卟啉单胞菌CW034(Porphyromonas CW034),格登链球菌(Streptococcus gordonii),非典型韦 荣球菌/殊异韦荣球菌/小韦荣球菌(Veillonella atypical/Veillonella dispar/Veillonella parvula),口腔消化链球菌(Peptostreptococcus stomatis),副血链球菌/口腔链球菌(Streptococcus parasanguinis/Streptococcus oralis),纤毛菌BU064(Leptotrichia BU064),(Porphyromonas catoniae),TM7口腔分类单元352(TM7oral taxon 352),普氏菌口腔分类单元299(Prevotella oral taxon  299),产黑普氏菌(Prevotella melaninogenica),沟真杆菌/弱小真杆菌(Eubacterium sulci/Eubacterium infirmum),伯杰菌602D02(Bergeyella 602D02),金黄奈瑟菌(Neisseria flavescens),脑膜炎奈瑟菌/多糖奈瑟菌(Neisseria meningitides/Neisseria polysaccharea),苛养颗粒链菌(Granulicatella elegans)(图3)。
[0080] 利用随机森林方法,以年龄相关微生物标记物为输入变量,以每个样本对应的实际月龄作为样本信息,将其回归到离散的输出变量(预测的月龄),最终建立优化后的检测儿童个体生物年龄的模型。
[0081] (9)优化后模型的应用及其性能(图4)
[0082] 将优化后模型应用于不同组别中,即将各个样本的年龄相关微生物标记物的组成及其丰度作为输入变量,利用年龄检测模型进行回归分析,得出此时该样本的生物年龄,结果显示:在健康组中,可见通过口腔微生物群落检测所得的生物年龄基本与生活年龄保持一致;在龋病组中,通过口腔微生物群落检测所得的生物年龄显著低于生活年龄(t检验,p<0.05),提示口腔疾病的发生潜在抑制了菌群的成熟度,从而导致口腔菌群年龄的降低,上述结果说明所建立的模型可以较好评定儿童个体的生物年龄,并提示口腔菌群年龄可反应儿童个体口腔健康状态。
[0083] 本发明所述的基于随机森林的回归分析方法可参见Breiman L(2001)Random forests.Mach Learn 45:5–32.)和(Knights D,Costello EK,Knight R.Supervised classification of human microbiota.FEMS Microbiol Rev.2011Mar;35(2):343-59.doi:10.1111/j.1574-6976.2010.00251.x.Epub 2010Oct 7.Review.PubMed PMID:
21039646.。
[0084] 当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实施范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。