一组用于中国汉族人群静脉血栓栓塞症遗传风险预测的生物标志物、试剂盒及其应用转让专利

申请号 : CN202210119735.0

文献号 : CN114317724B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 孟涛张伟王玉刘巍裴景亮邓粉妮徐玉森李文娟

申请人 : 湖南时代基因医学检验技术有限公司

摘要 :

本发明提供了一组用于中国汉族人群静脉血栓栓塞症遗传风险预测的完整基因位点组合并对其进行优化,获得一个最精简的基因位点组合,建立了一种预测能力较高、临床成本较低的中国汉族人群静脉血栓栓塞症遗传风险预测模型,弥补了当前国内临床静脉血栓栓塞症风险评估中缺少多基因集体表征和遗传风险预测模型及方法的不足,具有广阔的应用前景。

权利要求 :

1.一组用于中国汉族人群静脉血栓栓塞症遗传风险预测的生物标志物,其特征在于,所述生物标志物由rs146922325、rs199469469、rs16984852、rs8176719、rs2066865、rs8178847、rs1799762、rs2289252、rs2036914和rs1801133组成。

2.如权利要求1所述的生物标志物,所述生物标志物除包括rs146922325、

rs199469469、rs16984852、rs8176719、rs2066865、rs8178847、rs1799762、rs2289252、rs2036914和rs1801133以外,还包括以下生物标志物中任选的1‑50种:rs2069952、rs2227589、rs169713、rs3136516、rs6795524、rs1799809、rs867186、rs1063856、rs216296、rs10747514、rs1613662、rs9797861、rs2288904、rs1654425、rs3136520、rs1800291、rs12445050、rs13084580、rs7585314、rs2001490、rs174536、rs6083037、rs6003、rs670659、rs4734879、rs6048、rs1558519、rs7051718、rs4869589、rs10087301、rs6088735、rs16867574、rs12675621、rs3002417、rs57328376、rs7739314、rs3211752、rs1048483、rs8176592、rs3822057、rs1867312、rs7508633、rs12450494、rs1523127、rs1884841、rs2074492、rs731839、rs4602861、rs3742264和/或rs34029315。

3.如权利要求1或2所述的生物标志物,其特征在于,生物标志物指受试者生物样本中存在的生物分子,所述生物样本选自受试者的外周血。

4.如权利要求3所述的生物标志物用于制备中国汉族人群静脉血栓栓塞症遗传风险预测的试剂盒的用途,其特征在于,所述试剂盒的使用方法包括,可通过检测受试者生物样本中各生物分子的特征,预测受试者静脉血栓栓塞症遗传风险。

5.一种中国汉族人群静脉血栓栓塞症遗传风险预测试剂盒,所述试剂盒包含用于检测如权利要求1或2所述的生物标志物任意组合中各生物标志物基因型的试剂。

说明书 :

一组用于中国汉族人群静脉血栓栓塞症遗传风险预测的生物

标志物、试剂盒及其应用

技术领域

[0001] 本发明属于生物分子检测技术领域,具体涉及中国汉族人群静脉血栓栓塞症遗传风险预测用的生物标志物和试剂盒。

背景技术

[0002] 静脉血栓栓塞症(venous thromboembolism,VTE)是世界范围内导致人类死亡的第三位血管疾病,也是住院患者非预期死亡的重要原因,是由遗传因素和环境因素共同作用导致的一种多因素疾病,相关研究证实遗传因素在静脉血栓栓塞症发生中占到约60%的作用,静脉血栓栓塞症主要表现为深静脉血栓形成(deep venous thrombosis,DVT)和肺血栓栓塞症(pulmonary thromboembolism,PTE)。
[0003] 相关研究证实,自2007年至2016年期间,中国的VTE、PTE(伴或不伴DVT)和DVT患者的住院率增加了五倍以上。普通外科手术患者DVT发生率为10%~40%;大型手术患者同时具有多种静脉血栓栓塞症危险因素时,致死性PTE发生率高达5%;肿瘤患者静脉血栓栓塞症发病率为4%~20%;ICU病人DVT的发病率在5%~90%之间;近年孕妇产后DVT发病率也明显增加。临床上约80%的DVT患者无明显症状,被称为“沉默的杀手”。
[0004] 从遗传角度而言,静脉血栓栓塞症是介于单基因病和多基因复杂疾病之间的一类疾病,既有单基因表征特性又有多基因集体表征的复杂疾病特性。单基因病受单个基因的控制和影响,单个基因变异对疾病的贡献率高,受到外界非基因的环境因素影响较小,易于通过单个基因检测进行疾病诊断。多基因复杂疾病受到多个基因和环境的共同影响,需要多个基因集体表征进行综合分析,才能进行疾病的科学预测。单基因表征的静脉血栓栓塞症发生频率很低,临床上更为常见的、需要重视的是多基因表征的具有复杂疾病特征的静脉血栓栓塞症。因而静脉血栓栓塞症遗传风险的多基因集体表征方法、表征内容及风险预测分析方法就成为需要解决的关键问题。
[0005] 目前研究已发现众多与静脉血栓栓塞症相关的遗传基因变异位点,在欧美国家已将凝血V因子Leiden(F5)变异和凝血酶原G20210A(F2)变异作为两项预测静脉血栓栓塞症风险的独立危险因素。由于存在种族异质性,其风险权重和独立性差异显著。凝血V因子Leiden(F5)和凝血酶原G20210A(F2)在中国汉族人群的变异频率极低,众多研究已证实这两个位点与中国汉族人群静脉血栓栓塞症的发生无相关性,这两种变异对中国汉族人群静脉血栓栓塞症风险预测的意义并不大。
[0006] 就发生机制而言,静脉血栓栓塞症遗传缺陷大致分为如下几大类,包括:
[0007] (1)凝血抑制因子基因功能丧失。如:蛋白C基因(PROC)、蛋白S基因(PROS1)、血栓调节蛋白基因(THBD)、β2糖蛋白I(APOH)、抗凝血酶Ⅲ(SERPINC1)等基因变异,可导致抗凝血系统功能减弱。
[0008] (2)促凝因子基因功能获得。如:凝血因子Ⅴ基因(F5)Leiden、凝血酶原基因(F2)G20210A及因子XI(F11)等基因的部分变异,可导致血液促凝趋势增强。
[0009] (3)纤溶系统基因功能异常。如:纤维蛋白原(FGG)、纤溶酶原激活物抑制剂‑1(PAI‑1)基因等的变异,可导致纤溶系统功能抑制。
[0010] (4)其他可间接影响凝血的基因变异。如:亚甲基四氢叶酸还原酶基因MTHFR变异,可能导致血管内皮细胞损伤、促进单核细胞与内皮黏附、促凝血酶生成增多。人免疫缺陷病毒I增强子结合蛋白1(HIVEP1)通过增强机体炎症反应与静脉血栓栓塞症相关联。
[0011] 目前还有大量研究证实,非O血型人群较O血型人群患静脉血栓栓塞症的危险性更高。而ABO基因中的一个位点,通常被称为c.261delG,或者不太常见的c.260_262insG,它是决定O型血状态的关键SNP位点。相关研究已表明该基因位点与人群静脉血栓栓塞症的患病风险存在一定的相关性,尽管目前其发生机制不是十分清楚,也有研究认为该基因变异可能引起血管性血友病因子vWF水平升高,导致凝血增强,参与静脉血栓栓塞症的发生发展。
[0012] 随着基因与静脉血栓栓塞症相关性的研究不断深入和相关检测技术的蓬勃发展,国内外已相继研发了多种静脉血栓栓塞症风险预测技术方案及基因检测试剂盒。较具代表性的成果包括:
[0013] Derek Klarin等于2020年5月开发了一种297SNP位点的静脉血栓栓塞症风险预测方法,确定遗传风险评分排在前5%的人群与已建立的F5 Leiden变异和F2 G20210A变异携带者具有同等的静脉血栓栓塞症风险,但其存在以下几方面的局限性:其一,该模型及其技术方案的构成完全是基于欧洲的白种人和非洲的黑种人以及西班牙裔个体的人群数据,未考虑中国汉族人群或亚洲黄种人静脉血栓栓塞症遗传风险相关基因位点信息,对中国汉族人群静脉血栓栓塞症风险的预测能力有限,而种族异质性问题是遗传学界得到广泛证实的客观存在;其二,在构建模型及其技术方案时,研究者将基因位点的选择标准设定为与静脉‑5血栓栓塞症的相关性P<5×10 ,而GWAS(全基因组关联研究)意义上的关联性P值应小于5×
8
10‑ ,因此这些基因位点与静脉血栓栓塞症的相关性未达到GWAS意义上的关联,即关联性不高;其三,该模型及其技术方案可识别遗传风险评分排在前5%的人群与已建立的F5 Leiden变异和F2 G20210A变异携带者具有同等的静脉血栓栓塞症风险,相当于将人群划分为遗传风险评分排在前5%的高风险人群和剩余95%的其他人群两大类,高风险人群仅仅覆盖了检测人群的5%。而相关流调数据显示,我国普通外科手术患者DVT发生率为10%~
40%,肿瘤患者静脉血栓栓塞症发病率为4%~20%,说明静脉血栓栓塞症在临床上的发生率明显高于该技术方案评价的5%的高风险人群;其四,通过该模型及其技术方案仅识别了遗传风险评分排前5%的静脉血栓栓塞症极高风险人群,却忽视了剩余95%人群中存在的静脉血栓栓塞症高风险和可能发生出血风险的人群;其五,从临床实际应用的角度,该模型及其技术方案检测的时间较长且成本较高,297个SNP位点的相关基因检测在临床应用实践中难以实际操作。
[0014] 2016年,Hugoline G.de Haan等学者开发了一种31SNP位点和5SNP位点预测首次静脉血栓形成风险的技术方法,并证实基于31个SNP位点或5个最紧密相关的SNP位点的遗传风险评分预测能力相似(AUC分别为0.70和0.69)。然而该模型及其技术方案的形成同样基于其他种族人群,未纳入中国汉族人群静脉血栓栓塞症遗传风险相关基因位点信息,对中国汉族人群静脉血栓栓塞症风险的预测能力未知;其二,该模型及其技术方案纳入了与欧美人群静脉血栓栓塞症风险显著相关的F5 Leiden变异和F2 G20210A变异,这两个位点与欧美人群静脉血栓栓塞症发生具有高度相关性已得到充分证实,并广泛用于欧美人群静脉血栓栓塞症的风险预测。然而,在以中国汉族人群为研究对象的大量研究中,发现这两个基因位点在中国汉族人群的发生频率极低,甚至为零,另外众多研究结果也并不支持这两个基因变异位点与中国汉族人群静脉血栓栓塞症风险具有相关性。
[0015] 2017年上海交通大学瑞金医院联合天昊生物医学科技(苏州)有限公司开发了一种基于二代测序的易栓症基因变异检测试剂盒。该试剂盒及其技术方案针对易栓症的基因检测进行设计开发,目的是用于生物学研究和分子诊断由上述基因缺陷导致的易栓症,不适用于临床常见静脉血栓栓塞症遗传风险预测;其二、采用二代测序结合多重PCR的方法确定了易栓症检测内容和范围,但其不包含临床常见静脉血栓栓塞症多基因遗传风险预测内容及方法;其三、二代测序存在检测耗时长、成本高、测序结果的分析难度和复杂性高等问题,给临床大范围应用带来诸多不便。综上所述,该试剂盒及其技术方案的临床应用范围仅限于家族遗传性易栓症的分子诊断。
[0016] 其它还存在一些基于单个或两三个基因位点进行静脉血栓栓塞症遗传风险预测的基因检测试剂盒或技术方案。然而,由于静脉血栓栓塞症的发生是多因素共同作用相互影响而导致的,其风险的评估不同于单基因遗传疾病。单基因遗传疾病由一两个基因的变异所导致,通过一两个基因的检测即可对疾病做出相应的诊断。静脉血栓栓塞症的遗传风险受到多个基因变异的影响,且这些基因变异分别影响不同的血栓形成的病理病生机制,需要采用多基因集体表征方法,进行综合分析和评估。同时,现有的静脉血栓栓塞症遗传风险评估技术方案中,有的仅仅是对基因变异数目的简单累加,或者仅仅基于某个基因有无变异来进行静脉血栓栓塞症遗传风险的预测。而不同的基因变异对疾病发生的影响作用权重是不同的,且遵循“主效位点决定”和“微效位点累加”理论。已经建立的F5 Leiden变异和F2 G20210A变异是欧美人种的主效位点,但其在中国汉族人群中的变异频率几乎为零,不适用于中国汉族人群的静脉血栓栓塞症遗传风险评估。对于中国汉族人群来说,单个或两三个基因变异的评估结论只能从局部评估而不能综合评估静脉血栓栓塞症发生的遗传风险,最终限制了这些技术方案对于静脉血栓栓塞症遗传风险预测的准确性和临床应用价值。

发明内容

[0017] 为了克服现有技术中的缺陷,本发明采用多基因集体表征的方法构建了一个用于中国汉族人群静脉血栓栓塞症遗传风险预测的完整基因位点组合并对其进行优化,获得一个最精简的基因位点组合,建立了一种预测能力较高、临床成本较低的中国汉族人群静脉血栓栓塞症遗传风险预测模型,弥补了当前国内临床静脉血栓栓塞症风险评估中缺少多基因集体表征和遗传风险预测模型及方法的不足。为此,本发明具体提供如下的技术方案:
[0018] 本发明的第一个方面,提供了一组用于中国汉族人群静脉血栓栓塞症遗传风险预测的生物标志物组合,所述生物标志物包括rs146922325、rs199469469、rs16984852、rs8176719、rs8178847、rs2066865、rs1799762、rs2289252、rs2036914、rs1801133、rs2069952、rs2227589、rs169713、rs3136516、rs6795524、rs1799809、rs867186、rs1063856、rs216296、rs10747514、rs1613662、rs9797861、rs2288904、rs1654425、rs3136520、rs1800291、rs12445050、rs13084580、rs7585314、rs2001490、rs174536、rs6083037、rs6003、rs670659、rs4734879、rs6048、rs1558519、rs7051718、rs4869589、rs10087301、rs6088735、rs16867574、rs12675621、rs3002417、rs57328376、rs7739314、rs3211752、rs1048483、rs8176592、rs3822057、rs1867312、rs7508633、rs12450494、rs1523127、rs1884841、rs2074492、rs731839、rs4602861、rs3742264和rs34029315。
[0019] 在一种实施方式中,所述生物标志物的组合由rs146922325、rs199469469、rs16984852、rs8176719、rs2066865、rs8178847、rs1799762、rs2289252、rs2036914和rs1801133组成。
[0020] 在另一种实施方式中,所述生物标志物的组合除包括rs146922325、rs199469469、rs16984852、rs8176719、rs2066865、rs8178847、rs1799762、rs2289252、rs2036914和rs1801133以外,还包括其他1‑50种生物标志物,所述生物标志物可选自rs2069952、rs2227589、rs169713、rs3136516、rs6795524、rs1799809、rs867186、rs1063856、rs216296、rs10747514、rs1613662、rs9797861、rs2288904、rs1654425、rs3136520、rs1800291、rs12445050、rs13084580、rs7585314、rs2001490、rs174536、rs6083037、rs6003、rs670659、rs4734879、rs6048、rs1558519、rs7051718、rs4869589、rs10087301、rs6088735、rs16867574、rs12675621、rs3002417、rs57328376、rs7739314、rs3211752、rs1048483、rs8176592、rs3822057、rs1867312、rs7508633、rs12450494、rs1523127、rs1884841、rs2074492、rs731839、rs4602861、rs3742264和rs34029315。
[0021] 在一种实施方案中,本发明生物标志物指受试者生物样本中存在的生物分子,生物样本选自受试者的外周血。
[0022] 本发明的第二个方面,提供将所述的生物标志物用于制备中国汉族人群静脉血栓栓塞症遗传风险预测的试剂盒的用途,所述试剂盒的使用方法包括,可通过检测受试者血液中各生物分子的特征,预测受试者静脉血栓栓塞症遗传风险。
[0023] 本发明的第三个方面,提供一种中国汉族人群静脉血栓栓塞症遗传风险预测试剂盒,所述试剂盒包含用于定性检测生物标志物特征的试剂,所述生物标志物包括rs146922325(PROC)、rs199469469(PROC)、rs16984852(THBD)、rs8176719(ABO)、rs2066865(FGG)、rs8178847(APOH)、rs1799762(PAI‑1)、rs2289252(F11)、rs2036914(F11)、rs1801133(MTHFR)。
[0024] 本发明相对于现有技术获得了如下显著的技术效果:
[0025] 本发明提供了一组可用于中国汉族人群静脉血栓栓塞症遗传风险预测的60个生物标志物,并在此基础上提供了一组精简的可用于中国汉族人群静脉血栓栓塞症遗传风险预测的10个生物标志物,且证明10个精简的生物标志物与60个完整的生物标志物对于中国汉族人群静脉血栓栓塞症遗传风险预测能力无显著性差异,在保证检测精确度和准确度的同时,极大的节约了生产成本和检测成本,适用于临床推广。

附图说明

[0026] 附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0027] 图1为按照OR值顺序逐个添加SNP位点后的遗传评分模型ROC曲线下面积(AUC);
[0028] 图2为60‑SNP位点遗传评分模型ROC曲线图;
[0029] 图3为10‑SNP位点遗传评分模型ROC曲线图。

具体实施方式

[0030] 以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0031] 实施例1建立中国汉族人群静脉血栓栓塞症遗传风险集体表征方法
[0032] 根据全球通用的基于种族差异进行疾病相关SNP筛选的方法,参考《复杂疾病遗传分析》中的疾病SNP筛选标准,建立中国汉族人群静脉血栓栓塞症遗传风险集体表征方法:
[0033] (1)中国汉族人群静脉血栓栓塞症遗传风险集体表征的基因位点首先满足以下三个条件:
[0034] a.入选的基因及相关位点与疾病的关联性有统计学意义;
[0035] b.入选的基因及相关位点是独立的疾病关联因素;
[0036] c.入选的基因及相关位点的频率分布要符合Harding‑Wenger平衡;
[0037] (2)根据循证医学对集体表征基因位点进行分级,选择高等级的基因位点:
[0038] a:入选的基因及相关位点具有诊断意义;汉民族大样本(病例和对照组各1000例以上)分析得到阳性结果的基因位点;
[0039] b:入选的基因及相关位点包括汉民族数据在内的元分析结果高度一致的阳性基因位点;
[0040] c:入选的基因及相关位点与多民族验证结果高度一致并有汉民族人群结果阳性的基因位点;
[0041] d:入选的基因及相关位点在其他民族全基因组关联研究得到阳性结果,多民族验证结果不一致,但有汉民族大样本研究(病例和对照组各500例以上)阳性数据,并出自高质量文章的基因位点;
[0042] (3)结合中国汉族人群等位基因频率、基因功能和权威静脉血栓栓塞症遗传基因研究文献进行基因位点筛选。
[0043] a:入选的基因及相关位点功能较为清楚,中国汉族人群中变异位点频率大于0.1%;
[0044] b:入选的基因及相关位点有权威静脉血栓栓塞症遗传基因研究文献支持;
[0045] (4)通过降维优化构建的精简多基因位点组合,应满足与完整基因位点组合的静脉血栓栓塞症遗传风险预测能力无显著差异。
[0046] 实施例2中国汉族人群静脉血栓栓塞症遗传风险集体表征相关基因位点的筛选[0047] (1)中国汉族人群静脉血栓栓塞症遗传风险集体表征的60个SNP位点构建[0048] 基于全球静脉血栓栓塞症相关基因的研究成果,我们初步筛选了154个SNP位点。其中,我们综合国内外基于中国汉族人群的研究成果,按照本发明建立的“中国汉族人群静脉血栓栓塞症风险集体表征方法”筛选出8个SNP位点,这8个SNP位点在以中国汉族人群为研究对象的研究中被反复证实与静脉血栓栓塞症相关;从Hugoline G.de Haan等学者完成的静脉血栓栓塞症遗传研究中筛选了40个SNP位点,这些位点已被报道并在多个大型队列研究中反复证实与静脉血栓栓塞症有关;从Derek Klarin等学者完成的静脉血栓栓塞症‑8
GWAS研究中选取了33个SNP位点(P<5×10 );从Sara Lindstrom等学者完成的静脉血栓栓塞症遗传研究中选取了37个SNP位点;从Kolin,David A的一项基于英国生物样本库的临床和遗传因素预测首发静脉血栓栓塞症研究中选取了36个SNP位点。初步构成了中国汉族人群静脉血栓栓塞症多基因集体表征的154个SNP位点。
[0049] 从初步筛选的154个SNP位点中,我们剔除了32个重复SNP位点和15个可以用其他SNP位点解释的SNP位点;通过美国国家生物信息中心dbSNP数据库(https://www.ncbi.nlm.nih.gov/snp/)研究了这些基因位点的变异频率,剔除了在东亚人群或亚洲人群变异频率<0.001的30个SNP位点;剔除了与静脉血栓栓塞症相关SNP位点OR值≤1的17个SNP位点(包含静脉血栓栓塞症风险的弱相关位点)。最终筛选出60个SNP位点,用于多基因集体表征中国汉族人群静脉血栓栓塞症遗传风险预测与分析。这些位点中有8个SNP位点已被反复证实与中国汉族人群静脉血栓栓塞症发生风险增加相关,其余52个SNP位点,已在其他种族研究中证实与静脉血栓栓塞症发生风险增加相关,目前未证实与中国汉族人群静脉血栓栓塞症风险增加相关,但不排除随着研究的深入在中国汉族人群中进一步得到证实其相关性,因此我们保留了这些SNP位点。详见表1:
[0050] 表1:用于中国汉族人群静脉血栓栓塞症遗传风险预测与分析的60个SNP位点[0051]
[0052]
[0053] 实施例3静脉血栓栓塞症遗传风险集体表征相关基因的病理病生机制分类[0054] 研究中,我们将用于中国汉族人群静脉血栓栓塞症遗传风险多基因集体表征的60个SNP位点,按照基因功能和静脉血栓栓塞症发生的病理病生机制之间的关系进行对应分析,将相关基因分别对应到静脉血栓栓塞症的抗凝、凝血、纤溶、代谢、血小板、炎症与其它等6个机制类别中,具体如表2所示。
[0055] 表2:静脉血栓栓塞症遗传风险集体表征相关基因的病理病生机制分类[0056]
[0057]
[0058] 实施例4中国汉族人群静脉血栓栓塞症完整SNP位点组合遗传风险预测模型的构建
[0059] (1)中国汉族人群静脉血栓栓塞症完整SNP位点组合遗传风险预测模型[0060] 我们采用多基因遗传风险评分(PRS)方法进行中国汉族人群静脉血栓栓塞症完整SNP位点组合遗传风险预测模型构建,多基因遗传风险评分(PRS)公式及其相关参数如下:
[0061]
[0062] i表示SNP位点的数量,i=1,2,...,m;
[0063] βi表示SNP位点的效应值(即比值比[OR]的Ln);
[0064] Gi,j表示SNP位点的基因型,分别用{0,1,2}表示;
[0065] 在该多基因遗传风险评分中,用i来表示遗传风险预测模型中第i个SNP(i=1,2,3,......60),用βi表示第i个SNP位点的效应值或权重,该值为用于中国汉族人群静脉血栓栓塞症遗传风险预测与分析完整的60个SNP位点(表一)中第i个SNP位点OR值的对数,用Gi,j表示第i个SNP位点基因型,即携带风险等位基因的数量,携带0个记0(野生型)、携带1个记1(杂合突变型)、携带两个记2(纯合突变型),基因型的界定参考表一中的风险等位基因,最后用60个SNP位点中各个SNP位点的βi与Gi,j乘积的和来生成PRS值,PRS计算过程为PRS=β
1G1+β2G2+β3G3+....+β60G60=ln(OR1)G1+ln(OR2)G2+ln(OR3)G3+....+ln(OR60)G60。
[0066] 例:受检者第一个基因位点为纯和突变,第二个为杂合突变,第三个为野生型,第60个为纯和突变,可计算其PRS=ln(OR1)G1+ln(OR2)G2+ln(OR3)G3+....+ln(OR60)G60=ln(6.91)*2+ln(2.9)*1+ln(2.8)*0+.......+ln(1.01)*2。
[0067] (2)中国汉族人群静脉血栓栓塞症完整SNP位点组合遗传风险预测模型预测能力分析
[0068] 我们采用了2000例的研究人群,其中包含1000例静脉血栓栓塞症病例和1000例健康对照,严格按照所选完整60个SNP位点对应公开文献所记录的各种基因型在病例组和对照组中的分布频率,进行每个基因位点的各种基因型在病例组和对照组中的分配,并使用office excel random函数进行各种基因型在病例组和对照组中的随机,使用上述多基因遗传风险评分(PRS)方法计算病例组和对照组每个个体的PRS值。
[0069] 在分析该模型预测静脉血栓栓塞症的能力时,我们采用受试者工作特征曲线(ROC曲线)下面积AUC,也叫C统计量(C‑statistics)来进行模型预测能力分析。一般AUC<0.6说明模型的预测能力较弱,0.6‑0.75说明模型有一定的预测能力,>0.75说明模型预测能力较好。我们使用IBM SPSS 22.0(https://www.ibm.com/support/pages/spss‑statistics‑220‑Available
[0070] ‑download)进行该模型ROC曲线下面积AUC的计算,在AUC计算时我们将PRS值作为计算过程的自变量,将是否患病作为因变量。计算结果如表3和图2所示:
[0071] 表3 60‑SNP位点遗传评分模型AUC
[0072]
[0073] 表3,显示该60‑SNP位点遗传评分模型对于静脉血栓栓塞症预测能力的AUC为0.765(95%CI,0.745‑0.786),截断值为6.94时,特异性75.6%,敏感性62.7%。因静脉血栓栓塞栓塞症的发生受到遗传因素和非遗传因素的共同作用,疾病的遗传度(遗传因素对疾病的贡献,用百分比表示)决定了可获得的最大AUC,遗传因素在静脉血栓栓塞症的发生中约占60%的作用,同时结合AUC判断分类器(预测模型)优劣的标准,一般AUC<0.6说明模型的预测能力较弱,0.6‑0.75说明模型有一定的预测能力,>0.75说明模型预测能力较好,因此可以认为该模型具有较好的静脉血栓栓塞症遗传风险预测能力。同时该模型是用于静脉血栓栓塞症遗传风险的预测,而不是用于静脉血栓栓塞症的疾病诊断,实际预测静脉血栓栓塞症的发生风险时还需要结合临床非遗传因素进行综合评价。
[0074] (3)中国汉族人群静脉血栓栓塞症完整SNP位点组合遗传风险预测模型阈值确定与风险分层
[0075] 使用多基因遗传风险评分(PRS)方法,我们计算了60个SNP位点组合下病例组和对照组每个个体的PRS值。经过计算,这2000例研究人群的PRS值在4.09到11.83之间。我们依据PRS值在人群中的分布情况,采用五分法将人群划分为静脉血栓栓塞症极高风险、高风险、平均风险、低风险和极低风险五个层级,其中平均风险组为PRS评分处于整个研究人群的中间值,即PRS由低到高排序后处于25%‑75%区间的人群(1000人),将平均风险人群作为参考人群,计算人群占比5%的PRS值在8.67‑11.83之间为极高风险阈值;计算人群占比20%的PRS值在7.49‑8.67之间为高风险阈值;计算人群占比20%的PRS值在5.20‑6.06之间为低风险阈值;计算人群占比5%的PRS值在4.09‑5.20之间为极低风险阈值。同时我们计算了高风险、极高风险、低风险和极低风险人群与参考人群比较的OR值,处于极低风险的5%人群发生静脉血栓栓塞症的遗传风险会下降约90%(OR:0.116;95%CI:0.06‑0.227),处于极高风险的5%人群发生静脉血栓栓塞症的遗传风险比平均风险人群高19倍多(OR:
19.697;95%CI:7.946‑48.825)。结果如表4所示:
[0076] 表4:中国汉族人群静脉血栓栓塞症完整60‑SNP位点组合遗传风险预测模型阈值与风险分层
[0077]
[0078]
[0079] 实施例5中国汉族人群静脉血栓栓塞症精简SNP位点组合遗传风险预测模型的构建
[0080] (1)中国汉族人群静脉血栓栓塞症精简SNP位点组合构建
[0081] 为了使本发明成果可应用于临床实践,需要构建更为精简的、成本低廉的、预测能力较好的位点组合与技术方案,我们从完整60‑SNP位点中OR值最高的SNP位点(PROC,rs146922325)开始,逐个添加SNP位点到完整遗传风险预测模型中,并计算每个SNP位点添加后的AUC。随着SNP位点的加入,模型的AUC迅速提高,直到第10个SNP位点被纳入模型,如图1所示,这10个SNP位点分别是rs146922325(PROC)、rs199469469(PROC)、rs16984852(THBD)、rs8176719(ABO)、rs2066865(FGG)、rs8178847(APOH)、rs1799762(PAI‑1)、rs2289252(F11)、rs2036914(F11)、rs1801133(MTHFR)。
[0082] (2)中国汉族人群静脉血栓栓塞症精简SNP位点组合遗传风险预测模型及预测能力分析
[0083] 我们采用相同的方法,计算了精简SNP位点组合遗传风险预测模型的预测能力,并通过两种独立ROC曲线下面积差异统计学方法,比较了精简SNP位点模型和完整60‑SNP位点模型的AUC,结果显示,当按照OR值逐个添加到第10个SNP位点时,其遗传风险预测模型的预测能力AUC与完整60‑SNP位点遗传风险预测模型的预测能力AUC无统计学差异,P>0.05。说明基于10‑SNP位点的遗传风险预测模型以及10到60SNP位点之间的任意位点组合的遗传风险预测模型,在静脉血栓栓塞症遗传风险预测方面的能力相似。
[0084] 针对精简10‑SNP位点组合遗传风险预测模型,我们通过逻辑回归计算了基于10‑SNP的PRS实际评估静脉血栓栓塞症的能力,选择前面所述的1000例VTE和1000例健康人群为研究对象,将基于10‑SNP的PRS值,纳入Logist回归方法分析,分析方法选择进入,计算受试者发生VTE的预测概率。Logist回归分析模型系数的综合检验P<0.05。表5分析结果列出了10‑SNP的PRS(PRS10)及其参数。
[0085] 表5 10‑SNP的PRS(PRS10)及参数
[0086]
[0087] 根据上述回归结果可以写出每个受试者VTE发生风险的危险得分Logit(P):
[0088] Logit(P)=‑2.705+1.144*PRS计算得到每一个受试者发生VTE的预测概率:
[0089]
[0090] 根据受试者的真实患病情况和预测概率,评估根据上述基于10‑SNP的PRS预测个体是否发生VTE的准确性。同样的,我们使用IBM SPSS 22.0(https://www.ibm.com/support/pages/spss‑statistics‑220‑available‑download)进行该模型ROC曲线下面积AUC的计算,在AUC计算时我们将PRS值作为计算过程的自变量,将是否患病作为因变量。计算结果如表6和图3所示:
[0091] 表6 10‑SNP位点遗传评分模型AUC
[0092]
[0093] 表6中的ROC曲线分析表明基于10‑SNP的PRS的ROC曲线下面积是0.744(95%CI,0.723‑0.766),截断值为2.7时,其特异性81.4%,敏感性52.4%。
[0094] (3)中国汉族人群静脉血栓栓塞症精简10‑SNP位点组合遗传风险预测模型阈值确定与风险分层
[0095] 使用多基因遗传风险评分(PRS)方法,我们计算了精简10‑SNP位点组合下病例组和对照组每个个体的PRS值,经过计算,这2000例研究人群的PRS值在0.26到7.45之间。采用相同方法,确定了精简10‑SNP位点组合遗传风险预测模型阈值与风险分层,结果如表7所示:
[0096] 表7:中国汉族人群静脉血栓栓塞症精简10‑SNP位点组合遗传风险预测模型阈值与风险分层
[0097]
[0098] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。