单核苷酸多态性rs73058713在检测麻风病易感基因中的应用转让专利

申请号 : CN201410531170.2

文献号 : CN104293949B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张福仁

申请人 : 山东省皮肤病性病防治研究所

摘要 :

本发明公开了单核苷酸多态性rs73058713在检测麻风病易感基因中的应用。本发明所保护的一个技术方案是检测人基因组中rs73058713的多态性(即等位基因)或基因型的物质在制备检测与麻风病相关的单核苷酸多态性的产品中的应用。可将检测rs73058713的多态性(即等位基因)或基因型的物质与其它物质(如检测其它的与麻风病相关的单核苷酸多态性(即等位基因)或基因型的物质)联合在一起制备筛查麻风病患者的产品。

权利要求 :

1.检测人基因组中rs73058713的多态性或基因型的物质在制备筛查麻风病患者产品中的应用;所述检测人基因组中rs73058713的多态性或基因型的物质为扩增包括rs73058713在内的基因组DNA片段的PCR引物和单碱基延伸引物,所述PCR引物为SEQ ID No.3和SEQ ID No.4所示的引物,所述单碱基延伸引物为SEQ ID No.10所示的引物;所述rs73058713基因型是AA、AC或CC;所述AA是rs73058713位点为A的纯合型,所述CC是rs73058713位点为C的纯合型,所述AC是rs73058713位点为A和C的杂合型;所述AA和所述AC基因型的个体在麻风病患者群体中的比例分别高于对应的基因型在正常人群体中的比例。

2.检测人基因组中rs73058713的多态性或基因型的物质在制备检测麻风病易感性产品中的应用;所述检测人基因组中rs73058713的多态性或基因型的物质为扩增包括rs73058713在内的基因组DNA片段的PCR引物和单碱基延伸引物,所述PCR引物为SEQ ID No.3和SEQ ID No.4所示的引物,所述单碱基延伸引物为SEQ ID No.10所示的引物;所述rs73058713基因型是AA、AC或CC;所述AA是rs73058713位点为A的纯合型,所述CC是rs73058713位点为C的纯合型,所述AC是rs73058713位点为A和C的杂合型;所述AA和所述AC基因型的个体在麻风病患者群体中的比例分别高于对应的基因型在正常人群体中的比例。

3.检测人基因组中rs73058713的多态性或基因型的物质在制备检测与麻风病相关的单核苷酸多态性的产品中的应用;所述检测人基因组中rs73058713的多态性或基因型的物质为扩增包括rs73058713在内的基因组DNA片段的PCR引物和单碱基延伸引物,所述PCR引物为SEQ ID No.3和SEQ ID No.4所示的引物,所述单碱基延伸引物为SEQ ID No.10所示的引物;所述rs73058713基因型是AA、AC或CC;所述AA是rs73058713位点为A的纯合型,所述CC是rs73058713位点为C的纯合型,所述AC是rs73058713位点为A和C的杂合型;所述AA和所述AC基因型的个体在麻风病患者群体中的比例分别高于对应的基因型在正常人群体中的比例。

4.检测人基因组中rs73058713的多态性或基因型的物质在制备鉴定或辅助鉴定与麻风病相关的单核苷酸多态性的产品中的应用;所述检测人基因组中rs73058713的多态性或基因型的物质为扩增包括rs73058713在内的基因组DNA片段的PCR引物和单碱基延伸引物,所述PCR引物为SEQ ID No.3和SEQ ID No.4所示的引物,所述单碱基延伸引物为SEQ ID No.10所示的引物;所述rs73058713基因型是AA、AC或CC;所述AA是rs73058713位点为A的纯合型,所述CC是rs73058713位点为C的纯合型,所述AC是rs73058713位点为A和C的杂合型;所述AA和所述AC基因型的个体在麻风病患者群体中的比例分别高于对应的基因型在正常人群体中的比例。

说明书 :

单核苷酸多态性rs73058713在检测麻风病易感基因中的

应用

技术领域

[0001] 本发明涉及生物技术领域中单核苷酸多态性rs73058713在检测麻风病易感基因中的应用。

背景技术

[0002] 单核苷酸多态性(single nucleotide polymorphism,SNP)指基因组单个核苷酸的变异,它是最微小的变异单元,是由单个核苷酸对置换、颠换、插入或缺失所形成的变异形式。单核苷酸多态性是基因组上高密度的遗传标志,在人类基因组中已发现的SNP数量超过3000万。作为第三代遗传标记SNP数量众多、分布密集,易于检测,因而是理想的基因分型目标。SNP分型检测在疾病基因组(如疾病易感性),药物基因组(药效、药物代谢差异和不良反应)和群体进化等研究中具有重大意义。
[0003] 目前已有多种方法可用于SNP检测,如DNA测序、限制性酶切片段长度多态性、单链构象多态性、变性高效液相色谱、SNP芯片。其中,SNP芯片包括基于核酸杂交反应的芯片、基于单碱基延伸反应的芯片、基于等位基因特异性引物延伸反应的芯片、基于“一步法”反应的芯片、基于引物连接反应的芯片、基于限制性内切酶反应的芯片、基于蛋白DNA结合反应的芯片,及基于荧光分子DNA结合反应的芯片(张小燕等。用基因芯片检测单核苷酸多态性反应原理。中国生物工程杂志。2005,25(11):52~56)。
[0004] 麻风病是一种由麻风分枝杆菌感染所致的慢性传染病,在发展中国家这仍然是一个严重的健康问题,每年全球新发病例数为250000。主要侵犯皮肤和外周神经,并导致不可逆性的神经功能损害和慢性致畸致残。这已被证明在麻风的流行中环境因素和宿主遗传因素起着至关重要的作用,估计遗传因素高达57%。
[0005] 世界卫生组织的方案把麻风病的临床表现分为结核型和瘤型,分别对应了Th1(细胞介导)和Th2(体液介导)组织的人体的免疫应答。麻风病多样性的临床表现反映出人体对同种病原体的两种截然不同的免疫应答,这就说明遗传易感性在麻风发病中的重要性。遗传研究的结果表明遗传与麻风易感性和其临床亚型的病情进展都有关联。

发明内容

[0006] 本发明的目的是提供单核苷酸多态性rs73058713在检测与筛查麻风病中的应用。
[0007] 本发明首先提供了下述A1)-A7)中的任一用途:
[0008] A1)检测人基因组中rs73058713的多态性(即等位基因)或基因型的物质在制备筛查麻风病患者产品中的应用。
[0009] A2)检测人基因组中rs73058713的多态性(即等位基因)或基因型的物质在制备检测麻风病易感性产品中的应用。
[0010] A3)检测人基因组中rs73058713的多态性(即等位基因)或基因型的物质在制备检测与麻风病相关的单核苷酸多态性的产品中的应用。
[0011] A4)检测人基因组中rs73058713的多态性(即等位基因)或基因型多态性(即等位基因)或基因型的物质在制备鉴定或辅助鉴定与麻风病相关的单核苷酸多态性的产品中的应用。
[0012] A5)人基因组中rs73058713的多态性(即等位基因)或基因型多态性(即等位基因)或基因型在制备筛查麻风病患者产品中的应用。
[0013] A6)人基因组中rs73058713的多态性(即等位基因)或基因型在制备检测麻风病易感性产品中的应用。
[0014] A7)含有检测人基因组中rs73058713的多态性(即等位基因)或基因型的物质的产品,为a)-d)中的任一种产品:
[0015] a)检测与麻风病相关的单核苷酸多态性(即等位基因)或基因型的产品;
[0016] b)鉴定或辅助鉴定与麻风病相关的单核苷酸多态性(即等位基因)或基因型的产品;
[0017] c)筛查麻风病患者产品;
[0018] d)检测麻风病易感性产品。
[0019] 上述用途中,所述检测人基因组中rs73058713的多态性(即等位基因)或基因型的物质可为扩增包括rs73058713在内的基因组DNA片段的PCR引物和单碱基延伸引物。
[0020] 在本发明的实施例中,所述麻风病具体为中国汉族人群及少数民族麻风病。
[0021] rs73058713是人染色体5q14.3上的一个二等位多态性的SNP位点,该变异是颠换(A/C,在其互补链上则为T/G)。所述rs73058713基因型是AA、AC或CC。所述AA是rs73058713位点为A的纯合型,所述CC是rs73058713位点为C的纯合型,所述AC是rs73058713位点为A和C的杂合型。所述检测人基因组中rs73058713的多态性(即等位基因)或基因型具体可为检测rs73058713的核苷酸种类。
[0022] 上述用途中,所述AA和所述AC基因型的个体在麻风病患者群体中的比例分别高于对应的基因型在正常人群体中的比例。
[0023] 实验证明,在由8313个麻风病患者组成的病例群体和由11655个正常健康者组成的对照群体及由4362个其他几种免疫相关疾病患者组成的对照群体中,rs73058713的P值-9是9.54×10 ,且rs73058713的相对危险度是1.19,说明rs73058713是与麻风病相关的单核苷酸多态性。rs73058713的风险等位基因为A,该等位基因在麻风病患者群体中的比例比该等位基因在正常人群体中的比例高11.05%。rs73058713的三个基因型中,AA基因型的个体和AC基因型的个体在麻风病患者群体中的比例分别高于对应的基因型在正常人群体中的比例,CC基因型的个体在麻风病患者群体中的比例低于其在正常人群体中的比例。
在实际应用中,可将检测rs73058713的多态性(即等位基因)或基因型的物质与其它物质(如检测其它的与麻风病相关的单核苷酸多态性(即等位基因)或基因型的物质)联合在一起制备筛查麻风病患者的产品。
[0024] 其中,检测人基因组中rs73058713的多态性(即等位基因)或基因型的物质可为通过下述至少一种方法确定rs73058713的多态性(即等位基因)或基因型所需的试剂和/或仪器:DNA测序、限制性酶切片段长度多态性、单链构象多态性、变性高效液相色谱和SNP芯片。其中,SNP芯片包括基于核酸杂交反应的芯片、基于单碱基延伸反应的芯片、基于等位基因特异性引物延伸反应的芯片、基于“一步法”反应的芯片、基于引物连接反应的芯片、基于限制性内切酶反应的芯片、基于蛋白DNA结合反应的芯片,及基于荧光分子DNA结合反应的芯片。
[0025] 所述产品可为试剂或试剂盒,还可为试剂或试剂盒和仪器的组合产品,如由引物和DNA测序仪组成的组合产品,由PCR试剂和DNA测序试剂和DNA测序仪组成的组合产品。
[0026] 本发明的一个实施例中,采用PCR引物扩增包括rs73058713在内的基因组DNA片段,以得到的PCR扩增产物为模板,采用单碱基延伸引物进行单碱基延伸反应,对得到的延伸产物的序列进行检测,确定rs73058713的多态性和基因型。所述PCR引物在序列上没有特殊要求,只要能扩增出包括rs73058713在内的基因组DNA片段即可,具体可为序列表中SEQ ID No.3和SEQ ID No.4所示的单链DNA。所述延伸引物根据人基因组中rs73058713上游(不包括该SNP位点)设计,所述延伸引物的最后1位核苷酸对应于人基因组中rs73058713的前1位核苷酸,如所述延伸引物具体可为序列表中的SEQ ID No.10所示的单链DNA,当然也可将序列表中SEQ ID No.10所示的单链DNA按照人基因组中rs73058713的下游序列延长一个以上核苷酸,或按照人基因组中rs73058713的下游序列缺失一个以上核苷酸,只要能使该单碱基延伸引物的3′末端延伸出rs73058713位点的核苷酸即可。
[0027] 本发明在一个来自中国人群的样本(8313个麻风病患者和16017个健康者)中发现rs73058713是与麻风病相关的单核苷酸多态性。可将检测rs73058713的多态性(即等位基因)或基因型的物质与其它物质(如检测其它的与麻风病相关的单核苷酸多态性(即等位基因)或基因型的物质)联合在一起制备筛查麻风病患者的产品。

附图说明

[0028] 图1为未排除以往发现位点处及MHC区域的SNP的P值与在排除了以往发现位点处及MHC区域的SNP后的SNP的P值。其中,左图为未排除以往发现位点处及MHC区域的SNP的P值,右图为在排除了以往发现位点处及MHC区域的SNP后的SNP的P值。
[0029] 图2为样本的取样区域。

具体实施方式

[0030] 下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。
[0031] 下述实施例中的实验方法,如无特殊说明,均为常规方法。
[0032] 下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
[0033] 实施例1、rs2221593、rs73058713、rs10817758和rs77061563是与麻风病相关的单核苷酸多态性
[0034] 伦理声明
[0035] 本研究通过了山东省医学科学院、山东省皮肤病与性病防治研究所的伦理委员会(IRB)批准,所有麻风病患者、其他几种免疫相关疾病(牛皮癣(psoriasis)、白癫风(vitilogo)、过敏性皮肤炎(atopic dermatitis)和红斑狼疮(SLE))患者及正常健康对照者均签署了知情同意书。
[0036] 研究对象
[0037] 在发现阶段(第一阶段),进行了两个独立的研究。第一个独立研究的研究对象为样本1和作为种群对照的4362例中国北方汉族的其他几种免疫相关疾病(牛皮癣(psoriasis)、白癫风(vitilogo)、过敏性皮肤炎(atopic dermatitis)和红斑狼疮(SLE))病例,该样本1包含706例北方汉族麻风病例和1225例北方汉族正常健康对照,他们全部为中国北方汉族血统。第二个独立研究的研究对象为样本2,该样本2包含2006-2011年间在中国招募的955例(质控筛选之后样本总量为842例)麻风病例和1040例(质控筛选之后样本总量为925例)正常健康对照,包括中国北方汉族的436例(质控筛选之后为376例)麻风病例和533例(质控筛选之后为511例)正常健康对照,中国南方汉族的289例(质控筛选之后为265例)麻风病例和305例(质控筛选之后为263例)正常健康对照,中国南方壮族和其他少数民族的230例(质控筛选之后为201例)麻风病例和202例(质控筛选之后为151例)正常健康对照,见表1与图2。
[0038] 验证阶段应用了两个独立的样本,样本3和样本4。验证阶段1(第二阶段)的样本为样本3,该样本3包括北方汉族的2761例麻风病例和3038例正常健康对照,见表1与图2。验证阶段2(第三阶段)的样本为样本4,该样本4包括4004例麻风病例和6467例正常健康对照,包括北方汉族的277例麻风病例和2626例正常健康对照,西南汉族的1494例麻风病例和1474例正常健康对照,东南汉族的418例麻风病例和306例正常健康对照,西部汉族的418例麻风病例和395例正常健康对照,以及南方少数民族的1397例麻风病例和1666例正常健康对照。验证阶段总计6765例麻风病例(样本3中麻风病例数与样本4中麻风病例数之和)和9505例正常健康对照(样本3中病例数与样本4中正常健康对照数之和),见表1与图2。
[0039] 其中,中国麻风病患者的诊断标准是符合下述4条中的2条或2条以上,或符合第3条者确立诊断:1、皮损伴有感觉障碍及闭汗,或有麻木区;2、周围神经受累,表现为神经干粗大伴相应功能障碍;3、皮损组织切片或组织液涂片查到麻风杆菌;4、病理可见特征性改变。
[0040] 正常健康对照者的诊断标准:无麻风病史且无麻风的家族史(包括麻风患者的一级、二级和三级亲属);无其他传染病病史;无其他自身免疫性疾病病史、系统性疾病病史及家族史。
[0041]
[0042] 在中国麻风病患者中进行了如下三阶段的GWAS研究及关联性的联合分析:
[0043] 一、发现阶段的关联分析
[0044] 1、SNP与麻风病的关联分析
[0045] SNP的选择
[0046] 样本1是以前公布的麻风GWAS数据库,包括706例中国北方汉族麻风病例和1225例中国北方汉族正常健康对照;样本2是一个新的未公布的数据库包括955例麻风病例(质控筛选之后样本总量为842例)和1040例(质控筛选之后样本总量为925例)(中国北方汉族和中国南方的汉族和少数民族)中国正常健康对照(见表1)。另外还分析了作为种群对照的4362例中国北方汉族的其他几种免疫相关疾病(牛皮癣(psoriasis)、白癫风(vitilogo)、过敏性皮肤炎(atopic dermatitis)和红斑狼疮(SLE)病例。主成分分析(PCA)证实了所有样品均为中国血统。经过质控筛选(质控方法按照下述文献中的方法进行:Anderson,C.A.et al.Data quality control in genetic-case control association studies.Nat.Protoc.5,1564–1573(2010)),第一个独立研究中评估的最终样本数为706例麻风病例、1225例中国北方汉族正常健康对照、和作为种群对照的4362例中国北方汉族的其他几种免疫相关疾病病例,而在第二个独立研究中进行质控筛选之后样本总量为842例麻风病例和925例正常健康对照。log-additive检测(其中包含5个显著的主成分)用于评估SNP与麻风病的关联性,两个独立的数据集应用meta分析方法在1548例麻风病例(样本1中病例数与样本2中质控筛选后麻风病例数之和)和6512例对照(1225例中国北方汉族正常健康对照、和作为种群对照的4362例中国北方汉族的其他几种免疫相关疾病病例和925例正常健康对照)中研究了4577171个常见SNP(最小等位基因频率>5%;467552个基因分型,4109619个估算)。
[0047] 质量控制标准:
[0048] 第一个独立研究的SNP和标本质量控制标准:SNPs位于性染色体,call-rate<90%,麻风病病例和对照的最小等位基因频率(MAF)<1%且对照中显著偏离-8Hardy-Weinberg平衡(HWE)(P<1×10 )或未确定群集的SNPs被全部剔除。最后剔除不与第二个独立研究相同的SNPs,共467552个SNPs进行全基因组关联分析。
[0049] 第二个独立研究的SNP和标本质量控制标准:SNPs位于性染色体,call-rate<90%,麻风病病例和对照的最小等位基因频率(MAF)<1%且对照中显著偏离-8Hardy-Weinberg平衡(HWE)(P<1×10 )或未确定群集的SNPs被全部剔除。最后,剔除不与第一个独立研究相同的SNPs,共467552个SNPs进行全基因组关联分析。
[0050] 第二个独立研究的样本通过PLINK v1.07实施(当检测到有1st或2nd级关联时,去掉成对中低call-rate者)call-rate评估(必须高于96%)和样本间的潜在关联(利用成对identity-by-state(IBS)为基础的方法),基于206例HapMap样本进行主成分分析(PCA)它们是否为种群偏离(population outliers),这些样本抽样于尼日利亚伊巴丹的约鲁巴人(YRI)(57例),日本东京的日本人(JPT)(44例),中国北京的中国汉族人(CHB)(45例)和祖先来自北欧和西欧的犹他州居民(CEU)(60例)。
[0051] 定相和归类(Phasing and Imputation):
[0052] 定相(Phasing)分别在第一个独立研究阶段的中国北方汉族和第二个独立研究阶段的中国北方汉族、中国南方的汉族和少数民族中进行。Phasing采用SHAPEIT版本2,基于467552个常见的单核苷酸多态性的研究,归类(imputation)采用IMPUTE2.2.2版本,参考panel来源于NCBI build 37(hg19)数据库,基于千人计划I整合不同的set release v3。后期归类(Post-imputation)质量控制包括:排除插入-缺失和结构变化,SNPs MAF<5%,SNPs归类信息得分(imputation certainty)<0.8,对照中的HWE SNPs显著-5
(P<1×10 )。最后,共有4109619个归类的SNPs(imputed SNPs)和467552个分型的SNPs应用于关联分析,得到了91个与麻风病显著关联的位点。
[0053] 2、SNP基因型与麻风病的关联分析
[0054] 第一个独立研究和第二个独立研究的基因分型均应用Illumina Human610K-Quad Bead Chips进行基因分型。所有分型实验由Genergy生物技术(上海)有限公司根据制造商的说明来执行。
[0055] 第一个独立研究和第二个独立研究的基因分型的方法如下:
[0056] 91个与麻风病显著关联的位点采用Illumina Human 660K-Quad Bead Chips验证,每个样本约用到15ngDNA。首先提取外周血的基因组DNA,标准化后,样本DNA经多重PCR反应扩增包括SNP位点在内的基因组DNA片段,扩增产物进行SNP位点特异性单一链的延伸,延伸产物脱盐并转移到384孔的芯片上。质谱仪(MALDI-TOF MS)进行等位基因的检测,采用Illumina Human 660K-Quad Bead Chips分型软件对检测结果进行分析。
[0057] 2.1、全血标本采集
[0058] 在知情同意,并签署书面同意书的情况下采集研究对象外周静脉血5ml,放置于EDTANa2抗凝管中,置-80℃冰柜储存备用。
[0059] 2.2、DNA浓度标准化包括如下步骤:
[0060] 2.2.1利用NanoDrop-1000浓度测试仪准确测定每一份需要标准化的样本DNA浓度和OD比值(A260/A280、A260/A230)。
[0061] 2.2.2建立电子表格,排定每个样本孔需要加入的DNA编号。
[0062] 进行Sequenom MassArray分型的样本,在每96孔板上留有空白对照和重复样本对照。
[0063] 2.2.3按照电子表格的顺序,加入已测定浓度的DNA。
[0064] 对于进行Sequenom MassArray分型的样本要求实验浓度为12-30ng/μl,一般以18ng/μl为佳。并且A260/A280比值介于1.5-2.0之间、A260/230介于1.5-2.3,如DNA浓度高于18ng/ul则加入适量FG3,将浓度标化至18ng/ul;如DNA浓度低于12ng/ul,则重新从血液提取合格的DNA。浓度在12—18ng/μl间直接加入。
[0065] 离心后贴上粘性锡箔纸,并用标记笔标上样本板标号、样本类型、来源地等信息。
[0066] 2.2.4在平板离心机上,3000g离心3分钟,存放于-20℃备用。
[0067] 2.3、多重PCR
[0068] 其中,多重PCR中扩增包括rs2221593在内的基因组DNA片段的引物如下:
[0069] ACGTTGGATGCACCTCGGGGTCCCAAATC(序列表中的SEQ ID No.1)和
[0070] ACGTTGGATGTTTCAGAGCCACCACGTGAC(序列表中的SEQ ID No.2)。
[0071] 多重PCR中扩增包括rs73058713在内的基因组DNA片段的引物如下:
[0072] ACGTTGGATGGAATAACACGGGAACTTGGC(序列表中的SEQ ID No.3)和[0073] ACGTTGGATGAATCCTGGCAATACACAGTC(序列表中的SEQ ID No.4)。
[0074] 多重PCR中扩增包括rs10817758在内的基因组DNA片段的引物如下:
[0075] ACGTTGGATGGGTATATAGAGGCCTTCCAG(序列表中的SEQ ID No.5)和[0076] ACGTTGGATGTTGGCCAGGGTTTGATTCC(序列表中的SEQ ID No.6)。
[0077] 多重PCR中扩增包括rs77061563在内的基因组DNA片段的引物如下:
[0078] ACGTTGGATGCTTCACCAGTTCACAACCAG(序列表中的SEQ ID No.7)和[0079] ACGTTGGATGAGCCACAGATCTACAGCTTC(序列表中的SEQ ID No.8)。
[0080] 2.4、SNP位点特异性单一链的延伸反应
[0081] 其中,延伸引物根据人基因组中SNP位点上游(不包括该SNP位点)设计,所述延伸引物的最后1位核苷酸对应于人基因组中该SNP位点的前1位核苷酸。rs2221593的延伸引物的序列是ctgaTTTCCGCCGGCGCCC(序列表中的SEQ ID No.9);rs73058713的延伸引物的序列是gaggtAACTTGGCCTTTCTAGGTTTG(序列表中的SEQ ID No.10);rs10817758的延伸引物的序列是AGAGGCCTTCCAGAACTTAAC(序列表中的SEQ ID No.11);rs77061563的延伸引物的序列是tTTCACAACCAGTGCCAC(序列表中的SEQ ID No.12)。
[0082] 2.5、数据质量控制
[0083] 1)对分型的SNP进行call rate计算,去除call rate<95%的SNP或等位基因频率<0.01的SNPs;
[0084] 2)对SNP进行遗传平衡检验,去除偏离遗传平衡定律的SNP(对照样本中Hardy-Weinberg平衡检验的P≦0.001)。
[0085] 3)在Sequenom MassArray系统中查看SNP的分型聚类图,去除聚类图分堆不清的SNP。
[0086] 4)样本质控:直接去除分型失败的样本。
[0087] 将通过质控的样本和SNP进行统计分析。
[0088] 2.6、统计分析:
[0089] 两个独立研究的关联分析分别进行。分型SNPs被转换为基因型剂量(genotype dosage),与imputed SNPs的基因型剂量一起分析。关联分析采用SNPTEST 2.4.1,在加相模型中使用频率检测。使用主成分分析(PCA)评估潜在的种群结构,在每项研究中,我们列入5个主成分,作为关联研究的协变量来解释种群分层。
[0090] 两个独立研究,使用META461.3.2采用逆变异方法进行Fixed-effects的meta分析,同样也获得了异构数据(科克伦的Q统计假定值和I指数)。
[0091] 在meta分 析 之 前,这 个 程 序允 许 genomic inflation lambda的 调 整lambda(lambda GC),对于每个研究发明人指定了lambda GC,第一项独立研究的lambda GC为1.13和第二独项立研究的lambda GC为1.02。
[0092] The genomic inflation factor(λGC=1.02)值很低,表明由于人群分层混杂因素极为微小(图1)。在排除了以往发现位点处及MHC区域的SNP后仍然有大量SNP的P值很低,表明有新的关联位点存在。此外,发明人也在已知的9个非MHC区域的易感基因位点寻找关联,其独立于通过条件关联分析报告的SNP。
[0093] 在发现阶段的第一个独立研究和第二个独立研究中,得到了4个在全基因组关-8联分析中有显著意义(P<5×10 ,如表2所示)的新的与麻风病相关的SNP:位于1q32.3的rs2221593,位于5p14.3的rs73058713,位于9q32的rs10817758,位于16p13.13的rs77061563。
[0094] 发明人评估了新发现位点与以往有意义位点的交互作用,应用两两交互作用分析方法分析了这4个位点的显著SNP,尽管数据量庞大却未发现任何交互作用。
[0095] 二、验证阶段1和验证阶段2的关联分析
[0096] 为了验证发现阶段显示的4个新的SNP与麻风病的关联性,从91个显示显著关联-4的位点选取P<5×10 的SNP在样本3(2761例北方汉族麻风病例和3038例北方汉族正常健康对照,表1与图2)中进行验证分析(第二阶段),在成功分型的88个SNP中,11个SNP P<0.05,5个SNP在第一阶段和第二阶段的关联效应是一致的,尽管其P值未达到统计学意义(P>0.05)。
[0097] 将所有16个中的4个SNP在样本4(共计4004例麻风病例和6467例正常健康对照,表1与图2)中进行进一步验证,即第三阶段。
[0098] 验证阶段使用PLINK v1.07对SNP进行Log-additive关联检测。第二验证阶段应用fixed-effects meta分析来获取每个SNP的联合数据。
[0099] 此外,发明人在第二阶段的样本3和第三阶段的样本4中验证了来自9个非MHC-4区域的SNP位点以及3个在以往报道中有独立关联性的次要SNP(P<5×10 )。
[0100] SNP的选择:
[0101] 对于那些位于可能有变异基因位点的SNP,每一个独立的基因座都是通过条件分析确定的,条件分析是在每个基因座位最有意义的SNP的1MB范围内进行。如果P值经过-4条件分析后仍然保持<1×10 基因座位被认为是独立的,因此在每一个独立的基因座中最
2
有意义的SNP或者它的替代(r>0.9)被认为是可验证的。发明人还考虑选择独立的基因-4 -4
位点,其TopSNP的P值位于5×10 和1×10 之间,它们的GRAIL P值<0.05。–logP位-4
于3和4之间,这将是SNP选择的统计学阈值(P<5×10 )(图1)。
[0102] 基因分型分析和质量控制:
[0103] 验证阶段的SNP基因分型阶段在中国山东省济南市山东省皮肤病性病学重点实验室进行,应用Sequenom MassArray system(San Diego,USA)和TaqMan Custom基因分型检测在7900HT定光定量PCR反应系统按照生产商的指示操作进行(Applied Biosystem Foster City,CA,USA)。有3个SNP没有成功分型由于以下原因:2个SNP在设计的过程中被否定,另一个SNP基因分型集群很差。质量控制测定按照以下方式:不能确定集群的SNP和call rate<90%的SNP将被剔除。
[0104] 候选基因通过芯片分析的优先次序:每一个基因座的LD区域内的每个基因得分基于它们与我们建立的包含有以下证据的SNP的生物学证据相关:a)如果危险SNP或者任2
何LD区域内的SNP(r>0.8)基于dbSNP的功能性解释在亚洲人群中(基于千人基因组计划)被定义为错义突变或无义突变的基因将会获得一个值。b)如果发现它们基于危险SNP
2
或任何LD区域内的SNP(r>0.8)有明显的cis-eQTL and mQTL效应(P<0.001)也会获得一个值。cis-eQTL和mQTL数据集包括最近公布的外周血单核细胞eQTL meta-analysis和Sanger Genevar数据集内的可以获得的一些研究,包括细胞和组织特异的淋巴母细胞系、成纤维细胞、T细胞、皮肤和脂肪的eQTL分析;c)如果一个基因基于PubMed文本挖掘(GRAIL)通过应用已建立的和指导性SNP的导入表现出明显的极化(P<0.05),将会获得一个值。同样,如果基因在蛋白与蛋白交互作用中被极化,基因也会获得一个值。基因之间的交互作用是应用DAPPLE(P<0.05)和通过MAGENTA(FDR q<0.05)和IPA top网络基因(network P<1E-10)进行分子通路分析得到。
[0105] 其中,基因分型的方法如下:
[0106] 16个SNP采用Sequenom MassArray(San Diego,USA)平台验证,每个样本约用到15ngDNA。首先提取外周血的基因组DNA,标准化后,样本DNA经多重PCR反应扩增包括SNP位点在内的基因组DNA片段,扩增产物进行SNP位点特异性单一链的延伸,延伸产物脱盐并转移到384孔的芯片上。质谱仪(MALDI-TOF MS)进行等位基因的检测,采用Sequenom Mass ARRAY分型软件对检测结果进行分析。
[0107] 1、全血标本采集
[0108] 在知情同意,并签署书面同意书的情况下采集研究对象外周静脉血5ml,放置于EDTANa2抗凝管中,置-80℃冰柜储存备用。
[0109] 2、DNA浓度标准化包括如下步骤:
[0110] 1)利用NanoDrop-1000浓度测试仪准确测定每一份需要标准化的样本DNA浓度和OD比值(A260/A280、A260/A230)。
[0111] 2)建立电子表格,排定每个样本孔需要加入的DNA编号。
[0112] 进行Sequenom MassArray分型的样本,在每96孔板上留有空白对照和重复样本对照。
[0113] 3)按照电子表格的顺序,加入已测定浓度的DNA。
[0114] 对于进行Sequenom MassArray分型的样本要求实验浓度为12-30ng/μl,一般以18ng/μl为佳。并且A260/A280比值介于1.5-2.0之间、A260/230介于1.5-2.3,如DNA浓度高于18ng/ul则加入适量FG3,将浓度标化至18ng/ul;如DNA浓度低于12ng/ul,则重新从血液提取合格的DNA。浓度在12—18ng/μl间直接加入。
[0115] 离心后贴上粘性锡箔纸,并用标记笔标上样本板标号、样本类型、来源地等信息。
[0116] 4)在平板离心机上,3000g离心3分钟,存放于-20℃备用。
[0117] 3、多重PCR(下述引物序列同步骤一种2中的2.3)
[0118] 其中,多重PCR中扩增包括rs2221593在内的基因组DNA片段的引物如下:
[0119] ACGTTGGATGCACCTCGGGGTCCCAAATC(序列表中的SEQ ID No.1)和
[0120] ACGTTGGATGTTTCAGAGCCACCACGTGAC(序列表中的SEQ ID No.2)。
[0121] 多重PCR中扩增包括rs73058713在内的基因组DNA片段的引物如下:
[0122] ACGTTGGATGGAATAACACGGGAACTTGGC(序列表中的SEQ ID No.3)和[0123] ACGTTGGATGAATCCTGGCAATACACAGTC(序列表中的SEQ ID No.4)。
[0124] 多重PCR中扩增包括rs10817758在内的基因组DNA片段的引物如下:
[0125] ACGTTGGATGGGTATATAGAGGCCTTCCAG(序列表中的SEQ ID No.5)和[0126] ACGTTGGATGTTGGCCAGGGTTTGATTCC(序列表中的SEQ ID No.6)。
[0127] 多重PCR中扩增包括rs77061563在内的基因组DNA片段的引物如下:
[0128] ACGTTGGATGCTTCACCAGTTCACAACCAG(序列表中的SEQ ID No.7)和[0129] ACGTTGGATGAGCCACAGATCTACAGCTTC(序列表中的SEQ ID No.8)。
[0130] 4、SNP位点特异性单一链的延伸反应(下述引物序列同步骤一种2中的2.4)[0131] 其中,延伸引物根据人基因组中SNP位点上游(不包括该SNP位点)设计,所述延伸引物的最后1位核苷酸对应于人基因组中该SNP位点的前1位核苷酸。rs2221593的延伸引物的序列是ctgaTTTCCGCCGGCGCCC(序列表中的SEQ ID No.9);rs73058713的延伸引物的序列是gaggtAACTTGGCCTTTCTAGGTTTG(序列表中的SEQ ID No.10);rs10817758的延伸引物的序列是AGAGGCCTTCCAGAACTTAAC(序列表中的SEQ ID No.11);rs77061563的延伸引物的序列是tTTCACAACCAGTGCCAC(序列表中的SEQ ID No.12)。
[0132] 5、数据质量控制
[0133] 1)对分型的SNP进行call rate计算,去除call rate<95%的SNP或等位基因频率<0.01的SNPs;
[0134] 2)对SNP进行遗传平衡检验,去除偏离遗传平衡定律的SNP(对照样本中Hardy-Weinberg平衡检验的P≦0.001)。
[0135] 3)在Sequenom MassArray系统中查看SNP的分型聚类图,去除聚类图分堆不清的SNP。
[0136] 4)样本质控:直接去除分型失败的样本。
[0137] 将通过质控的样本和SNP进行统计分析。
[0138] 6、数据统计分析
[0139] 利用Plink 1.07软件对分型成功并通过质控的SNP在病例组和对照组做基因表型相关性分析,用Cochran-Armitage trend检验每个样本的基因型和表型的关联性,然后用Cochran-Mantel-Haenszel综合分析所有样本的基因型和表型的相关性。用Q检验来评价个体间的异质性,本次实验中,以p<0.05作为检验水准。多重logistic回归分析用于检测区域内的信号的独立性。检验水准α以0.05除以通过质量控制的SNP数目为检验水准。Q检验用于评估遗传异质性的显著性,对SNP校正检测后P值小于0.05者视为有显著遗传异质性。
[0140] rs2221593、rs73058713、rs10817758和rs77061563的基因型和表型关联研究结果如表2所示,表明rs2221593、rs73058713、rs10817758和rs77061563均是与麻风病相关的单核苷酸多态性。
[0141] 三、关联性的联合分析
[0142] 发现和验证阶段的联合分析是由fixed-effects meta分析完成,对象为所有样本,共8313例(样本1-4中麻风病例数之和)麻风病例和16017例正常健康对照(包括样本1-4中的正常健康对照和作为种群对照的4362例中国北方汉族的其他几种免疫相关疾病病例)。评估的非均质性研究是通过评估Cochran’s Q的统计P值(Bonferroni校正的-8异质性P值<0.05被认为是有显著性)。P<5×10 认为是在全基因组研究有显著意义的阈值,LocusZoom工具用来生成每一个位点的区域群丛图,其中心在top SNP。
[0143] 每项研究使用SNPTEST或者PLINK进行条件逻辑回归分析,随后进行PLINK meta分析来评估top SNP的联合效应。
[0144] 三个阶段的所有样本的联合分析使用两两相互作用分析。在16个SNP中有153个两两交互测试,使用逻辑回归和似然比检验。交互的P值通过似然比检验计算,用来比较两种模型是否有交互,SNP1,SNP2和研究变量的协变量纳入模型。显著的Bonferroni阈值是P=0.05/153=0.00033。
[0145] 单体型分析来核实先前报道的在与麻风相同位点的其他疾病的关联的独立性,在LD值高的SNP(r2>0.8)中不进行单体型分析。这项分析通过使用PHASE v.2.1.1程序定期基因型,最后由R完成。
[0146] HLA等位基因的imputation和关联分析
[0147] 分析的对象包括样本1-4和作为种群对照的4362例中国北方汉族的其他几种免疫相关疾病(牛皮癣(psoriasis)、白癫风(vitilogo)、过敏性皮肤炎(atopic dermatitis)和红斑狼疮(SLE))病例,该分析用来避免人为统计误差。经典HLA等位基因的imputation是基于178个的慢乙肝和JPT HapMap的样本的参考panel。这一panel包括密集的SNP数据和HLA等位基因在2-digit和4-digit分辨率的HLA-I型(HLA-A,B,C)和II型(DQA1,DQB1,DRB1),然而氨基酸变异的(基于密码子)编码目前是遵循EMBL-EBI免疫学遗传学HLA数据库的标准定义(http://www.ebi.ac.uk/imgt/hla/).应用Beagle进行Imputation,遵循之前描述的程序。
[0148] 关联分析在PINK中实施是通过比较病例和对照中best-guessed基因型频率和等位基因的剂量应用逻辑回归分析假定遗传的相加模型。在呈现基于best-guessed基因型分析的结果之前,检测了best-guessed和等位基因剂量一致性结果。我们也在发现的数据集中随机选择600例病例和600例对照来衡量rs9271100imputation的准确性,显示imputation和实际基因型之间的一致性是97.3%。
[0149] 在由8313个麻风病患者组成的病例群体和由11655个正常人组成的对照群体及由4362个其他几种免疫相关疾病患者组成的对照群体中,对本发明得到的4个与麻风病相-8关的SNP进行联合分析,结果如下:位于1q32.3的rs2221593,其P值为3.09×10 ,OR值为-9
1.15;位于5p14.3的rs73058713,其P值为9.54×10 ,OR值为OR=1.19;位于9q32的-8
rs10817758,其P值为P=1.15×10 ,OR值为OR=1.13;位于16p13.13的rs77061563,-15
其P值为P=6.23×10 ,OR值为OR=0.84。
[0150]
[0151] 4个SNP在麻风病患者群体和正常人群体中的基因型频率如表3所示。结果表明:rs2221593的三个基因型中,TT基因型的个体和CT基因型的个体在麻风病患者群体中的比例分别高于对应的基因型在正常人群体中的比例,CC基因型的个体在麻风病患者群体中的比例低于其在正常人群体中的比例;rs10817758的三个基因型中,TT基因型的个体和TC基因型的个体在麻风病患者群体中的比例分别高于对应的基因型在正常人群体中的比例,CC基因型的个体在麻风病患者群体中的比例低于其在正常人群体中的比例;rs73058713的三个基因型中,AA基因型的个体和AC基因型的个体在麻风病患者群体中的比例分别高于对应的基因型在正常人群体中的比例,CC基因型的个体在麻风病患者群体中的比例低于其在正常人群体中的比例;rs77061563的三个基因型中,TT和TC基因型的个体在麻风病患者群体中的比例分别低于对应的基因型在正常人群体中的比例,CC基因型的个体在麻风病患者群体中的比例高于其在正常人群体中的比例。
[0152] 表3、SNP在麻风病患者群体和正常人群体中的基因型频率
[0153]
[0154] 注:rs2221593的基因型中,A1*A1表示TT,A1*A2表示TC,A2*A2表示CC;
[0155] rs73058713的基因型中,A1*A1表示AA,A1*A2表示AC,A2*A2表示CC;
[0156] rs10817758的基因型中,A1*A1表示TT,A1*A2表示TC,A2*A2表示CC;
[0157] rs77061563的基因型中,A1*A1表示TT,A1*A2表示TC,A2*A2表示CC。
[0158] 利用二分类的logistic回归模型(log-additive模型)计算麻风病患者群体和正常人群体中基因频率差异性P值,确定SNP有无显著性意义(结果见表4),其中基因型采用可加模型进行统计。例如,假设A1是风险等位基因,对于病例来说,如果该病例基因型为A1*A1,那么该病例的自变量是2,因变量是1;如果该病例基因型为A1*A2,那么该病例的自变量是1,因变量是1;如果该病例基因型为A2*A2,那么该病例的自变量是0,因变量是1。例如,假设A1是风险等位基因,对于正常健康对照来说,如果该病例基因型为A1*A1,那么该病例的自变量是2,因变量是0;如果该病例基因型为A1*A2,那么该病例的自变量是1,因变量是0;如果该病例基因型为A2*A2基因型,那么该病例的的自变量是0,因变量是0。根据以上理论,病例和正常健康对照P值小于0.05时有显著差异。
[0159] 表4、麻风病患者群体和正常人群体基因频率差异性P值
[0160]SNP Chr Position P
rs2221593 1 212873431 9.6E-09
rs73058713 5 20374213 8.3E-08
rs10817758 9 118143933 1.9E-07
rs77061563 16 11452542 1.7E-13
[0161] 表5、SNP在麻风病患者群体和正常人群体中的等位基因频率
[0162]
[0163] 注:rs2221593的等位基因中,A1表示T,A2表示C;
[0164] rs73058713的等位基因中,A1表示A,A2表示C;
[0165] rs10817758的等位基因中,A1表示T,A2表示C;
[0166] rs77061563的等位基因中,A1表示T,A2表示C。
[0167] 由表4和表5可知,rs2221593、rs73058713、rs10817758和rs77061563的各等位基因的基因频率在正常人群体和麻风病患者群体中均有显著性差异。rs2221593的风险等位基因为T,该等位基因在麻风病例中的基因频率为0.2364,在正常健康对照中的基因频率为0.2076,与正常健康对照相比,该等位基因在麻风病例中增加了13.89%;
[0168] rs73058713的风险等位基因为A,该等位基因在麻风病例中的基因频率为0.1528,在正常健康对照中的基因频率为0.1376,与正常健康对照相比,该等位基因在麻风病例中增加了11.05%;rs10817758的风险等位基因为T,该等位基因在麻风病例中的基因频率为0.4285,在正常健康对照中的基因频率为0.3965,与正常健康对照相比,该等位基因在麻风病例中增加了8.08%;rs77061563的风险等位基因为C,该等位基因在麻风病例中的基因频率为0.6844,在正常健康对照中的基因频率为0.6407,与正常健康对照相比,该等位基因在麻风病例中增加了6.81%。
[0169] 实验结果表明,rs2221593、rs73058713、rs10817758和rs77061563的多态性或基因型或等位基因频率可用于麻风病患者的筛查。