一种主要组织相容性复合体MHC分型方法及其应用转让专利

申请号 : CN201280076912.6

文献号 : CN104769129B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张涛曹红志王煜仝欣刘小敏王俊汪建杨焕明

申请人 : 深圳华大基因科技有限公司深圳华大基因研究院

摘要 :

本发明涉及一种主要组织相容性复合体MHC分型方法及其应用。具体地,本发明提供了主要组织相容性复合体MHC型别数据库及其构建方法和构建单元、SNP和InDel检测方法和检测单元、SNP和InDel的拼接方法及拼接单元、以及主要组织相容性复合体MHC分型方法及其单元和系统。本发明方法和系统准确性高(可以达到98%以上),对待测的数据要求比较低、相对于现有的分型方法,大大提高了分型区域。

权利要求 :

1.一种主要组织相容性复合体MHC型别数据库的构建方法,其特征在于,包括步骤:(1)将目标MHC型别序列和参考序列进行比对,获得目标MHC型别相对于参考序列的差异位点,所述的差异位点为SNP和InDel位点;和(2)对已获得所述的差异位点信息的各个目标MHC型别进行汇总,构建得到主要组织相容性复合体MHC型别数据库,其中所述的参考序列来自于hg18或hg19,并且所述SNP和InDel位点用包括如下步骤的方法进行检测:(a)获得经比对的不匹配的SAM文件和目标基因区的SAM文件,并且合并所述的SAM文件;

(b)重新比对步骤(a)所获得的SAM文件,获得每条读序比对的最佳型别、对应型别的初始位置、和与最佳型别差异的不匹配的数目;和(c)过滤步骤(b)所获得的读序,结合MHC数据库获得可信读序的SNP和InDel的信息。

2.一种主要组织相容性复合体MHC型别数据库,其特征在于,所述的数据库是使用权利要求1所述的方法构建的。

3.如权利要求2所述的数据库,其特征在于,所述数据库的结构为:第一列表示MHC的不同型别,第二列表示MHC型别所对应的序列,第三列表示MHC型别序列比对参考序列后的SNP,第四列表示MHC型别比对后的InDel。

4.一种构建如权利要求2所述主要组织相容性复合体MHC型别数据库的单元,其特征在于,所述单元包括模块:(1)比对模块,用于比对目标MHC型别序列和参考序列;和(2)输出模块,用比对模块获得的目标MHC型别序列和参考序列的比对结果,输出MHC型别相对于参考序列的SNP和InDel位点信息,并且,所述单元包括SNP和InDel的拼接单元,所述SNP和InDel的拼接单元包括模块:①序列获取模块,用于选择和/或获得读序;

②拼接模块,用于对序列获取模块获得的读序进行读序与序列的拼接;

③比对和过滤模块,用于比对和过滤拼接模块获得的读序;

④排序模块,用于对比对和过滤模块获得的序列进行排序;和⑤输出模块,用于输出SNP和InDel的拼接信息。

5.如权利要求4所述的单元,其特征在于,所述单元还包括:(3)序列获取模块,用于获得目标MHC型别序列和参考序列。

6.如权利要求1所述的方法,其特征在于,步骤(a)使用BWA软件进行比对。

7.如权利要求1所述的方法,其特征在于,步骤(a)和步骤(b)之间还包括:将SAM文件转换为FQ文件的步骤。

8.如权利要求1所述的方法,其特征在于,步骤(b)使用BWA软件进行比对。

9.如权利要求1所述的方法,其特征在于,步骤(b)使用目标基因对应的MHC型别序列作为参考序列。

10.如权利要求1所述的方法,其特征在于,步骤(c)所述的MHC数据库是用权利要求1所述的方法制备的。

11.如权利要求4所述的单元,其特征在于,所述单元包括SNP和InDel检测单元,所述SNP和InDel检测单元包括模块:(1)比对模块,用于比对读序;

(2)文件合并模块,用于合并经比对模块获得的比对的不匹配SAM文件和目标基因的SAM文件;

(3)文件转换模块,用于转换文件合并模块获得的SAM文件和FQ文件;和(4)输出模块,用于输出SNP和InDel的信息。

12.如权利要求1所述的方法,其特征在于,所述方法包括SNP和InDel的拼接方法,包括步骤:(1)将目标基因的一条读序所对应的SNP和InDel作为起始序列;

(2)从目标基因中选择与步骤(1)获得的序列完全匹配的读序;

(3)将步骤(2)选择的读序与步骤(1)的序列拼接,获得更长的序列;

(4)从目标基因中提取与步骤(3)获得的序列完全匹配的读序,直到没有匹配的读序,从而获得拼接的序列;

(5)将步骤(4)获得的拼接的序列与MHC型别数据库进行比对和过滤,对没有跨过整个外显子的序列进行随机组合和过滤,从而获得过滤的序列;和(6)对步骤(5)获得的过滤的序列按照读序支持数进行排序。

13.一种主要组织相容性复合体MHC分型单元,其特征在于,所述的单元包括模块:(1)序列获取模块,用于选择和/或获得读序;

(2)排序模块,所述排序模块执行如下命令:①获得目的基因的序列及其对应的MHC型别,所述序列如式I所示:(Gi-j)n

式I

其中,G为基因类型,i为外显子编号,j为对应的hap排序数,n为外显子的数目,i、j和n均为正整数;

②对各个外显子序列对应的排序数进行打分,确定最可信单体型(type),打分规则如下:当j=1时,分数=0;

当j=2时,分数=0.5;

当j=其他时,分数=1;

当没有外显子排序数时,分数=2;

计算各个外显子对应的分数的总和,分数最低的为最可信单体型;

③分别比较其余单体型与最可信单体型的差异度,差异度计算规则如下:比较其余单体型与最可信单体型对应外显子的序列排序数(即j值),当j不同时,分数=2;

当j相同时,分数=1;

当其余单体型中不存在相应的j,分数=-2;

最终总分最大的单体型与最可信单体型的组合,为最佳组合;和④基于步骤③的最佳组合,得出MHC的分型信息;

从序列获取模块获得的读序中,确定最可信单体型和最佳单体型的组合;和(3)输出模块,用于输出MHC的分型信息。

14.一种主要组织相容性复合体MHC分型系统,其特征在于,所述系统包括单元:(1)权利要求13所述的主要组织相容性复合体MHC分型单元;

(2)权利要求4所述的构建主要组织相容性复合体MHC型别数据库的单元;

(3)SNP和InDel检测单元,所述SNP和InDel检测单元包括模块:①比对模块,用于比对读序;

②文件合并模块,用于合并经比对模块获得的比对的不匹配SAM文件和目标基因的SAM文件;

③文件转换模块,用于转换文件合并模块获得的SAM文件和FQ文件;和④输出模块,用于输出SNP和InDel的信息;和(4)SNP和InDel的拼接单元,所述SNP和InDel的拼接单元包括模块:①序列获取模块,用于选择和/或获得读序;

②拼接模块,用于对序列获取模块获得的读序进行读序与序列的拼接;

③比对和过滤模块,用于比对和过滤拼接模块获得的读序;

④排序模块,用于对比对和过滤模块获得的序列进行排序;和⑤输出模块,用于输出SNP和InDel的拼接信息。

说明书 :

一种主要组织相容性复合体MHC分型方法及其应用

技术领域

[0001] 本发明属于生物信息学领域,具体地,本发明涉及一种主要组织相容性复合体MHC分型方法及其应用。

背景技术

[0002] 主要组织相容性复合体(major histocompatibility complex,MHC)是存在于脊椎动物某一染色体上编码主要组织相容性抗原的一组紧密连锁的基因群,与免疫应答、免疫调节和移植排斥等有关。由于人类主要组织相容性抗原首先在白细胞表面被发现,故称其为人类白细胞抗原(human leucocyte antigen,HLA),并将人类的MHC,即编码HLA的基因群称为HLA复合体。
[0003] 人类白细胞抗原(Human leukocyte antigen,HLA)是人体内与免疫最相关的一段基因组区域。它位于人类6号染色体的短臂,由一系列紧密连锁的基因座构成。HLA基因是人类基因组中多态性最高,迄今为止人类最复杂的遗传系统之一。HLA基因也在识别自体与非体,调节免疫应答等方面起至关重要的作用。
[0004] HLA分型即确定HLA基因每个基因座上的等位基因的型别。目前HLA分型的方法有多种,最早的为HLA血清学分型、细胞学分型的方法。现在主要为基于DNA水平的分型方法,包括单链构象多态性(PCR-SSCP)、序列特异性寡核苷酸探针(PCR-SSO(P))、限制性片段长度多态性(PCR-RFLP)、基因芯片、序列特异性引物(PCR-SSP)以及基于序列分型法(sequence-based typing,SBT)。
[0005] 综上所述,本领域迫切需要开发操作简单、准确性高的HLA分型方法。

发明内容

[0006] 本发明的目的就是提供一种主要组织相容性复合体MHC分型方法及其应用。
[0007] 在本发明的第一方面,提供了一种主要组织相容性复合体MHC型别数据库的构建方法,包括步骤:
[0008] (1)将目标MHC型别序列和参考序列进行比对,获得目标MHC型别相对于参考序列的差异位点,所述的差异位点为SNP和/或InDel位点;和
[0009] (2)对已获得所述的差异位点信息的各个目标MHC型别进行汇总,构建得到主要组织相容性复合体MHC型别数据库。
[0010] 在另一优选例中,所述的参考序列来自于hg18或hg19。
[0011] 在另一优选例中,所述的目标MHC型别序列为来自于数据库(如IMGT数据库)的已知序列。
[0012] 在本发明的第二方面,提供了一种主要组织相容性复合体MHC型别数据库,所述的数据库是使用第一方面所述的方法构建的。
[0013] 在另一优选例中,所述数据库的结构为:第一列表示MHC的不同型别,第二列表示MHC型别所对应的序列,第三列表示MHC型别序列比对参考序列后的SNP,第四列表示MHC型别比对后的InDel。
[0014] 在本发明的第三方面,提供了一种构建主要组织相容性复合体MHC型别数据库的单元,所述单元包括模块:
[0015] (1)比对模块,用于比对目标MHC型别序列和参考序列;和
[0016] (2)输出模块,用比对模块获得的目标MHC型别序列和参考序列的比对结果,输出MHC型别相对于参考序列的SNP和InDel位点信息。
[0017] 在另一优选例中,所述单元还包括:(3)序列获取模块,用于获得目标MHC型别序列和参考序列。
[0018] 在本发明的第四方面,提供了一种SNP和InDel检测方法,包括步骤:
[0019] (1)获得经比对的不匹配的(unmap)SAM文件和目标基因区的SAM文件,并且合并所述的SAM文件;
[0020] (2)重新比对步骤(1)所获得的SAM文件,获得每条读序比对的最佳型别、对应型别的初始位置、和与最佳型别差异的不匹配的数目;和
[0021] (3)过滤步骤(2)所获得的读序,结合MHC数据库获得可信读序的SNP和InDel的信息。
[0022] 在另一优选例中,步骤(1)使用BWA软件进行比对。
[0023] 在另一优选例中,步骤(1)和步骤(2)之间还包括:将SAM文件转换为FQ文件的步骤。
[0024] 在另一优选例中,步骤(2)使用BWA软件进行比对。
[0025] 在另一优选例中,步骤(2)使用目标基因对应的MHC型别序列作为参考序列。
[0026] 在另一优选例中,步骤(3)所述的MHC数据库是用第一方面所述的方法制备的。
[0027] 在本发明的第五方面,提供了一种SNP和InDel检测单元,所述单元包括模块:
[0028] (1)比对模块,用于比对读序;
[0029] (2)文件合并模块,用于合并经比对模块获得的比对的不匹配SAM文件和目标基因的SAM文件;
[0030] (3)文件转换模块,用于转换文件合并模块获得的SAM文件和FQ文件;和[0031] (4)输出模块,用于输出SNP和/或InDel的信息。
[0032] 在本发明的第六方面,提供了一种SNP和InDel的拼接方法,包括步骤:
[0033] (1)将目标基因的一条读序所对应的SNP和InDel作为起始序列;
[0034] (2)从目标基因中选择与步骤(1)获得的序列完全匹配的读序;
[0035] (3)将步骤(2)选择的读序与步骤(1)的序列拼接,获得更长的序列;
[0036] (4)从目标基因中提取与步骤(3)获得的序列完全匹配的读序,直到没有匹配的读序,从而获得拼接的序列;
[0037] (5)将步骤(4)获得的拼接的序列与MHC型别数据库进行比对和过滤,对没有跨过整个外显子的序列进行随机组合和过滤,从而获得过滤的序列;和
[0038] (6)对步骤(5)获得的过滤的序列按照读序支持数进行排序。
[0039] 在本发明的第七方面,提供了一种SNP和InDel的拼接单元,所述单元包括模块:
[0040] (1)序列获取模块,用于选择和/或获得读序;
[0041] (2)拼接模块,用于对序列获取模块获得的读序进行读序与序列的拼接;
[0042] (3)比对和过滤模块,用于比对和过滤拼接模块获得的读序;
[0043] (4)排序模块,用于对比对和过滤模块获得的序列进行排序;和
[0044] (5)输出模块,用于输出SNP和InDel的拼接信息。
[0045] 在本发明的第八方面,提供了一种主要组织相容性复合体MHC分型方法,包括步骤:
[0046] (1)获得目的基因的序列(hap)及其对应的MHC型别,所述序列如式I所示:
[0047] (Gi-j)n
[0048] 式I
[0049] 其中,G为基因类型,i为外显子编号,j为对应的序列排序数,n为外显子的数目,i、j和n均为正整数;
[0050] (2)对各个外显子序列对应的排序数进行打分,确定最可信单体型(type),打分规则如下:
[0051] 当j=1时,分数=0;
[0052] 当j=2时,分数=0.5;
[0053] 当j=其他时,分数=1;
[0054] 当没有外显子排序数时,分数=2;
[0055] 计算各个外显子对应的分数的总和,分数最低的为最可信单体型;
[0056] (3)分别比较其余单体型与最可信单体型的差异度,差异度计算规则如下:
[0057] 比较其余单体型与最可信单体型对应外显子的序列排序数(即j值),[0058] 当j不同时,分数=2;
[0059] 当j相同时,分数=1;
[0060] 当其余单体型中不存在相应的j,分数=-2;
[0061] 最终总分最大的单体型与最可信单体型的组合,为最佳组合;和[0062] (4)基于步骤(3)的最佳组合,得出MHC的分型信息。
[0063] 在本发明的第九方面,提供了一种主要组织相容性复合体MHC分型单元,所述的单元包括模块:
[0064] (1)序列获取模块,用于选择和/或获得读序;
[0065] (2)排序模块,用于从序列获取模块获得的读序中,确定最可信单体型和最佳单体型的组合;和
[0066] (3)输出模块,用于输出MHC的分型信息。
[0067] 在本发明的第十方面,提供了一种主要组织相容性复合体MHC分型系统,所述系统包括单元:
[0068] (1)本发明第九方面所述的主要组织相容性复合体MHC分型单元;
[0069] (2)本发明第三方面所述的构建主要组织相容性复合体MHC型别数据库的单元;
[0070] (3)本发明第五方面所述的SNP和InDel检测单元;和
[0071] (4)本发明第七方面所述的SNP和InDel的拼接单元。
[0072] 应理解,在本发明范围内中,本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合,从而构成新的或优选的技术方案。限于篇幅,在此不再一一累述。

附图说明

[0073] 下列附图用于说明本发明的具体实施方案,而不用于限定由权利要求书所界定的本发明范围。
[0074] 图1显示了MHC的分型流程。

具体实施方式

[0075] 本发明人经过广泛而深入的研究,首次建立了一种主要组织相容性复合体MHC分型方法。具体地,本发明提供了主要组织相容性复合体MHC型别数据库及其构建方法和构建单元、SNP和InDel检测方法和检测单元、SNP和InDel的拼接方法及拼接单元、以及主要组织相容性复合体MHC分型方法及其单元和系统。本发明方法和系统准确性高,对待测的数据要求比较低、相对于现有的分型方法,大大提高了分型区域。
[0076] 主要组织相容性复合体(MHC)
[0077] 如本文所用,术语“主要组织相容性复合体”与“MHC”可以互换使用,都是指存在于脊椎动物某一染色体上的、编码主要组织相容性抗原的一组紧密连锁的基因群,MHC与免疫应答、免疫调节和移植排斥等有关。
[0078] 人类白细胞抗原(HLA)
[0079] 由于人类主要组织相容性抗原首先在白细胞表面被发现,故称其为人类白细胞抗原(human leucocyte antigen,HLA),并将人类的MHC,即编码HLA的基因群称为HLA复合体。
[0080] 人类白细胞抗原HLA是人体内与免疫最相关的一段基因组区域。它位于人类6号染色体的短臂,由一系列紧密连锁的基因座构成。HLA基因是人类基因组中多态性最高,迄今为止人类最复杂的遗传系统之一。HLA基因也在识别自体与非体,调节免疫应答等方面起至关重要的作用。
[0081] 基因、外显子
[0082] 如本文所用,术语“基因”是指是生物遗传的基本单位,存在于基因组上的基因区域内。在真核生物中,基因由内含子和外显子组成。基因一般拥有多个外显子。在很多情况下,基因拥有多个转录本,每个转录本是该基因的外显子的不同组合,甚至在外显子边界向外显子内缩减若干碱基,或者向内含子扩展若干碱基,这称为可变剪接。由于这些原因,一个基因可以拥有多个的转录本。生物在不同的环境不同的时间,可以获得不同的转录本。
[0083] SNP
[0084] 如本文所用,术语“SNP”或“单核苷酸多态性”可以互换使用,是指在基因组水平上由单个核苷酸的变异所引起的DNA序列的多态性。SNP是可遗传变异中最常见的一种,占所有已知多态性的绝大多数。
[0085] SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。
[0086] InDel
[0087] 如本文所用,术语“InDel”和“插入缺失突变”可以互换使用,是指涉及核苷酸插入和/或缺失的突变。
[0088] 双末端测序
[0089] 对基因片段(包括DNA和cDNA)进行测序,其测序对象都是一段物理连续的碱基序列片段,该片段称为插入片段,其长度称为插入片段长度(insertsize)。
[0090] 如本文所用,术语“双末端测序”是对该片段的两侧碱基序列从边缘向内部的测序,测得的序列称为读序(read),长度称为读长(read-length)。两侧测得的读序是来自于同一个插入片段,并且其末端距离为insertsize,故两侧读序的配对关系确定。这两个读序被称为配对读序(Pair-end reads)。
[0091] 高通量测序
[0092] 基因组的高通量测序使得人类能够尽早地发现与疾病相关基因的异常变化,有助于对个体疾病的诊断和治疗进行深入的研究。本领域技术人员通常可以采用三种第二代测序平台进行高通量测序:454FLX(Roche公司)、Solexa Genome Analyzer(Illumina公司)和Applied Biosystems公司的SOLID等。这些平台共同的特点是极高的测序通量,相对于传统测序的96道毛细管测序,高通量测序一次实验可以读取40万到400万条序列,根据平台的不同,读取长度从25bp到450bp不等,因此不同的测序平台在一次实验中,可以读取1G到14G不等的碱基数。
[0093] Solexa高通量测序包括DNA簇形成和上机测序两个步骤:PCR扩增产物的混合物与固相载体上固定的测序探针进行杂交,并进行固相桥式PCR扩增,形成测序簇;对所述测序簇用“边合成-边测序法”进行测序,从而得到样本中核酸分子的序列。
[0094] DNA簇的形成是使用表面连有一层单链引物(primer)的测序芯片(flow cell),单链状态的DNA片段通过接头序列与芯片表面的引物通过碱基互补配对的原理被固定在芯片的表面,通过扩增反应,固定的单链DNA变为双链DNA,双链再次变性成为单链,其一端锚定在测序芯片上,另一端随机和附近的另一个引物互补从而被锚定,形成“桥”;在测序芯片上同时有上千万个DNA单分子发生以上的反应;形成的单链桥,以周围的引物为扩增引物,在扩增芯片的表面再次扩增,形成双链,双链经变性成单链,再次成为桥,称为下一轮扩增的模板继续扩增;反复进行了30轮扩增后,每个单分子得到1000倍扩增,称为单克隆的DNA簇。
[0095] DNA簇在Solexa测序仪上进行边合成边测序,测序反应中,四种碱基分别标记不同的荧光,每个碱基末端被保护碱基封闭,单次反应只能加入一个碱基,经过扫描,读取该次反应的颜色后,该保护集团被除去,下一个反应可以继续进行,如此反复,即得到碱基的精确序列。在Solexa多重测序(Multiplexed Sequencing)过程中会使用Index(标签)来区分样品,并在常规测序完成后,针对Index部分额外进行测序,通过Index的识别,可以在1条测序甬道中区分多达12种不同的样品。
[0096] MHC型别数据库及其构建
[0097] 本发明提供一种MHC型别数据库。所述数据库包括的内容用表1的形式表示。
[0098] 表1
[0099]
[0100] 在表1中,第一列表示MHC的不同型别,第二列表示MHC型别所对应的序列,第三列表示MHC型别序列比对参考序列后的SNP,第四列表示MHC型别比对后的InDel。
[0101] 例如,29796327:T表示29796327位置SNP为T;29796435-D-C表示29796436位置缺失碱基C;None表示没有这种类型的变异。
[0102] 本发明还提供了MHC型别数据库构建方法,在本发明的一个优选例中,所述方法包括步骤a和b:
[0103] 步骤a)下载已知的MHC型别序列,本领域的普通技术人员可以使用常规得到获得这些数据,例如,从IMGT数据库获得,网址为http://www.ebi.ac.uk/imgt/hla。
[0104] MHC型别序列的内容可以用表2的形式表示。
[0105] 表2
[0106]cDNA 1020 1030 1040
A*01:01:01:01 ATAGAAAAGGAGGGAGTTACACTCAGGCTGCAA
[0107] 在表2中,第一列表示型别,第二列表示型别的序列。
[0108] 选取对照样本hg19或hg18中目标基因坐标对应的序列作为参考序列,例如A基因,选取A*03:01:01:01对应的序列作为参考序列。
[0109] 步骤b)将MHC型别序列与参考序列进行比对,获得与参考序列的差异位点,即得到每个型别相对于参考序列的SNP和InDel关系,构建MHC型别数据库。
[0110] SNP&InDel检测方法
[0111] 本发明提供了一种基于重新比对策略得到每条读序的SNP和InDel信息的方法。在一个优选例中,所述方法包括步骤:
[0112] a)将BWA软件包比对得到的不匹配的SAM文件和目标基因区的SAM文件合并,作为原始比对文件;
[0113] b)将合并后的比对文件(也就是SAM文件)转为FQ文件;
[0114] c)将合并的FQ文件重新用BWA软件包比对,参考序列选为目标基因对应的MHC型别序列,如表3所示:
[0115] 表3
[0116]型别 型别对应的序列
>A*29:01:01:02N ATAGAAAAGGAGGGAGCTACTCTCAGGCTGCAA
>A*29:02:01:02 ATAGAAAAGGAGGGAGCTACTCTCAGGCTGCAA
[0117] 将型别作为表头,而型别对应的序列作为参考序列;
[0118] d)重新比对后,得到每条读序比对的最佳型别,以及对应型别的初始位置,以及与最佳型别差异的mismatch数目。
[0119] 通过设置mismatch数目过滤不可信的读序,然后结合MHC型别数据库获得可信读序的SNP和InDel信息。
[0120] 基于连锁的SNP和InDel拼接
[0121] 本发明提供了一种基于连锁的SNP和InDel的拼接方法,在一个优选例中,所述方法包括步骤:
[0122] a)选取目标基因的一条读序对应的SNP和InDel作为起始序列,用下面形式表示:
[0123]序列1 29910242*29910331*29910276:G-29910286:T*None
[0124] b)从目标基因中挑选与上述序列完全匹配的读序,如下:
[0125]读序1 29910282*29910371*29910286:T-29910358:G*None
读序2 29910287*29910386*29910286:T-29910358:G-29910378:T*None
读序3 29910282*29910371*29910286:T-29910371:T*None
[0126] c)将挑选的读序与原始的序列进行拼接成更长的序列,如下:
[0127]
[0128] d)将得到的序列重新从目标基因中提取与序列完全匹配的读序直到没有匹配的读序;
[0129] e)将没有SNP和InDel的读序按照同样的方法单独拼接;
[0130] f)将拼接完成的序列比对到型别数据库进行过滤,将保留下来的序列,但是又没有跨过整个外显子的序列进行随机组合后重新过滤数据库,将过滤得到的hap排序,排序规则:首先选取读序支持数最多的一条hap,然后将剩余的hap与这条hap取并集并去重复后,按照并集的读序支持数排序。
[0131] MHC分型方法
[0132] 本发明提供一种MHC分型方法,在一个优选例中,步骤如下:
[0133] a)将获得的hap以及hap对应的MHC型别转化为如表4所示的格式:
[0134] 表4
[0135]外显子组合 型别
G1-1*G2-1*G3-2*G4-1*G5-2 G*01:04:03
G1-1*G2-2*G3-2*G4-1*G5-2 G*01:04:01
G1-2*G2-1*G3-1*G4-1*G5-1 G*01:01:01:01G*01:01:01:02G*01:01:01:03G1-2*G3-1*G4-1*G5-1 G*01:01:01:01G*01:01:01:02G*01:01:01:03G*01:02:01[0136] 以G*01:01:01:01G*01:01:01:02G*01:01:01:03为例,头两位数字表示的是在物种水平上的分型,第3、4位上的数字表示的是外显子非同义突变,第5、6位表示的同义突变,第7、8位上表示的是内显子上的突变的分型,但是由于在内显子上的突变的研究意义不大,所以一般只做前三部分的分型研究。
[0137] 其中G1表示G基因1号外显子,-1表示对应hap的排序数;
[0138] b)确定最可信的type型别,定义为type型别1,具体做法:对所有的type型别进行打分,选出最可信type型别作为type型别1,打分规则如下:
[0139] 如果hap对应的排序数为1,则分数不加;如果hap对应的排序数为2,则分数加0.5;如果为其他数据,则分数加1;如果部分外显子没有排序数,则分数加2;如此分数最低的就定义为单体型1。
[0140] 例如:
[0141] G1-1*G2-1*G3-2*G4-1*G5-2=1
[0142] G1-1*G2-2*G3-2*G4-1*G5-2=1.5
[0143] G1-2*G2-1*G3-1*G4-1*G5-1=0.5
[0144] G1-2*G3-1*G4-1*G5-1=2.5
[0145] 选择分数最低为0.5的G1-2*G2-1*G3-1*G4-1*G5-1作为最可信type,从表4可以知道,其对应的型别为G*01:01:01:01G*01:01:01:02G*01:01:01:03。
[0146] c)从剩余的type中选出type2,规则如下:
[0147] 将剩下的type与步骤b)中获得的type1取差异度,差异度表示同一个基因同一个exon他们对应的hap序数不一样,这就是不同的hap取自原始读序的不同部分,所以hap差异数越大,表示这组型别组合可以得到原始读序的最大部分读序,也就越可信。
[0148] 计算规则,如果外显子对应的hap序数不一样,则加2;如果对应一样,则加1;如果type1存在而type2不存在,则减1;最后得分最大的就是最佳组合。
[0149] 以表4的数据为例,差异度结果如下:
[0150] G1-1*G2-1*G3-2*G4-1*G5-2&G1-2*G2-1*G3-1*G4-1*G5-1=8;
[0151] G1-2*G2-1*G3-1*G4-1*G5-1&G1-1*G2-2*G3-2*G4-1*G5-2=9;
[0152] G1-2*G2-1*G3-1*G4-1*G5-1&G1-2*G3-1*G4-1*G5-1=3。
[0153] 因此,最后选择type组合为G*01:01:01:01G*01:01:01:02G*01:01:01:03与G*01:04:01。
[0154] 本发明的主要优点包括:
[0155] (1)本发明方法和系统准确性高,对待测的数据要求比较低;
[0156] (2)本发明方法和系统对于信息的分析过程快速,操作简单;
[0157] (3)相对于现有的分型方法,大大提高了分型区域。
[0158] 下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件如Sambrook等人,分子克隆:实验室手册(New York:Cold Spring Harbor Laboratory Press,1989)中所述的条件,或按照制造厂商所建议的条件。
[0159] 实施例1
[0160] 4个样品总计102个基因的分型
[0161] 本实施例的目的:通过高通量测序技术对重测序数据或给予目标区域捕获数据进行MHC分型,确定SNP连锁性。
[0162] 1:构建MHC型别数据库
[0163] 构建方法:
[0164] 从网址http://www.ebi.ac.uk/imgt/hla下载最新的MHC型别对应的序列。
[0165] 选取与对照样本hg19/hg18对应坐标的序列作为参考序列,对MHC型别序列进行比对,得到相对于参考序列的差异位点即InDel和SNP。
[0166] 2:生成比对文件
[0167] 利用illuminla测序平台测序后得到下机数据,经过过滤低质量读序数和adapter污染的读序数后得到可利用的读序数。使用BWA比对软件和samtools软件为例来说明。
[0168] 通过BWA比对软件,将这些序列与hg19或hg18作为参考序列进行序列比对,经过aln和sampe两步,得到比对结果*.sam文件后,利用samtools工具包对*sam文件处理,包括排序,去重复,建立索引等处理得到*bam文件。
[0169] 3:挑出目标区域SNP&InDel信息
[0170] 从bam文件中得到目标基因的比对信息,同时,与不匹配的读序合并,作为目标基因原始的比对信息,将比对信息重新转为FQ文件。
[0171] 将FQ文件重新进行比对,比对参考序列改为目标基因对应的MHC型别,因为MHC多态性很高,部分读序在比对时被丢失掉,所以回收不匹配的读序重新进行比对,解决比对多态性问题。
[0172] 从比对后的最佳型别对应的SNP和InDel中得到每条读序的比对信息。
[0173] 4:根据读序的SNP和InDel信息进行连锁
[0174] 利用读序之间的overlap进行连锁,连锁原则,将读序上没有SNP和InDel的reads单独连锁。
[0175] 5:根据MHC型别数据库对连锁的Hap进行过滤以及连接
[0176] 利用MHC型别数据库对拼接完的序列进行整体过滤,如果不能匹配数据库,则所有的读序都被丢失。而剩下的hap被定义为可信的hap。
[0177] 6:对过滤得到的hap进行排序
[0178] 首先取出读序支持数最多的一条hap,定义为hap1,然后将剩余的hap与hap1取并集后排序。
[0179] 7:结合所有外显子得到最后型别
[0180] 将之前得到的hap以及hap对应的MHC型别转化为如下表5所示的格式:
[0181] 表5
[0182]外显子组合 型别
G1-1*G2-1*G3-2*G4-1*G5-2 G*01:04:03
G1-1*G2-2*G3-2*G4-1*G5-2 G*01:04:01
G1-2*G2-1*G3-1*G4-1*G5-1 G*01:01:01:01G*01:01:01:02G*01:01:01:03G1-2*G3-1*G4-1*G5-1 G*01:01:01:01G*01:01:01:02G*01:01:01:03G*01:02:01[0183] 其中G1表示G基因1号外显子,-1表示对应hap的排序数。
[0184] 首先确定最可信的type,定义为type1,利用打分对所有的type进行打分选出最可信type作为type1,结果如下:
[0185] G1-1*G2-1*G3-2*G4-1*G5-2=1
[0186] G1-1*G2-2*G3-2*G4-1*G5-2=1.5
[0187] G1-2*G2-1*G3-1*G4-1*G5-1=0
[0188] G1-2*G3-1*G4-1*G5-1=2
[0189] 选择G1-2*G2-1*G3-1*G4-1*G5-1对应的型别G*01:01:01:01G*01:01:01:02G*01:01:01:03作为最可信type(型别)。
[0190] 从剩余的type中选出type2,规则是将剩下的type与type1取差异度,差异度表示同一个基因同一个exon他们对应的hap序数不一样,这就是不同的hap取自原始读序的不同部分,所以hap差异数越大的表示这组型别组合可以得到原始读序的最大部分读序,也就是最可信了,差异度结果如下:
[0191] G1-1*G2-1*G3-2*G4-1*G5-2&G1-2*G2-1*G3-1*G4-1*G5-1=8;
[0192] G1-2*G2-1*G3-1*G4-1*G5-1&G1-1*G2-2*G3-2*G4-1*G5-2=9;
[0193] G1-2*G2-1*G3-1*G4-1*G5-1&G1-2*G3-1*G4-1*G5-1=3;
[0194] 所以最后选择type组合为G*01:01:01:01G*01:01:01:02G*01:01:01:03与G*01:04:01。
[0195] 8.综合上述步骤,4个样品总计102个基因的分型结果见表6。
[0196] 表6
[0197]
[0198]
[0199] 结果表明,本方法的正确率达到98%以上。
[0200] 在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。