高分辨率等位基因鉴定转让专利

申请号 : CN201480066695.1

文献号 : CN106103736B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 白玉W·弗瑞

申请人 : 瑞泽恩制药公司

摘要 :

本文提供了用于精确确定基因座处存在的等位基因的方法,所述方法可广泛适用于任何基因座,包括高度多态性基因座如HLA基因座、BGA基因座和HV基因座。所公开的方法的实施例可用于各种各样的应用,包括例如器官移植、个体化用药、诊断学、法医学和人类学。

权利要求 :

1.一种确定基因座处存在的等位基因的计算机实现方法,所述方法包括:

执行可产生包含受试者的基因座的核酸序列的扩增产物的核酸扩增过程,其中所述基因座包括一个或多个单核苷酸多态性(SNP);

对所述扩增产物执行测序过程,所述测序过程产生多个测序读段,其中所述多个测序读段包括35-100个碱基对的测序读段;

将所述多个测序读段映射至包含基因组序列和基因座的多个等位基因序列的参考序列以鉴定候选等位基因对;

对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及选择基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对为所述基因座处存在的等位基因。

2.根据权利要求1所述的方法,其中所述基因组序列为人基因组序列并且所述多个等位基因序列为人序列。

3.根据权利要求2所述的方法,其中所述基因组序列中的基因座的序列已被移除或屏蔽。

4.根据权利要求2所述的方法,其中所述人基因组序列为GRCh37/hg19。

5.根据权利要求1所述的方法,其中映射还包括:

将所述多个测序读段映射至参考序列,所述参考序列包含人基因组序列和所述基因座的所述多个等位基因序列;

将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;

将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;以及如果少于90%的映射至所述基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因。

6.根据权利要求1所述的方法,其中所述多个等位基因序列选自一组蛋白质群组。

7.根据权利要求5所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的等位基因鉴定为所述第二组候选等位基因的子集。

8.根据权利要求5所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因的测序读段的数目占映射至所述基因座的测序读段总数目的至少10%的话,才鉴定所述第三组候选等位基因。

9.根据权利要求1所述的方法,还包括接受序列数据,所述序列数据包括所述多个测序读段,其中所述序列数据包括基因组范围的测序数据。

10.根据权利要求9所述的方法,其中所述基因组范围的测序数据是转录组测序数据、全外显子组测序数据,或全基因组测序数据。

11.根据权利要求10所述的方法,其中所述序列数据的覆盖度为至少30倍。

12.根据权利要求10所述的方法,其中所述序列数据的覆盖度范围为30倍到100倍,并且其中所述多个测序读段来自DNA。

13.根据权利要求10所述的方法,其中所述序列数据的覆盖度范围为100倍到500倍,并且其中所述多个测序读段来自RNA。

14.根据权利要求10所述的方法,其中所述序列数据的覆盖度为1000倍,并且所述多个测序读段来自靶向序列。

15.根据权利要求1所述的方法,其中所述多个测序读段为双端测序读段。

16.根据权利要求1所述的方法,其中所述多个测序读段为单端测序读段。

17.根据权利要求1所述的方法,其中所述基因座是高度多态性基因座。

18.一种确定基因座处存在的等位基因的计算机实现方法,所述方法包括:

a)在计算机系统上接收受试者的序列数据,所述序列数据包含多个测序读段;

b)通过所述计算机系统,将所述多个测序读段映射至参考序列,

所述参考序列包含人基因组序列和基因座的多个等位基因序列;

c)通过所述计算机系统,将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;

d)通过所述计算机系统,将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;

e)如果少于90%的映射至所述基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则通过所述计算机系统,将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因;

f)对于每对候选等位基因,通过所述计算机系统确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

g)对于每对候选等位基因,通过所述计算机系统确定所述基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

h)对于每对候选等位基因,通过所述计算机系统,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及i)通过所述计算机系统,将所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对鉴定为所述基因座处存在的等位基因。

19.根据权利要求18所述的方法,其中所述多个等位基因序列选自一组肽群组。

20.根据权利要求18所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的等位基因鉴定为所述第二组候选等位基因的子集。

21.根据权利要求18所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因的测序读段的数目占映射至所述基因座的测序读段总数目的至少10%的话,才在步骤e)中鉴定所述第三组候选等位基因。

22.根据权利要求18所述的方法,其中所述基因组序列中的基因座的序列已被移除或屏蔽。

23.根据权利要求18所述的方法,其中所述人基因组序列为GRCh37/hg19。

24.根据权利要求18所述的方法,其中所述序列数据包括所述多个测序读段,其中所述序列数据包括基因组范围的测序数据。

25.根据权利要求24所述的方法,其中所述基因组范围的测序数据是转录组测序数据、全外显子组测序数据,或全基因组测序数据。

26.根据权利要求24所述的方法,其中所述序列数据的覆盖度少于60倍。

27.根据权利要求18所述的方法,其中所述测序读段的平均长度少于100个核苷酸。

28.根据权利要求18所述的方法,其中所述测序读段的平均长度少于50个核苷酸。

29.根据权利要求18所述的方法,其中步骤a)包括在产生所述序列数据之前对来自所述受试者的样品执行基因组范围的测序过程。

30.根据权利要求18所述的方法,其中步骤a)包括执行可产生包含所述受试者的所述基因座的核酸序列的扩增产物的核酸扩增过程,以及对所述扩增产物执行测序过程。

31.根据权利要求18至30中任一项所述的方法,其中所述基因座是高度多态性基因座。

32.根据权利要求18至30中任一项所述的方法,其中所述基因座为HLA基因座。

33.一种确定基因座处存在的等位基因的计算机系统,包括:

至少一个处理器;

与所述至少一个处理器相关联的存储器;

显示器;和

所述存储器中支持的用于确定基因座处存在的等位基因的程序,所述程序含有多个指令,当由所述至少一个处理器执行时,所述指令引起所述至少一个处理器:接收受试者的序列数据,所述序列数据包含多个测序读段,其中所述多个测序读段是通过以下方式产生的:执行可产生包含受试者的基因座的核酸序列的扩增产物的核酸扩增过程,其中所述基因座包括一个或多个单核苷酸多态性(SNP);

对所述扩增产物执行测序过程,所述测序过程产生多个测序读段,其中所述多个测序读段包括35-100个碱基对的测序读段;

将所述多个测序读段映射至包含基因组序列和所述基因座的多个等位基因序列的参考序列以鉴定候选等位基因对;

对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及选择基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对为所述基因座处存在的等位基因。

34.一种用于确定基因座处存在的等位基因的计算机程序产品,所述计算机程序产品存在于非临时性计算机可读介质之上,所述介质具有存储于其上的多个指令,当由计算机处理器执行时,所述指令引起所述计算机处理器:接收受试者的序列数据,所述序列数据包含多个测序读段,其中所述多个测序读段是通过以下方式产生:执行可产生包含受试者的基因座的核酸序列的扩增产物的核酸扩增过程,其中所述基因座包括一个或多个单核苷酸多态性(SNP);

对所述扩增产物执行测序过程,所述测序过程产生多个测序读段,其中所述多个测序读段包括35-100个碱基对的测序读段;

将所述多个测序读段映射至包含基因组序列和所述基因座的多个等位基因序列的参考序列以鉴定候选等位基因对;

对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及选择基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对为所述基因座处存在的等位基因。

35.一种确定基因座处存在的等位基因的计算机系统,包括:

至少一个处理器;

与所述至少一个处理器相关联的存储器;

显示器;和

所述存储器中支持的用于确定基因座处存在的等位基因的程序,所述程序含有多个指令,当由所述至少一个处理器执行时,所述指令引起所述至少一个处理器:a)接收受试者的序列数据,所述序列数据包含多个测序读段;

b)将所述多个测序读段映射至参考序列,所述参考序列包含人基因组序列和所述基因座的多个等位基因序列;

c)将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;

d)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;

e)如果少于90%的映射至所述基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因;

f)对于每对候选等位基因,确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

g)对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

h)对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及i)将所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对鉴定为所述基因座处存在的等位基因。

36.一种用于确定基因座处存在的等位基因的计算机程序产品,所述计算机程序产品存在于非临时性计算机可读介质之上,所述介质具有存储于其上的多个指令,当由计算机处理器执行时,所述指令引起所述计算机处理器:a)接收受试者的序列数据,所述序列数据包含多个测序读段;

b)将所述多个测序读段映射至参考序列,所述参考序列包含人基因组序列和所述基因座的多个等位基因序列;

c)将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;

d)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;

e)如果少于90%的映射至所述基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因;

f)对于每对候选等位基因,确定所述基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

g)对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

h)对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及i)将所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对鉴定为所述基因座处存在的等位基因。

37.一种确定受试者在线粒体DNA的高变区(HV)基因座处的基因型的方法,所述方法包括:执行可产生包含受试者的基因座的核酸序列的扩增产物的核酸扩增过程,其中所述基因座包括一个或多个单核苷酸多态性(SNP);

对所述扩增产物执行测序过程,所述测序过程产生多个测序读段,其中所述多个测序读段包括35-100个碱基对的测序读段;

通过所述计算机系统,将所述多个测序读段映射至包含基因组序列和所述HV基因座的多个HV等位基因序列的参考序列以鉴定候选等位基因对;

对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及通过所述计算机系统选择基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的一个或多个候选等位基因为所述HV基因座处的基因型。

38.根据权利要求37所述的方法,其中所述基因组序列为人基因组序列并且所述多个HV等位基因序列为人序列。

39.根据权利要求38所述的方法,其中所述基因组序列中的HV基因座的序列已被移除或屏蔽。

40.根据权利要求38所述的方法,其中所述人基因组序列为GRCh37/hg19。

41.根据权利要求37所述的方法,其中映射还包括:

将所述多个测序读段映射至所述参考序列,所述参考序列包含人基因组序列和所述HV基因座的所述多个HV等位基因序列;

将最大数目的测序读段映射至其上的HV等位基因鉴定为第一组候选等位基因;

将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的HV等位基因鉴定为第二组候选等位基因;以及如果少于90%的映射至所述HV基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HV等位基因鉴定为第三组候选等位基因。

42.根据权利要求37所述的方法,其中所述多个等位基因选自一组HV肽群组。

43.根据权利要求41所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述HV基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的HV等位基因鉴定为所述第二组候选等位基因的子集。

44.根据权利要求41所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HV等位基因的测序读段的数目占映射至所述HV基因座的测序读段总数目的至少10%的话,才鉴定所述第三组候选等位基因。

45.根据权利要求37所述的方法,还包括接受序列数据,所述序列数据包括所述多个测序读段,其中所述序列数据包括基因组范围的测序数据。

46.根据权利要求45所述的方法,其中所述基因组范围的测序数据是转录组测序数据、全外显子组测序数据,或全基因组测序数据。

47.根据权利要求46所述的方法,其中所述序列数据的覆盖度少于60倍。

48.根据权利要求37所述的方法,其中所述多个测序读段的平均长度少于100个核苷酸。

49.根据权利要求37所述的方法,其中所述多个测序读段的平均长度少于50个核苷酸。

50.根据权利要求37所述的方法,其中所述多个测序读段的平均长度少于40个核苷酸。

51.一种确定受试者在HLA基因座处的HLA类型的计算机实现方法,所述方法包括:执行可产生包含受试者的基因座的核酸序列的扩增产物的核酸扩增过程,其中所述基因座包括一个或多个单核苷酸多态性(SNP);

对所述扩增产物执行测序过程,所述测序过程产生多个测序读段,其中所述多个测序读段包括35-100个碱基对的测序读段;

通过所述计算机系统,将所述多个测序读段映射至包含基因组序列和所述HLA基因座的多个HLA等位基因序列的参考序列以鉴定候选等位基因对;

对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及通过所述计算机系统选择基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对为构成所述受试者在所述HLA基因座处的HLA类型的等位基因。

52.根据权利要求51所述的方法,其中所述基因组序列为人基因组序列并且所述多个HLA等位基因序列为人序列。

53.根据权利要求52所述的方法,其中所述基因组序列中的HLA基因座的序列已被移除或屏蔽。

54.根据权利要求52所述的方法,其中所述人基因组序列为GRCh37/hg19。

55.根据权利要求51所述的方法,其中映射还包括:

将所述多个测序读段映射至所述参考序列,所述参考序列包含人基因组序列和所述HLA基因座的多个HLA等位基因序列;

将最大数目的测序读段映射至其上的HLA等位基因鉴定为第一组候选等位基因;

将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的HLA等位基因鉴定为第二组候选等位基因;以及如果少于90%的映射至所述HLA基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因鉴定为第三组候选等位基因。

56.根据权利要求51所述的方法,其中所述多个HLA等位基因序列选自一组HLA肽群组。

57.根据权利要求55所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述HLA基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的HLA等位基因鉴定为所述第二组候选等位基因的子集。

58.根据权利要求55所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因的测序读段的数目占映射至所述HLA基因座的测序读段总数目的至少10%的话,才鉴定所述第三组候选等位基因。

59.根据权利要求51所述的方法,其中映射还包括:

i)将所述多个测序读段以低严格性映射至所述参考序列,所述参考序列包含人基因组序列和所述HLA基因座的多个HLA等位基因序列;

ii)将来自每个四位数蛋白质家族的所有等位基因鉴定为准候选等位基因,所述四位数蛋白质家族的至少一个等位基因属于所映射等位基因的前10%;

iii)将所述多个测序读段以更高严格性映射至第二参考序列,所述参考序列包含所述准候选等位基因;

iv)将最大数目的测序读段映射至其上的所述准候选等位基因鉴定为第一组候选等位基因;

v)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的所述准候选等位基因鉴定为第二组候选等位基因;以及vi)如果少于90%的映射至所述HLA基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的所述准候选等位基因鉴定为第三组候选等位基因。

60.根据权利要求59所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述HLA基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的HLA等位基因鉴定为所述第二组候选等位基因的子集。

61.根据权利要求59所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因的测序读段的数目占映射至所述HLA基因座的测序读段总数目的至少10%的话,才鉴定所述第三组候选等位基因。

62.根据权利要求51所述的方法,还包括接受序列数据,所述序列数据包括所述多个测序读段,其中所述序列数据包括基因组范围的测序数据。

63.根据权利要求62所述的方法,其中所述基因组范围的测序数据是转录组测序数据、全外显子组测序数据,或全基因组测序数据。

64.根据权利要求62所述的方法,其中所述序列数据的覆盖度少于60倍。

65.根据权利要求51所述的方法,其中所述测序读段的平均长度少于100个核苷酸。

66.根据权利要求51所述的方法,其中所述测序读段的平均长度少于50个核苷酸。

67.一种确定受试者在HLA基因座处的HLA类型的计算机实现方法,所述方法包括:a)在计算机系统上接收所述受试者的序列数据,所述序列数据包含多个测序读段;

b)通过所述计算机系统,将所述多个测序读段映射至参考序列,

所述参考序列包含人基因组序列和所述HLA基因座的多个HLA等位基因序列;

c)通过所述计算机系统,将最大数目的测序读段映射至其上的所述HLA等位基因鉴定为第一组候选等位基因;

d)通过所述计算机系统,将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的所述HLA等位基因鉴定为第二组候选等位基因;

e)如果少于90%的映射至所述HLA基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则通过所述计算机系统,将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的所述HLA等位基因鉴定为第三组候选等位基因;

f)对于每对候选等位基因,通过所述计算机系统确定所述HLA基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述HLA基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

g)对于每对候选等位基因,通过所述计算机系统确定所述HLA基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述HLA基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

h)对于每对候选等位基因,通过所述计算机系统,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及i)通过所述计算机系统,将所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对鉴定为所述受试者在所述HLA基因座处的HLA类型。

68.根据权利要求67所述的方法,其中所述多个HLA等位基因序列选自一组HLA肽群组。

69.根据权利要求67所述的方法,其中,如果在排除映射至所述第一组候选等位基因的测序读段之后,映射至所述HLA基因座的测序读段的数目大于映射至所述第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至所述第一组候选等位基因的测序读段的测序读段映射至其上的HLA等位基因鉴定为所述第二组候选等位基因的子集。

70.根据权利要求67所述的方法,其中如果映射至最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因的测序读段的数目占映射至所述HLA基因座的测序读段总数目的至少10%的话,才鉴定所述第三组候选等位基因。

71.根据权利要求67所述的方法,其中所述基因组序列中的HLA基因座的序列已被移除或屏蔽。

72.根据权利要求67所述的方法,其中所述人基因组序列为GRCh37/hg19。

73.根据权利要求67所述的方法,其中所述序列数据包括所述多个测序读段,其中所述序列数据包括基因组范围的测序数据。

74.根据权利要求73所述的方法,其中所述基因组范围的测序数据是转录组测序数据、全外显子组测序数据,或全基因组测序数据。

75.根据权利要求73所述的方法,其中所述序列数据的覆盖度少于60倍。

76.根据权利要求67所述的方法,其中所述多个测序读段的平均长度少于100个核苷酸。

77.根据权利要求67所述的方法,其中所述多个测序读段的平均长度少于50个核苷酸。

78.根据权利要求67所述的方法,其中接受所述序列数据包括在产生所述序列数据之前对来自所述受试者的样品执行基因组范围的测序过程。

79.根据权利要求67所述的方法,其中接受所述序列数据包括执行可产生包含所述受试者的所述HLA基因座的核酸序列的扩增产物的核酸扩增过程,以及对所述扩增产物执行测序过程。

80.一种用于确定受试者在HLA基因座处的HLA类型的计算机系统,包括:至少一个处理器;

与所述至少一个处理器相关联的存储器;

显示器;和

所述存储器中支持的用于确定受试者在HLA基因座处的HLA类型的程序,所述程序含有多个指令,当由所述至少一个处理器执行时,所述指令引起所述至少一个处理器:接收所述受试者的序列数据,所述序列数据包含多个测序读段,其中所述多个测序读段是通过以下方式产生的:执行可产生包含受试者的基因座的核酸序列的扩增产物的核酸扩增过程,其中所述基因座包括一个或多个单核苷酸多态性(SNP);

对所述扩增产物执行测序过程,所述测序过程产生多个测序读段,其中所述多个测序读段包括35-100个碱基对的测序读段;

将所述多个测序读段映射至包含基因组序列和所述HLA基因座的多个HLA等位基因序列的参考序列以鉴定候选等位基因对;

对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及选择基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对为构成所述受试者在所述HLA基因座处的HLA类型的等位基因。

81.一种用于确定受试者在HLA基因座处的HLA类型的计算机程序产品,所述计算机程序产品存在于非临时性计算机可读介质之上,所述介质具有存储于其上的多个指令,当由计算机处理器执行时,所述指令引起所述计算机处理器:接收所述受试者的序列数据,所述序列数据包含多个测序读段,其中所述多个测序读段是通过以下方式产生:执行可产生包含受试者的基因座的核酸序列的扩增产物的核酸扩增过程,其中所述基因座包括一个或多个单核苷酸多态性(SNP);

对所述扩增产物执行测序过程,所述测序过程产生多个测序读段,其中所述多个测序读段包括35-100个碱基对的测序读段;

将所述多个测序读段映射至包含基因组序列和所述HLA基因座的多个HLA等位基因序列的参考序列以鉴定候选等位基因对;

对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及选择基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对为构成所述受试者在所述HLA基因座处的HLA类型的等位基因。

82.一种用于确定受试者在HLA基因座处的HLA类型的计算机系统,包括:至少一个处理器;

与所述至少一个处理器相关联的存储器;

显示器;和

所述存储器中支持的用于确定受试者在HLA基因座处的HLA类型的程序,所述程序含有多个指令,当由所述至少一个处理器执行时,所述指令引起所述至少一个处理器:a)接收所述受试者的序列数据,所述序列数据包含多个测序读段;

b)将所述多个测序读段映射至参考序列,所述参考序列包含人基因组序列和所述HLA基因座的多个HLA等位基因序列;

c)将最大数目的测序读段映射至其上的HLA等位基因鉴定为第一组候选等位基因;

d)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的HLA等位基因鉴定为第二组候选等位基因;

e)如果少于90%的映射至所述HLA基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因鉴定为第三组候选等位基因;

f)对于每对候选等位基因,确定所述HLA基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述HLA基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

g)对于每对候选等位基因,确定所述HLA基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述HLA基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

h)对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及i)将所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对鉴定为所述受试者在所述HLA基因座处的HLA类型。

83.一种用于确定受试者在HLA基因座处的HLA类型的计算机程序产品,所述计算机程序产品存在于非临时性计算机可读介质之上,所述介质具有存储于其上的多个指令,当由计算机处理器执行时,所述指令引起所述计算机处理器:a)接收所述受试者的序列数据,所述序列数据包含多个测序读段;

b)将所述多个测序读段映射至参考序列,所述参考序列包含人基因组序列和所述HLA基因座的多个HLA等位基因序列;

c)将最大数目的测序读段映射至其上的HLA等位基因鉴定为第一组候选等位基因;

d)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的HLA等位基因鉴定为第二组候选等位基因;

e)如果少于90%的映射至所述HLA基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因鉴定为第三组候选等位基因;

f)对于每对候选等位基因,确定所述HLA基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述HLA基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

g)对于每对候选等位基因,确定所述HLA基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述HLA基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

h)对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为所述候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及i)将所述基因型对数似然分值、所述相位对数似然分值和所述频率对数似然分值之和最高的候选等位基因对鉴定为所述受试者在所述HLA基因座处的HLA类型。

84.一种确定基因座处存在的等位基因的方法,所述方法包括:

在计算机系统上接收受试者的序列数据,所述序列数据包含多个测序读段,其中所述多个测序读段是通过以下方式产生:执行可产生包含受试者的基因座的核酸序列的扩增产物的核酸扩增过程,其中所述基因座包括一个或多个单核苷酸多态性(SNP);

对所述扩增产物执行测序过程,所述测序过程产生多个测序读段,其中所述多个测序读段包括35-100个碱基对的测序读段;

通过所述计算机系统,将所述多个测序读段映射至包含所述基因座的多个等位基因序列的参考序列以鉴定候选等位基因对;

对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及通过所述计算机系统选择基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对为所述基因座处存在的等位基因。

85.根据权利要求84所述的方法,其中映射包括由所述计算机系统执行的如下步骤:i)将所述多个测序读段映射至所述参考序列,所述参考序列包含人基因组序列和所述基因座的所述多个等位基因序列;

ii)将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;

iii)将最大数目的除了映射至所述第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;以及iv)如果少于90%的映射至所述基因座的测序读段映射至所述第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至所述第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因。

86.一种用于确定高变区(HV)基因座处的基因型的计算机系统,包括:

至少一个处理器;

与所述至少一个处理器相关联的存储器;

显示器;和

所述存储器中支持的用于确定受试者在线粒体DNA的高变区(HV)基因座处的基因型的程序,所述程序含有多个指令,当由所述至少一个处理器执行时,所述指令引起所述至少一个处理器:在计算机系统上接收受试者的序列数据,所述序列数据包含多个测序读段,其中所述多个测序读段是通过以下方式产生的:执行可产生包含受试者的基因座的核酸序列的扩增产物的核酸扩增过程,其中所述基因座包括一个或多个单核苷酸多态性(SNP);

对所述扩增产物执行测序过程,所述测序过程产生多个测序读段,其中所述多个测序读段包括35-100个碱基对的测序读段;

将所述多个测序读段映射至包含基因组序列和所述HV基因座的多个HV等位基因序列的参考序列以鉴定候选等位基因对;

对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及选择基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的一个或多个候选等位基因为所述HV基因座处存在的基因型。

87.一种用于确定受试者在线粒体DNA的高变区(HV)基因座处的基因型的计算机程序产品,所述计算机程序产品存在于非临时性计算机可读介质之上,所述介质具有存储于其上的多个指令,当由计算机处理器执行时,所述指令引起所述计算机处理器:在计算机系统上接收受试者的序列数据,所述序列数据包含多个测序读段,其中所述多个测序读段是通过以下方式产生:执行可产生包含受试者的基因座的核酸序列的扩增产物的核酸扩增过程,其中所述基因座包括一个或多个单核苷酸多态性(SNP);

对所述扩增产物执行测序过程,所述测序过程产生多个测序读段,其中所述多个测序读段包括35-100个碱基对的测序读段;将所述多个测序读段映射至包含基因组序列和所述HV基因座的多个HV等位基因序列的参考序列以鉴定候选等位基因对;

对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;

对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;

对于每对候选等位基因,确定频率对数似然分值,所述频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及选择基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的一个或多个候选等位基因对为所述HV基因座处的基因型。

说明书 :

高分辨率等位基因鉴定

[0001] 相关专利申请
[0002] 本申请要求于2013年10月15日提交的临时专利申请No.61/891,193的优先权,该临时专利申请以引用的方式全文并入。

背景技术

[0003] 虽然大多数的人基因组由基本上整个人类种群所共有的保守序列构成,但是基因组的小的但是重要的一部分是高度可变的。这些序列差异并未均匀散布在整个基因组中。而是,某些基因组区域(“基因座”)比其他区域含有更多的序列变异(“多态性”)。特定基因座处的具体核苷酸序列(即该基因座处存在的等位基因)的种类可具有重要的生物学意义。
例如,个体在特定基因座所携带的等位基因可影响个体是否对疾病具有易感性或者是否治疗剂有可能有效。此外,有关高度多态性基因座处的等位基因的种类的知识可用于追踪生物样品的种族起源和/或地理起源,这对人类学家来说可能是非常有价值的并且这在法医学上可用于将个体与生物样品联系起来。考虑到下一代测序技术的可用性不断增加,将下一代测序数据用于等位基因鉴定的前景颇具吸引力。遗憾的是,利用测序数据来精确且有效地鉴定高度多态性基因座处存在的等位基因是有挑战性的,尤其是在测序数据是使用高通量的基因组范围的测序方法来生成时。
[0004] 对高度精确的等位基因预测方法存在需求的一套高度多态性基因座是那些编码人白细胞抗原(HLA)蛋白的基因座。HLA蛋白将抗原肽递呈给淋巴细胞以便介导关键的免疫学事件,包括自体抗原耐受和对病原体或肿瘤的免疫应答。I类HLA由所有有核细胞遍在表达,将胞质抗原递呈给细胞毒性T细胞。II类HLA主要由免疫细胞表达,将胞外抗原递呈给辅助T细胞。
[0005] 人类具有六种主要的HLA蛋白,即三种I类蛋白(HLA-A、HLA-B和HLA-C)和三种II类蛋白(HLA-DQ、HLA-DR和HLA-DP)。每种I类蛋白由单个HLA基因座(例如,HLA-A基因座、HLA-B基因座和HLA-C基因座)编码。另一方面,II类蛋白为由α链和β链构成的异型二聚体,这两条链每一者由其自己的HLA基因座(例如,HLA-DQA1基因座、HLA-DQB1基因座、HLA-DRA基因座、HLA-DRB1基因座、HLA-DRB3基因座、HLA-DRB4基因座、HLA-DRB5基因座、HLA-DPA1基因座和HLA-DPB1基因座)编码。在人类中,主要HLA基因座(I类和II类二者)每一者均存在于染色体6上。由于人类是二倍体生物,所以人类携带两个拷贝的染色体6,并因而携带两个拷贝的每种HLA基因座。
[0006] HLA基因座是高度多态性的。HLA基因座中的多态性通常导致HLA蛋白的氨基酸序列中存在差异。这种HLA多样性使得在群体内能将宽泛范围的不同抗原递呈给免疫细胞。然而,HLA序列中的这些变异也会导致个体之间器官和组织的组织不相容性,极大地增加了外科移植手术的复杂性。如果由移植的器官或组织表达的HLA蛋白被移植接收者的免疫系统识别为外来物的话,则可能的结果是器官排斥。类似地,包括转移将移植接收者中的细胞所表达的HLA蛋白识别为外来物的免疫细胞的移植可导致移植物抗宿主病。如果存在于有前景的供应者和接收者的HLA基因座处的等位基因编码匹配的HLA蛋白的话,则会在最大可能性程度上降低移植物抗宿主病以及器官或组织排斥的风险。为了确定是否存在匹配,有必要确定供应者和接收者中的HLA基因座处存在哪种HLA等位基因,这是称为HLA分型的方法。
个体在HLA基因座处的HLA类型由存在于该个体两个拷贝的HLA基因座处的两个HLA等位基
因(或如果是纯合子的话,两个拷贝的单种HLA等位基因)构成。
[0007] 也越来越认识到HLA类型在许多疾病中发挥重要作用。例如,某些HLA类型与自身免疫障碍(包括狼疮、炎性肠病、多发性硬化症、关节炎和I型糖尿病)之间存在着强的关联性(例如,Graham等人,Eur.Hum.Genet.《( 欧洲人类遗传杂志》)15:823-830(2007);Fu等人,J.Autoimmun.(《自身免疫杂志》)37:104-112(2011);Cassinotti等人,Am.J.Gastroenterol(《美国胃肠道杂志》)104:195-217(2009);Luckey等人,J.Autoimmun.(《自身免疫杂志》)37:122-128(2011);Lemire,M.,BMC Proc.(《BMC汇刊》)7:S33(2009);
Noble等人,Curr.Diab.Rep.(《现代糖尿病报道》)11:533-542(2011),特此将这些参考文献每一者以引用的方式全文并入)。举个例子,II类HLA DQA1*02:01(DQ2)和DRB1*03:01(DR3)常常存在于全身性红斑狼疮患者中并且与疾病易感性显著相关联(Graham等人,
Eur.Hum.Genet.(《欧洲人类遗传学杂志》)15:823-830(2007))。其他II类HLA蛋白的存在也与乳腺癌和宫颈癌的耐受性或易感性相关(例如,Chaudhuri等人,Proc.Nuc.Acad.Sci.USA(《美国科学院院刊》)97:11451-11454(2000);Garcia-Corona等人,Arch.Dermatol《皮肤病学纪要》.140:1227-1231(2004),特此将这些文献的每一者全文以引用的方式并入)。
[0008] HLA分子的发病机理和治疗适应症凸显了对精确且有效的HLA分型方法的需求。过去,HLA类型通过区分“两位数(two-digit)”抗原组团以低分辨率解析,“两位数”抗原组近似于肽结合中的血清学特异性。然而,对于许多应用,两位数HLA分型是不够的。例如,具有相同两位数类型的两种HLA蛋白质之间的单氨基酸差异可导致改变的T细胞识别特异性和组织排斥(例如,Archbold等人,Trends Immunol.(《免疫性趋势》)29:220-226(2008);
Tynan等人,Nat.Immunol.(《自然免疫学》)6:1114-1122(2005);Fleischhauer等人,N Eng.J.Med.(《新英格兰医学杂志》)323:1818-1822(1990),特此将这些参考文献的每一者以引用的方式全文并入)。因此,在氨基酸序列水平上的高分辨率HLA分型(也称为“四位数”分型)可能是关键的。例如,以高分辨率解析HLA类型可实质上改善不相关脐带血移植中以及癌症疫苗接种试验中的临床结果(Nagorson等人,Cancer Immunol.Immunother.(《癌免疫学和免疫疗法》)57:1903-1910(2008);Liao等人,Bone Marrow Transplant.(《骨髓移植》)40:201-208(2007),特此将这些参考文献的每一者以引用的方式全文并入)。
[0009] HLA基因座的高度多态性性质使得精确、高分辨率分型存在相当大的挑战,尤其是以高通量进行分型时。在人种群中,主要的I类和II类HLA基因座处存在超过7527种四位数HLA等位基因。能够以四位数分辨率解析HLA类型的现有HLA分型方法(如通过测序特异性引物(SSP)进行的群组特异性PCR(group specific PCR by sequencing specific priming))和基于序列的分型(sequence-based typing,SBT))具有低的通量。其他提出的分型策略通过PCR扩增特异性地靶向HLA基因座,然后进行深度测序。这种方法要求长的读段和高的覆盖度(深度)以便产生对四位数HLA等位基因的精确赋值。由于费用和效率的考虑,基因组范围的测序(如转录组测序或全外显子/基因组测序)通常产生短很多的读段(<
100个碱基)和低很多的覆盖度。这些读段长度和覆盖度局限性降低了试图将基因组范围的测序方法用于HLA分型的当前方法的精确度。具体而言,据报道,利用短读段测序的当前方法的四位数HLA类型鉴定的精确度介于32%到84%之间(例如,Boegel等人,Genome Med.(《基因组医学》)4:102(2013);Kim和Pourmand PLoS One((《公共科学图书馆·综合》),8:
e67885(2013))。
[0010] 鉴于以上所述,存在对新方法的需求,这种新方法利用多样的测序数据(包括具有短的读段长度和低的序列覆盖度的数据)精确且有效地鉴定基因座处存在的等位基因。

发明内容

[0011] 在一些方面,本文提供用于精确地确定基因座处存在的等位基因(例如,确定HLA基因座处的HLA类型)的方法(包括计算机实现的方法)、计算机程序和计算机系统。本文还提供用于移植器官、组织或细胞的方法、用于防止移植排斥的方法和/或用于防止移植物抗宿主病的方法。
[0012] 在一些方面,本文提供用于确定一个或多个基因座(例如,受试者、样品、器官、组织和/或细胞中的基因座)处的等位基因的计算机实现的方法。在一些实施例中,基因座是HLA基因座。在一些实施例中,基因座是线粒体高变区(HV)基因座(例如,HV1基因座或HV2基因座)。在一些实施例中,基因座是血型抗原(BGA)基因座。在一些实施例中,基因座是中度多态性基因座(即平均每100个核苷酸长度具有至少1个SNP的基因座)、高度多态性基因座(即平均每20个核苷酸长度具有至少1个SNP的基因座)或极高度多态性基因座(即平均每10个核苷酸长度具有至少1个SNP的基因座)。
[0013] 在一些实施例中,基因座平均每100个碱基含有:1个或更多个但少于20个SNP、2个或更多个但少于20个SNP、3个或更多个但少于20个SNP、4个或更多个但少于20个SNP、5个或更多个但少于20个SNP、6个或更多个但少于20个SNP、7个或更多个但少于20个SNP、8个或更多个但少于20个SNP、9个或更多个但少于20个SNP、10个或更多个但少于20个SNP、11个或更多个但少于20个SNP、12个或更多个但少于20个SNP、13个或更多个但少于20个SNP、14个或更多个但少于20个SNP、15个或更多个但少于20个SNP、16个或更多个但少于20个SNP、17个或更多个但少于20个SNP、18个或更多个但少于20个SNP或19个或更多个但少于20个SNP。
[0014] 在多个实施例中,中度多态性基因座平均每100个碱基含有:1个或更多个但少于5个SNP、2个或更多个但少于5个SNP、3个或更多个但少于5个SNP或4个或更多个但少于5个SNP。在多个实施例中,中度多态性基因座平均每100个碱基含有:约1-2个SNP、2-3个SNP或约3-4个SNP。
[0015] 在多个实施例中,高度多态性基因座平均每100个碱基含有:每100个核苷酸长度5个或更多个但少于10个SNP、6个或更多个但少于10个SNP、7个或更多个但少于10个SNP、8个或更多个但少于10个SNP、9个或更多个但少于10个SNP。在多个实施例中,高度多态性基因座平均每100个碱基含有:约5-6个SNP、约6-7个SNP、约7-8个SNP或约8-9个SNP。
[0016] 在多个实施例中,极高度多态性基因座平均每100个碱基含有:10个或更多个但少于20个SNP、11个或更多个但少于20个SNP、12个或更多个但少于20个SNP、13个或更多个但少于20个SNP、14个或更多个但少于20个SNP、15个或更多个但少于20个SNP、16个或更多个但少于20个SNP、17个或更多个但少于20个SNP、18个或更多个但少于20个SNP或19个或更多个但少于20个SNP。在一个实施例中,极高度多态性基因座平均每100个碱基含有:约10-11个SNP、约11-12个SNP、约12-13个SNP、约13-14个SNP、约14-15个SNP、约15-16个SNP、约16-17个SNP、约17-18个SNP或约18-19个SNP。在一个实施例中,极高度多态性基因座平均每100个碱基含有约20个SNP。
[0017] 在一些实施例中,该计算机实现方法包括:a)在计算机系统上接收序列数据,该序列数据包含多个测序读段;b)通过该计算机系统,将测序读段映射至包含基因座的多个等位基因的参考序列以鉴定候选等位基因;以及c)通过该计算机系统,将最有可能说明映射至基因座的测序读段的候选等位基因对鉴定为存在于该基因座处的等位基因。在一些实施例中,等位基因是HLA等位基因、HV等位基因或BGA等位基因,并且基因座是HLA基因座、HV基因座或BGA基因座。在一些实施例中,存在于基因座处的等位基因构成该基因座处的HLA类型。在一些实施例中,参考序列还包括基因组序列(例如,基因座被屏蔽或移除的基因组序列)。在一些实施例中,等位基因和序列是人类的。
[0018] 在一些实施例中,上述方法的步骤b)包括由计算机系统执行的如下步骤:i)将测序读段映射至参考序列,该参考序列包含基因组序列和基因座的多个等位基因序列;ii)将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;iii)将最大数目的除了映射至第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;以及iv)如果少于90%的映射至基因座的测序读段映射至第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因。在一些实施例中,鉴定的等位基因选自一组蛋白质群组。术语“蛋白质群组”包括编码具有相同氨基酸序列的同一蛋白质的一组等位基因。在一些实施例中,如果映射至基因座的测序读段(排除映射至第一组候选等位基因的测序读段)大于映射至第一组候选等位基因的测序读
段的数目的1%的话,第二组候选等位基因既包括最大数目的除了映射至第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因,又包括第二最大数目的测序读段(未排除映射至第一组候选等位基因的测序读段)映射至其上的等位基因。在一些实施例
中,如果映射至最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因的测序读段的数目占映射至基因座的测序读段总数目的至少
10%的话,才在步骤iv)中鉴定第三组候选等位基因。
[0019] 在一些实施例中,上述方法的步骤b)包括由计算机系统执行的如下步骤:i)将测序读段以低严格性映射至参考序列,该参考序列包含人基因组序列和基因座的多个等位基因序列;ii)将来自每个四位数蛋白质家族的所有等位基因鉴定为准候选(pre-candidate)等位基因,所述四位数蛋白质家族的至少一个等位基因属于所映射等位基因的前10%;iii)将测序读段以更高严格性映射至参考序列,该参考序列包含所述准候选等位基因;iv)将最大数目的测序读段映射至其上的准候选等位基因鉴定为第一组候选等位基因;v)将最大数目的除了映射至第一组候选等位基因的测序读段之外的测序读段映射至其上的准候
选等位基因鉴定为第二组候选等位基因;以及vi)如果少于90%的映射至基因座的测序读段映射至第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的准候选等位基因鉴定为第三组
候选等位基因。在一些实施例中,鉴定的等位基因选自一组蛋白质群组。在一些实施例中,如果映射至基因座的测序读段(排除映射至第一组候选等位基因的测序读段)大于映射至
第一组候选等位基因的测序读段的数目的1%的话,第二组候选等位基因既包括最大数目的除了映射至第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因,又包括第二最大数目的测序读段(未排除映射至第一组候选等位基因的测序读段)映射至其
上的等位基因。在一些实施例中,如果映射至最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因的测序读段的数目占映射至
HLA基因座的测序读段总数目的至少10%的话,才鉴定第三组候选等位基因。
[0020] 在一些实施例中,最有可能说明测序读段的候选等位基因对是这样的候选等位基因对,其最有可能说明:i)存在于映射至候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);以及ii)存在于映射至候选等位基因的测序读段中的连续的成对SNP。一些实施例中,最有可能说明测序读段的候选等位基因对是这样的候选等位基因对,其最有可能说明:i)存在于映射至候选等位基因的测序读段中的独立的SNP;ii)存在于映射至候选等位基因的测序读段中的连续SNP对;以及iii)候选等位基因对在序列数据的来源生物体中(如人类中)的频率。
[0021] 在一些实施例中,最有可能说明测序读段的候选等位基因对通过如下方式确定:i)对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;
以及ii)对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率,其中基因型对数似然分值和相位对数似然分值之和最高的候选等位基因对为最有可能说明测序读段的候选等位基因对。
[0022] 在一些实施例中,最有可能说明测序读段的候选等位基因对通过如下方式确定:i)对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;
ii)对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP
处存在的序列的对数概率;以及iii)对于每对候选等位基因,确定频率对数似然分值,频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之
和,其中基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对为最有可能说明测序读段的候选等位基因对。
[0023] 在一些方面,本文提供一种计算机实现的方法,该方法包括:a)在计算机系统上接收序列数据,该序列数据包含多个测序读段;b)通过该计算机系统,将测序读段映射至参考序列,参考序列包含基因组序列和基因座的多个等位基因序列;d)通过该计算机系统,将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;e)如果少于90%的映射至基因座的测序读段映射至第一组或第二组候选等位基因的等位基因,则通过该计算机系统,将最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因;f)对于每对候选等位基因,通过该计算机系统,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;g)对于每对候选等位基因,通过该计算机系统,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;h)对于每对候选等位基因,通过该计算机系统,确定频率对数似然分值,频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及i)通过该计算机系统,将基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对鉴定为该基因座处存在的等位基因。在一些实施例中,鉴定的等位基因选自一组蛋白质群组。在一些实施例中,如果映射至基因座的测序读段(排除映射至第一组候选等位基因的测序读段)大于映射至第一组候选等位基因的测
序读段的数目的1%的话,第二组候选等位基因既包括最大数目的除了映射至第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因,又包括第二最大数目的测序读段(未排除映射至第一组候选等位基因的测序读段)映射至其上的等位基因。在一些实施例中,等位基因是HLA等位基因、HV等位基因或BGA等位基因,并且基因座是HLA基因座、HV基因座或BGA基因座。在一些实施例中,存在于基因座处的等位基因构成该基因座处的HLA类型。在一些实施例中,等位基因和序列是人类的。在一些实施例中,如果映射至最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因
的测序读段的数目占映射至基因座的测序读段总数目的至少10%的话,才在步骤e)中鉴定第三组候选等位基因。
[0024] 在本文提供的计算机实现方法的一些实施例中,序列数据是基因组范围的(genome-wide)测序数据。在一些实施例中,基因组范围的测序数据是转录组测序数据、全外显子组测序数据或全基因组测序数据。在一些实施例中,序列数据的覆盖度低于60倍、50倍、40倍、30倍、20倍或15倍。在一些实施例中,序列数据的覆盖度高于60倍。在一些实施例中,测序读段的平均长度少于100个、90个、80个、70个、60个、50个、45个、40个或35个核苷酸。在一些实施例中,测序读段的长度大于100个核苷酸。
[0025] 在本文提供的计算机实现方法的某些实施例中,参考序列包括人基因组序列。在一些实施例中,基因组序列中的基因座(例如,HLA基因座)的序列已被移除或屏蔽。在一些实施例中,人基因组序列为GRCh37/hg19。
[0026] 在一些实施例中,本文所述的方法包括对样品进行基因组范围的测序过程以产生序列数据的步骤。在一些实施例中,本文所述的方法包括执行可产生包含基因座的核酸序列的扩增产物的核酸扩增过程,以及对该扩增产物执行测序过程。
[0027] 在一些实施例中,本文提供的方法包括向接受者移植HLA基因座处的HLA类型匹配该受试者在HLA基因座处的HLA类型的细胞、组织或器官。在一些实施例中,执行本文提供的计算机实现方法来确定接受者在HLA基因座处的HLA类型。在一些实施例中,执行本文提供的计算机实现方法来确定细胞、组织或器官在HLA基因座处的HLA类型。在一些实施例中,执行本文提供的计算机实现方法来确定细胞、组织或器官与接受者二者在HLA基因座处的HLA类型。
[0028] 在一些方面,本文提供用于执行本文提供的计算机实现方法的计算机系统。在一些实施例中,该计算机系统包括:至少一个处理器;与所述至少一个处理器关联的存储器;显示器;和所述存储器中支持的用于确定基因座处的等位基因(例如,HLA基因座处的HLA类型)的程序,该程序含有多个指令,当由所述至少一个处理器执行时,这些指令引起所述至少一个处理器执行本文提供的计算机实现方法。在一些实施例中,这些指令在由至少一个处理器执行时,引起所述至少一个处理器:a)接收序列数据,该序列数据包含多个测序读段;b)将测序读段映射至包含基因座的多个等位基因的参考序列以鉴定候选等位基因;以及c)将最有可能说明映射至基因座的测序读段的候选等位基因对鉴定为存在于该基因座
处的等位基因。在一些实施例中,这些指令在由至少一个处理器执行时,引起所述至少一个处理器:a)接收序列数据,该序列数据包含多个测序读段;b)将测序读段映射至参考序列,该参考序列包含人基因组序列和基因座的多个等位基因序列;c)将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;d)将最大数目的除了映射至第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;
e)如果少于90%的映射至基因座的测序读段映射至第一组或第二组候选等位基因的等位
基因,则将最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因;f)对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;g)对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;h)对于每对候选等位基因,确定频率对数似然分值,频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;以及i)将基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对鉴定为该基因座处存在的等位基
因。在一些实施例中,鉴定的等位基因选自一组蛋白质群组。在一些实施例中,等位基因是HLA等位基因、HV等位基因或BGA等位基因,并且基因座是HLA基因座、HV基因座或BGA基因座。在一些实施例中,如果映射至基因座的测序读段(排除映射至第一组候选等位基因的测序读段)大于映射至第一组候选等位基因的测序读段的数目的1%的话,第二组候选等位基因既包括最大数目的除了映射至第一组候选等位基因的测序读段之外的测序读段映射至
其上的等位基因,又包括第二最大数目的测序读段(未排除映射至第一组候选等位基因的测序读段)映射至其上的等位基因。在一些实施例中,如果映射至最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因的测序读段的
数目占映射至基因座的测序读段总数目的至少10%的话,才鉴定第三组候选等位基因。在一些实施例中,存在于基因座处的等位基因构成该基因座处的HLA类型。在一些实施例中,参考序列还包括基因组序列(例如,基因座被屏蔽或移除的基因组序列)。在一些实施例中,等位基因和序列是人类的。
[0029] 在一些方面,本文提供用于确定基因座处存在的等位基因的计算机程序产品。在一些实施例中,该计算机程序产品存在于非临时性计算机可读介质之上,该介质上存储有多个指令,当由计算机处理器执行时,这些指令引起该计算机处理器执行本文提供的计算机实现方法。在某些实施例中,所述多个指令在由计算机处理器执行时,引起该计算机处理器:a)接收序列数据,该序列数据包含多个测序读段;b)将测序读段映射至包含基因座的多个等位基因的参考序列以鉴定候选等位基因;以及c)将最有可能说明映射至基因座的测序读段的候选等位基因对鉴定为存在于该基因座处的等位基因。在某些实施例中,所述多个指令在由计算机处理器执行时,引起该计算机处理器:a)接收序列数据,该序列数据包含多个测序读段;b)将测序读段映射至参考序列,该参考序列包含人基因组序列和基因座的多个等位基因序列;c)将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;d)将最大数目的除了映射至第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因;e)如果少于90%的映射至基因座的测序读段映射至第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因;f)对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对
数概率;g)对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;h)对于每对候选等位基因,确定频率对数似然分值,频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之
和;以及i)将基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对鉴定为该基因座处存在的等位基因。在一些实施例中,鉴定的等位基因选自一组蛋白质群组。在一些实施例中,如果映射至基因座的测序读段(排除映射至第一组候选等位基因的测序读段)大于映射至第一组候选等位基因的测序读段的数目的1%的话,第二组候选等位基因既包括最大数目的除了映射至第一组候选等位基因的测序读段之外的测
序读段映射至其上的等位基因,又包括第二最大数目的测序读段(未排除映射至第一组候选等位基因的测序读段)映射至其上的等位基因。在一些实施例中,如果映射至最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因
的测序读段的数目占映射至基因座的测序读段总数目的至少10%的话,才鉴定第三组候选等位基因。
[0030] 在一些方面,本文提供确定受试者在单倍体DNA的基因座(例如,线粒体DNA的高变区(HV)基因座)处的基因型。在一些实施例中,该方法包括:a)在计算机系统上接收序列数据,该序列数据包含多个测序读段;b)通过该计算机系统,将测序读段映射至包含基因座的多个等位基因的参考序列以鉴定候选等位基因;以及c)通过该计算机系统,将最有可能说明映射至基因座的测序读段的一个或多个候选等位基因鉴定为存在于该基因座处的等位基因。在一些实施例中,等位基因是HV等位基因,基因座是HV基因座。在一些实施例中,存在于基因座处的等位基因构成该基因座处的基因型。在一些实施例中,参考序列还包括基因组序列(例如,基因座被屏蔽或移除的基因组序列)。在一些实施例中,等位基因和序列是人类的。在一些实施例中,所述方法包括由计算机系统执行的如下步骤:i)将测序读段映射至参考序列,该参考序列包含人基因组序列和基因座的多个等位基因序列;ii)将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因;iii)将最大数目的除了映射至第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组
候选等位基因;以及iv)如果少于90%的映射至基因座的测序读段映射至第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因。在一些实施例中,鉴定的等位基因选自一组蛋白质群组。在一些实施例中,如果在排除映射至第一组候选等位基因的测序读段之后,映射至基因座的测序读段的数目大于映射至第一组候选等位基因的测序读段的数目的1%,则进一步将第二大数目的未排除映射至第一组候选等位基因的测序读段的测序读段映射至其上的等位基因鉴定为第二组候选等位基因的子集。在一些实施例中,如果映射至最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因的测序读段的数目占映射至基因座的测序读段总数目的至
少10%的话,才在步骤iv)中鉴定第三组候选等位基因。
[0031] 在一些实施例中,最有可能说明测序读段的一个或多个候选等位基因是这样的一个或多个候选等位基因,其最有可能说明:i)存在于映射至候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);以及ii)存在于映射至候选等位基因的测序读段中的连续的成对SNP。
[0032] 在一些实施例中,最有可能说明测序读段的一个或多个候选等位基因是这样的一个或多个候选等位基因,其最有可能说明:i)存在于映射至候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);ii)存在于映射至候选等位基因的测序读段中的连续的成对SNP;以及iii)该候选等位基因对在人类中的频率。在一些实施例中,最有可能说明测序读段的一个或多个候选等位基因通过如下方式确定:i)对于每个独立的候选等位基因以及每个候选等位基因组合,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述独立的候选等位基因或候选等位基因组合可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;以及ii)对于每个独立的候选等位基因以及每个候选等位基因组合,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述独立的候选等位基因或候选等位基因组合可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处
存在的序列的对数概率,其中基因型对数似然分值和相位对数似然分值之和最高的独立候选等位基因或候选等位基因组合为最有可能说明测序读段的一个或多个候选等位基因。
[0033] 在一些实施例中,最有可能说明测序读段的候选等位基因对通过如下方式确定:i)对于每个独立的候选等位基因以及每个候选等位基因组合,确定基因座中的每个独立
SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述独立的候选等位基因或候选等位基因组合可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;ii)对于每个独立的候选等位基因以及每个候选等位基因组合,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述独立的候选等位基因或候选等位基因组合可以说明映射至所述连续的成对
SNP的测序读段中的连续成对SNP处存在的序列的对数概率;以及iii)对于每个独立的候选等位基因以及每个候选等位基因组合,确定频率对数似然分值,频率对数似然分值为每个独立的候选等位基因和每个候选等位基因组合存在于人种群中的频率的对数之和;其中基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的独立候选等位基因或候选等位基因组合为最有可能说明测序读段的一个或多个候选等位基因。
[0034] 在一些方面,本文提供移植器官、组织或细胞给受试者、防止移植排斥和/或防止移植物抗宿主病的方法。在一些实施例中,该方法包括:a)获得受试者的序列数据,该序列数据包含多个测序读段;b)将测序读段映射至包含HLA基因座的多个HLA等位基因序列的参考序列以鉴定候选等位基因;c)将最有可能说明映射至HLA基因座的测序读段的候选等位基因对鉴定为构成受试者在HLA基因座处的HLA类型的等位基因;以及d)给受试者移植在HLA基因座处的HLA类型匹配该受试者在HLA基因座处的HLA类型的器官、组织或细胞。在一些实施例中,该方法包括:a)获得器官、组织或细胞的序列数据,该序列数据包含多个测序读段;b)将测序读段映射至包含HLA基因座的多个HLA等位基因序列的参考序列以鉴定候选等位基因;c)将最有可能说明映射至HLA基因座的测序读段的候选等位基因对鉴定为构成受试者在HLA基因座处的HLA类型的等位基因;以及d)将该器官、组织或细胞移植给在HLA基因座处的HLA类型匹配该器官、组织或细胞在HLA基因座处的HLA类型的受试者。
[0035] 在一些实施例中,步骤b)包括如下步骤:i)将测序读段映射至参考序列,该参考序列包含人基因组序列和HLA基因座的多个HLA等位基因序列;ii)将最大数目的测序读段映射至其上的HLA等位基因鉴定为第一组候选等位基因;iii)将最大数目的除了映射至第一组候选等位基因的测序读段之外的测序读段映射至其上的HLA等位基因鉴定为第二组候选等位基因;以及iv)如果少于90%的映射至HLA基因座的测序读段映射至第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因鉴定为第三组候选等位基因。在一些实施例中,鉴定的等位基因选自一组蛋白质群组。在一些实施例中,如果映射至最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因的测序读段的数目占映射至HLA基因座的测序读段总数目的至少10%的话,才鉴定第三组候选等位基因。
[0036] 在一些实施例中,步骤b)包括如下步骤:i)将测序读段以低严格性映射至参考序列,该参考序列包含人基因组序列和HLA基因座的多个HLA等位基因序列;ii)将来自每个四位数蛋白质家族的所有等位基因鉴定为准候选等位基因,所述四位数蛋白质家族的至少一个等位基因属于所映射等位基因的前10%;iii)将测序读段以更高严格性映射至参考序列,该参考序列包含所述准候选等位基因;iv)将最大数目的测序读段映射至其上的准候选等位基因鉴定为第一组候选等位基因;v)将最大数目的除了映射至第一组候选等位基因的测序读段之外的测序读段映射至其上的准候选等位基因鉴定为第二组候选等位基因;以及vi)如果少于90%的映射至HLA基因座的测序读段映射至第一组或第二组候选等位基因的
等位基因,则将最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的准候选等位基因鉴定为第三组候选等位基因。在一些实施例中,鉴定的等位基因选自一组蛋白质群组。在一些实施例中,如果映射至最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因的测序读段的数目占映射至HLA基因座的测序读段总数目的至少10%的话,才鉴定第三组候选等位基因。
[0037] 在一些实施例中,最有可能说明测序读段的候选等位基因对是这样的候选等位基因对,其最有可能说明:i)存在于映射至候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);以及ii)存在于映射至候选等位基因的测序读段中的连续的成对SNP。在一些实施例中,最有可能说明测序读段的候选等位基因对是这样的候选等位基因对,其最有可能说明:i)存在于映射至候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);ii)存在于映射至候选等位基因的测序读段中的连续的成对SNP;以及iii)该候选等位基因对在人类中的频率。
[0038] 在一些实施例中,最有可能说明测序读段的候选等位基因对通过如下方式确定:i)对于每对候选等位基因,确定HLA基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述HLA基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对
数概率;以及ii)对于每对候选等位基因,确定HLA基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述HLA基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率,其中基因型对数似然分值和相位对数似然分值之和最高的候选等位基因对为最有可能说明测序读段的候选等位基因对。
[0039] 在一些实施例中,最有可能说明测序读段的候选等位基因对通过如下方式确定:i)对于每对候选等位基因,确定HLA基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述HLA基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对
数概率;ii)对于每对候选等位基因,确定HLA基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述HLA基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;以及iii)对于每对候选等位基因,确定频率对数似然分值,频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和,其中基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对为最有可能说明测序读段的候选等位基因对。
[0040] 在一些方面,移植器官、组织或细胞至受试者、防止移植排斥和/或防止移植物抗宿主病的方法包括:a)获得受试者的序列数据,该序列数据包含多个测序读段;b)将测序读段映射至参考序列,该参考序列包含人基因组序列和HLA基因座的多个HLA等位基因序列;c)将最大数目的测序读段映射至其上的HLA等位基因鉴定为第一组候选等位基因;d)将最大数目的除了映射至第一组候选等位基因的测序读段之外的测序读段映射至其上的HLA等位基因鉴定为第二组候选等位基因;e)如果少于90%的映射至HLA基因座的测序读段映射至第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因鉴定为第三组候选等位基因;f)对于每对候选等位基因,确定HLA基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述HLA基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的
对数概率;g)对于每对候选等位基因,确定HLA基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述HLA基因座中的每个连续的成对SNP的对数概率之
和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;h)对于每对候选等位基因,确定频率对数似然分值,频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和,其中受试者在该HLA基因座处的HLA类型为基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对;i)将HLA基因座处的HLA类型匹配该受试者在HLA基因座处的HLA类型的器官、组织或细胞移植至受试者。在一些实施例中,鉴定的等位基因选自一组蛋白质群组。在一些实施例中,如果映射至最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因的测序读段的数目占映射至HLA基因座的测序读段总数目的至少10%的话,才鉴定第三组候选等位基因。
[0041] 在一些实施例中,移植器官、组织或细胞至受试者、防止移植排斥和/或防止移植物抗宿主病的方法包括:a)获得器官、组织或细胞的序列数据,该序列数据包含多个测序读段;b)将测序读段映射至参考序列,该参考序列包含人基因组序列和HLA基因座的多个HLA等位基因序列;c)将最大数目的测序读段映射至其上的HLA等位基因鉴定为第一组候选等位基因;d)将最大数目的除了映射至第一组候选等位基因的测序读段之外的测序读段映射至其上的HLA等位基因鉴定为第二组候选等位基因;e)如果少于90%的映射至HLA基因座的测序读段映射至第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的HLA等位基因鉴定为第三组候选等位基因;f)对于每对候选等位基因,确定HLA基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述HLA基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;g)对于每对候选等位基因,确定HLA基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述HLA基因座中的每个连续的成对
SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;h)对于每对候选等位基因,确定频率对数似然分值,频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和,其中受试者在该HLA基因座处的HLA类型为基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对;i)将该器官、组织或细胞移植至HLA基因座处的HLA类型匹配该器官、组织或细胞在HLA基因座处的HLA类型的受试者。在一些实施例中,鉴定的等位基因选自一组蛋白质群组。在一些实施例中,如果映射至最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射
至其上的HLA等位基因的测序读段的数目占映射至HLA基因座的测序读段总数目的至少
10%的话,才鉴定第三组候选等位基因。
[0042] 在本文提供的方法的一些实施例中,序列数据是基因组范围的测序数据。在一些实施例中,基因组范围的测序数据是转录组测序数据、全外显子组测序数据或全基因组测序数据。在一些实施例中,序列数据的覆盖度低于60倍、50倍、40倍、30倍、20倍或15倍。在一些实施例中,测序读段的平均长度少于100个、90个、80个、70个、60个、50个、45个、40个或35个核苷酸。
[0043] 在本文提供的方法的某些实施例中,参考序列还包括人基因组序列。在一些实施例中,基因组序列中的HLA基因座的序列已被移除或屏蔽。在一些实施例中,人基因组序列为GRCh37/hg19。
[0044] 在一些实施例中,本文所述的方法包括对样品进行基因组范围的测序过程以产生序列数据的步骤。在一些实施例中,本文所述的方法包括执行可产生包含HLA基因座的核酸序列的扩增产物的核酸扩增过程,以及对该扩增产物执行测序过程。
[0045] 在本文提供的方法的一些实施例中,器官、组织或细胞包括皮肤、骨头、心脏瓣膜、心脏、肺、肾、肝脏、胰腺、肠、胃、睾丸或它们的部分。在一些实施例中,器官、组织或细胞包括骨髓、造血干细胞或成体干细胞。

附图说明

[0046] 图1为工作流程图,示出了根据一个或多个实施例的示例性方法。该方法包括通过Bowtie 2将读段映射至HLA基因座用独立等位基因的基因组序列替换的人基因组(I)、基于所映射的读段的数目选择靠前的候选等位基因(II-IV)以及对每对选择的候选等位基因进行对数似然分值评分(V)。
[0047] 图2为示出了读段长度、覆盖度和测序方案对HLA分型精确度的影响的图。该曲线图包括来自HapMap RNAseq数据集的样品(37bp读段长度)、来自Genome WXS数据集的样品(100bp长度)和来自HapMap WXS数据集的样品(101bp读段长度)。示出了将输入数据视为双端测序读段(实心符号和实线)和单端测序读段(空心符号和虚线)的预测精确度。符号代表根据其HLA基因座的覆盖度倍数分仓(binned)的样品在四位数分辨率下的平均精确度,以误差棒指示方差。就主要I类和II类HLA基因座的CDS区计算了映射后的覆盖率倍数,不包括对候选等位基因次优的读段或不与候选等位基因对齐的读段。通过样条内插推导出平滑线以展示符号的趋势。
[0048] 图3为示出了HapMap RNAseq数据集、1000Genome WXS数据集、HapMap WXS和靶向扩增子测序数据集中PHLAT、HLAminer、HLAforest、seq2HLA的预测精确度的表。*对于HapMap RNAseq数据集应用HLAminer的读段比对模式,对于所有其他数据集应用contig组装模式。当计算所有数据集中的seq2HLA预测的精确度时未应用p值阈值,这导致与如以前所述施加0.1的p值截止值相比假阴性较低(因而,精确度更高)。#值在早前的出版物的文本中报道。
[0049] 图4为示出了实例3中用于产生HLA序列数据来进行HLA分型的靶向扩增子测序策略的示意图。
[0050] 图5为提供了实例3中用于产生HLA序列数据来进行HLA分型的靶向扩增子测序策略中所用的引物的表。表格中存在的序列从上到下分别为SEQ ID NO:1-22。
[0051] 图6包括三个图,标记为图(A)、(B)和(C)。图(A)为柱状图,示出了HLA-DQA1基因座(左边分图)和HLA-DQB1基因座(右边分图)处错误鉴定的等位基因的类型(x轴)和数目(y轴),结果是HapMap RNAseq数据集、1000Genome WXS数据集和HapMap WXS数据集的汇总。图(B)为绘出了一个代表性样品中的映射的读段的图表,其中HLA-DQA1*03:01等位基因被错误分型为HLA-DQA1*03:03等位基因。显示了处于区分这两种等位基因的单SNP位置(chr6:
32609965,在两条垂直的短划线之间中突出显示)周围的映射读段。HLA-DQA1基因的hg19参考序列在该分图的底部示出(SEQ ID NO:23)。突出显示的SNP的A、C、G、T碱基的累积计数分别是141、117、0和0。图(C)为来自HLA-DQA1*03:03等位基因的135核苷酸片段(定为查询片段)与人基因组hg19中的HLA-DQA2参考序列的比对。查询序列被简化为平行条棒,仅标出错配。错配处的现有dbSNP记录用红色垂直标志以及相关联的标识号(例如rs62619945)标记,后面跟着指明主要碱基序列和备选碱基序列的括号。框出了将DQA1*03:01等位基因与
DQA1*03:03等位基因相区别的SNP的比对。图中所示的HLA-DQA2的第1-18位核苷酸代表SEQ ID NO:24(TCAGTCACAGAAGGTGTT),而其余的核苷酸代表SEQ ID NO:25(CATT.....GGAC)。
[0052] 图7为工作流程图,示出了根据一个或多个实施例的示例性过程。
[0053] 图8为工作流程图,示出了根据一个或多个实施例的示例性过程。

具体实施方式

[0054] 综述
[0055] 在某些方面,本文提供精确确定基因座(例如高度多态性基因座)处存在的等位基因的方法。在一些实施例中,该方法被称为PAT(Precise Allele Typing,精确等位基因分型)或PHLAT(Precise HLA Typing,精确HLA分型)。术语PHLAT和PAT可在本文中互换使用。PAT方法可广泛适用于鉴定任何基因座(包括高度多态性基因座如HLA基因座、BGA基因座和HV基因座)处存在的等位基因。PAT方法的某些实施例可用于各种各样的应用,包括例如器官移植、个体化用药、诊断学、法医学和人类学。例如,PAT方法的实施例可用于防止器官排斥和移植物抗宿主病、用于确定疾病易感性、用于优化疫苗接种策略、用于预测治疗效能以及用于鉴定地理和/或种族起源。
[0056] 在一些实施例中,PAT方法被用于确定HLA基因座处的HLA类型。PAT方法使得能利用各种各样的测序数据,甚至是具有短读段长度和/或低序列覆盖度的测序数据来进行精确的四位数和两位数HLA分型。精确的HLA类型可基于使用许多不同的测序方法产生的测序数据来预测,这些测序方法包括全基因组范围的测序方法(例如,转录组测序、全外显子组测序和全基因组测序)和HLA特异性测序方法(例如,对HLA基因座进行核酸扩增,然后对所得的扩增产物进行测序)。
[0057] 可例如将PAT方法用于促进具有匹配或部分匹配的HLA类型的供应者和接收者之间的细胞、器官或组织的移植。在一些实施例中,PAT方法被用于鉴定和/或促进治疗易发某些疾病或病症的个体,包括免疫原性疾病如狼疮、炎性肠病、多发性硬化症、关节炎和I型糖尿病,以及癌症如乳腺癌或宫颈癌。在一些实施例中,PAT方法被用于促进肿瘤免疫疗法和/或癌疫苗接种疗法。在某些实施例中,PAT方法被用于确定受试者或样品的地理和/或种族起源。
[0058] 在某些实施例中,PAT方法包括两个部分:1)从基因座的可能等位基因中选择候选等位基因;以及2)对候选等位基因对进行排序以鉴定哪个候选等位基因对最有可能是基因座处的等位基因对。在一些实施例中,基于读段计数来选择候选等位基因。在一些实施例中,基于观察到的数据可由每个等位基因对来说明的可能性来对候选等位基因对进行排序。在一些实施例中,基于独立位置处的序列一致性和连续位置上的相位一致性二者来确定最有可能的等位基因。在一些实施例中,等位基因在人种群中的频率也被纳入到等位基因对的排序中。示出了根据一个或多个实施例的示例性PAT方法的流程图在图7和图8中提供。
[0059] 在一些实施例中,本文所述的方法可用于确定任何主要或次要HLA基因座的HLA类型。在一些实施例中,HLA基因座为I类HLA基因座。在一些实施例中,HLA基因座为HLA-A基因座、HLA-B基因座或HLA-C基因座。在一些实施例中,HLA基因座为II类HLA基因座。在一些实施例中,HLA基因座为HLA-DQA1基因座、HLA-DQB1基因座、HLA-DRA基因座、HLA-DRB1基因座、HLA-DRB3基因座、HLA-DRB4基因座、HLA-DRB5基因座、HLA-DPA1基因座或HLA-DPB1基因座。在一些实施例中,HLA基因座为次要HLA基因座。HLA等位基因的序列是本领域已知的。例如,HLA等位基因的基因组序列和编码DNA序列(CDS)可从IMGT的3.8.0版本获得。
[0060] 在一些实施例中,本文所述的方法用于确定线粒体DNA基因座,例如HV基因座(例如,高变区1(HV1)基因座或高变区2(HV2)基因座)的基因型。不像细胞核DNA(其为二倍体,因而具有两个拷贝的每种基因座),线粒体DNA为单倍体,因而,理论上,将仅含有一个拷贝的基因座。然而,线粒体DNA中的基因座通常加倍。因而有可能线粒体DNA含有一个、两个或多个拷贝的基因座。因而,当本文所述的方法应用于线粒体DNA(或任何由单倍体基因组(包括胚细胞基因组、病毒基因组或细菌基因组)编码的基因座)时,一个或多个等位基因将被鉴定为存在于基因座处,而不是一对等位基因。HV等位基因的序列是本领域已知的。HV等位基因序列可例如在HvrBase++数据库(http://www.hvrbase.org)中找到,如Kohl等人,Nucleic Acids Research(《核酸研究》)34:D700-D704(2006)中所述,特此将该文献以引用的方式全文并入。
[0061] 在一些实施例中,本文所述的方法用于确定BGA基因座处存在的等位基因。示例性的BGA基因座包括ABO基因座和Rh基因座。BGA基因座等位基因的序列是本领域已知的。例如,BGA基因座序列可从NCBEs Blood Group Antigen Gene Mutation(NCBEs血型抗原基因突变)数据库(http://www.ncbi.nlm.nih.gov/projects/gv/rbc/xslcgi.fcgi?cmd=bgmut)获得,如Patnaik等人,Nucleic Acids Research 40:D1023-D1029(2012)中所述,特此将该文献以引用的方式全文并入。
[0062] 在某些实施例中,本文描述的方法是计算机实现的。该方法可在软件、硬件、固件或它们的任何组合中实现。该方法优选在一个或多个计算机程序中实现,该计算机程序在可编程计算机系统上执行,该计算机系统包括至少一个处理器、可由所述处理器读取的存储介质(包括,例如易失性和非易失性记忆和/或存储元件),以及输入和输出设备。该计算机系统可包括一个或多个实体机或者在一个或多个实体机上运行的一个或多个虚拟机。此外,该计算机系统可包括计算机集群或者通过互联网或其他网络连接的多个分散的计算机。
[0063] 每个计算机程序可以是存在于该计算机系统的随机存取存储器中的代码模块中的一套指令或程序代码。在计算机系统需要之前,该套指令可储存在另一计算机储存器中(例如,硬盘驱动器中,或移动存储器如光盘、外置硬盘、记忆卡或闪存驱动器中)或存储在另一计算机系统上并通过互联网或其他网络下载。每个计算机程序可以各种计算机编程语言(包括,例如Python)来实现。
[0064] 测序数据
[0065] 在某些实施例中,本文所公开的方法包括获得或接收序列数据的步骤(图7和图8的步骤10)。在一些实施例中,可通过任何方法获得或接收序列数据。例如,可通过对样品执行测序程序来直接获得序列数据。或者,可例如从第三方、数据库和/或出版物间接获得序列数据。在一些实施例中,在计算机系统处接收序列数据,例如从数据存储设备或从一单独的计算机系统接收数据。
[0066] 本文所述的方法能够使用各种各样的序列数据精确地预测基因座处存在的等位基因(例如,基因座的HLA类型)。例如,在一些实施例中,序列数据为基因组范围的测序数据。在一些实施例中,序列数据为转录组测序数据。在一些实施例中,序列数据是全外显子测序数据。在一些实施例中,测序数据为全基因组测序数据。在一些实施例中,序列数据富集编码所述基因座的序列数据。在一些实施例中,序列数据为RNA序列数据。在一些实施例中,序列数据为DNA序列数据。
[0067] 在一些实施例中,序列数据包含多个测序读段。在一些实施例中,测序读段的平均读段长度不超过35、36、37、38、39、40、45、50、55、60、65、70、75、80、85、90、95、100、125、150、175、200、250、300、400、500、600、700、800、900或1000个核苷酸。在一些实施例中,测序读段的平均读段长度为至少30、31、32、33、34、35、36、37、38、39、40、45、50、55、60、65、70、75、80、
85、90、95、100、125、150、175、200或250个核苷酸。在一些实施例中,测序读段的覆盖度不超过100倍、90倍、80倍、70倍、60倍、50倍、40倍、30倍或20倍。在一些实施例中,测序读段的覆盖度为至少50倍、45倍、40倍、35倍、30倍、25倍、20倍、19倍、18倍、17倍、16倍、15倍、14倍、13倍、12倍、11倍或10倍。
[0068] 在一些实施例中,可通过本领域已知的任何测序方法产生序列数据。例如,在一些实施例中,利用如下方法产生测序数据:链终止测序法、连接测序法、边合成边测序法、焦磷酸测序法、离子半导体测序法、单分子实时测序法、dilute-‘n’-go测序法和/或454测序法。
[0069] 在一些实施例中,序列数据是这样一种方法的结果:凭借该方法,进行核酸扩增过程来扩增一个或多个基因座或转录物的至少一部分,然后对所得的扩增产物进行测序。可用于执行本文所公开的方法的核酸扩增过程包括但不限于:聚合酶链反应(PCR)、LATE-PCR、连接酶链反应(LCR)、链置换扩增(SDA)、转录介导的扩增(TMA)、自主序列复制(3SR)、基于Qβ复制酶的扩增、基于核酸序列的扩增(NASBA)、修复链反应(RCR)、自返式DNA扩增(boomerang DNA amplification,BDA)和/或滚环扩增(RCA)。
[0070] 在一些实施例中,该方法包括对样品执行测序过程的步骤。可以使用任何样品,只要该样品含有DNA和/或RNA(例如编码HLA分子的DNA或RNA)。在一些实施例中,样品来自有前景的器官、细胞或组织供应者。在一些实施例中,样品来自有前景的器官、细胞或组织接受者。样品来源可以是例如实体组织,如来自新鲜、冷冻和/或保存的器官、组织样品、活检样品或抽吸物;血液或任何血液成分、血清、血液;体液如脑脊液、羊水、腹膜液或间质液、尿液、唾液、粪便、眼泪;或来自受试者怀孕或发育中的任何时间的细胞。
[0071] 在一些实施例中,执行本领域可用的任何测序方法。在一些实施例中,利用如下方法执行测序:链终止测序法、连接测序法、边合成边测序法、焦磷酸测序法、离子半导体测序法、单分子实时测序法、dilute-‘n’-go测序法和/或454测序法。在一些实施例中,执行核酸扩增过程来扩增一个或多个基因组基因座或转录物(例如,HLA基因组基因座或转录物)的至少一部分,然后对所得的扩增产物进行测序。在一些实施例中,所执行的核酸扩增方法为聚合酶链反应(PCR)、LATE-PCR、连接酶链反应(LCR)、链置换扩增(SDA)、转录介导的扩增(TMA)、自主序列复制(3SR)、基于Qβ复制酶的扩增、基于核酸序列的扩增(NASBA)、修复链反应(RCR)、自返式DNA扩增(boomerang DNA amplification,BDA)和/或滚环扩增(RCA)。
[0072] 候选等位基因的选择
[0073] 在一些实施例中,本文所公开的方法包括选择候选等位基因的步骤(例如,图7的步骤20和30以及图8的步骤20、32、34和36)。在一些实施例中,候选等位基因的选择通过这样来执行:将测序读段映射至参考序列,然后进行一系列读段计数步骤。该映射过程可例如使用任何可用的序列映射软件来执行。在某些实施例中,使用Bowtie 2。在一些实施例中,Bowtie 2映射参数设定为very-sensitive(十分灵敏)(即-D 20 -R 3 -N 0 -L 20 -I S,1,0.50)、end-to-end(端对端)模式,在一些实施例中,参考序列包括多个等位基因,如HLA等位基因(例如,在人工染色体上)。在一些实施例中,参考序列还包括人基因组序列(例如,GRCh37/hg19)。在一些实施例中,将人基因组序列中的一个或多个基因座(例如,HLA基因座)从参考序列中排除或将其屏蔽(例如,通过用Ns替换该基因座序列)。
[0074] 参考序列中所包括的等位基因可从等位基因序列的任何来源获得。例如,如果HLA等位基因包括在参考序列中,则可从IMGT版本3.8.0获得该等位基因的基因组DNA序列和编码DNA序列(CDS)并将其映射至人参考基因组版本37/hg19中的坐标上。在一些实施例中,仅将从转录起始位点到终止密码子的等位基因的基因组序列包括在参考序列中。可通过用参考等位基因的基因组序列(例如,来自hg19基因组的对应基因座处的序列)填充进非编码区中,来使用仅具有CDS而无基因组记录(genomic record)的等位基因。不受理论的束缚,非编码序列的基因组序列填补(imputation)对HLA分型具有极小或没有影响,因为非编码区中的多态性不会在蛋白质水平上改变HLA类型。
[0075] 在一些实施例中,在选择候选等位基因之前,通过以低严格性将序列读段映射至参考序列来选择准候选等位基因(pre-candidate allele)。在一些实施例中,将读段计数的上分位数阈值(例如上侧第95、第90、第85、第80、第75、第70、第65、第60、第55或第50百分位数)应用于对可能的等位基因的粗预选。在一些实施例中,上分位数阈值为上侧第90百分位数。在一些实施例中,上分位数阈值为第70百分位数。在一些实施例中,如果在基因座处存在大量等位基因(例如,至少200、300、400、500、600、700、800、900或1000个等位基因)则上分位数为上侧第90百分位数,但是如果少量等位基因存在于基因座处(例如,不超过200、300、400、500、600、700、800、900或1000个等位基因)则上分位数阈值为上侧第70百分位数。
在一些实施例中,只要一蛋白质(四位数)家族的至少一个成员落入在阈值内就保留来自该家族的所有等位基因。在某些实施例中,将来自其至少一个等位基因属于映射的等位基因的前5%、10%、15%、20%、25%或30%的每个四位数蛋白质家族的所有等位基因选择为准候选等位基因。在一些实施例中,选择映射的等位基因的前10%。在一些实施例中,选择映射的等位基因的前30%。在一些实施例中,如果基因座处存在大量等位基因(例如,至少
200、300、400、500、600、700、800、900或1000个等位基因)则选择映射的等位基因的前10%,但是如果少量等位基因存在于基因座处(例如,不超过200、300、400、500、600、700、800、900或1000个等位基因)则选择映射的等位基因的前30%。在一些实施例中,仅将准候选等位基因包括在后续的候选选择过程中。在一些实施例中,参考序列中的所有等位基因均包括在后续的候选选择过程中。该预选过程的一个示例性实施例在图1的步骤I和II中示出。
[0076] 在一些实施例中,使用严格的标准计算映射到保留的等位基因的读段的数目。例如,在一些实施例中,仅为读段最匹配的等位基因(或多个等位基因,如果联系在一起的话)对读段进行计数,所述匹配通过相应基因座内被读段所覆盖的SNP位点上的序列同一性来判断。在一些实施例中,要求至少99%的序列同一性才能对读段进行计数。在一些实施例中,每个基因座的SNP为该基因座处保留的等位基因的多态性位点。在一些实施例中,将与任何保留的等位基因中的插入和缺失相重合的位点排除在外。该映射过程的一个示例性实施例在图1的步骤III中示出。
[0077] 在某些实施例中,使用一系列读段计数步骤(图8的步骤32、34和36)选择候选等位基因。在一些实施例中,将最大数目的测序读段映射至其上的等位基因鉴定为第一组候选等位基因。在一些实施例中,将最大数目的除了映射至第一组候选等位基因的测序读段之外的测序读段映射至其上的等位基因鉴定为第二组候选等位基因。在一些实施例中,如果少于95%、90%、85%或80%的映射至基因座的测序读段映射至第一组或第二组候选等位基因的等位基因,则将最大数目的除了映射至第一组或第二组候选等位基因的读段之外的测序读段映射至其上的等位基因鉴定为第三组候选等位基因。在一些实施例中,鉴定的等位基因选自一组蛋白质群组。
[0078] 候选等位基因选择过程的一个示例性实施例在图1的步骤IV中示出。在该实施例中,首先将等位基因根据读段计数从高到低排序(在图1中称为水平0排序)。选择具有最大读段计数的等位基因(或多个等位基因,如果联系在一起的话)并储存为候选等位基因。然后通过排除共享之前选择的等位基因的读段,来调整剩余等位基因中的读段计数。将调整后的读段计数以降序排序(在图1中称为水平1排序)并将新的最靠前的等位基因(或者多个等位基因,如果联系在一起的话)选择为候选等位基因。为了容忍读段映射和计数中的不确定性,将来自水平0上排序第二靠前的等位基因的等位基因作为候选等位基因包括在内,条件是如果它们具有不可忽略数目的不同于最靠前等位基因的读段的话。例如,在一些实施例中,将在排除映射至第一组候选等位基因的测序读段之前第二最大数目的测序读段映射至其上的等位基因包括在水平1排序中,条件是如果在排除映射至在水平0排序上选择的等位基因的读段之后,它们保留的测序读段的数目为映射至水平0排序的等位基因的测序读段的数目的1%的话。如果选自水平0和水平1排序的等位基因说明不到90%的映射至基因座的等位基因的话,则重复该读段计数程序(在图1中称为水平2排序)并将新的最靠前的等位基因(或多个等位基因,如果联系在一起的话)包括在候选等位基因中,条件是如果至少
10%的映射至基因座的测序读段映射至新的最靠前的一个等位基因或多个等位基因的话。
[0079] 在一些实施例中,如果满足以下标准的话则将基因座确定为纯合的(即基因座的两个拷贝均含同一等位基因):在水平0上最靠前等位基因说明至少80%、85%、90%或95%的读段,并且没有其他等位基因说明超过3%、4%、5%、6%、7%、8%、9%或10%的剩余读段。在一些实施例中,如果满足以下标准的话则将基因座确定为纯合的:在水平0上的最靠前等位基因说明至少90%的映射至基因座的读段,并且没有其他等位基因说明超过5%的映射至基因座的读段,映射至在水平0上最靠前的等位基因的读段排除在外。
[0080] 可能性排序
[0081] 在某些实施例中,在执行上述候选等位基因选择过程之后,仅将候选等位基因及它们相关的读段包括在后续的分析中。在一些实施例中,将候选等位基因在候选等位基因的所有成对组合(包括自身的对)上进行评价,以发现最有可能存在于基因座处的对(例如,最有可能构成HLA类型的对)。本方法的该方面的例子在图7的步骤40以及图8的步骤42、44和46中示出。
[0082] 在一些实施例中,本文所提供的方法包括鉴定最有可能为存在于基因座处的等位基因的候选等位基因对的步骤。在一些实施例中,所鉴定的候选等位基因对为最有可能说明映射至基因座的测序读段的序列的对。在一些实施例中,所鉴定的候选等位基因对是这样的对,其最有可能说明:1)存在于映射至候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);以及2)存在于映射至候选等位基因的测序读段中的连续的成对SNP。在一些实施例中,所鉴定的候选等位基因对是这样的对,其最有可能说明:1)存在于映射至候选等位基因的测序读段中的独立的单核苷酸多态性(SNP);2)存在于映射至候选等位基因的测序读段中的连续的成对SNP;以及3)候选等位基因对在人类中的频率。
[0083] 在一些实施例中,最有可能说明映射至候选等位基因的测序读段的序列的候选等位基因对通过如下方式确定:1)对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;以及2)对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;其中基因型对数似然分值和相位对数似然分值之和最高的候选等位基因对为最有可能说明测序读段的候选等位基因对。
[0084] 在一些实施例中,最有可能说明映射至候选等位基因的测序读段的序列的候选等位基因对通过如下方式确定:1)对于每对候选等位基因,确定基因座中的每个独立SNP的基因型对数似然分值,每个基因型对数似然分值为所述基因座中的每个独立SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述SNP的测序读段中的独立SNP处存在的序列的对数概率;2)对于每对候选等位基因,确定基因座中每个连续的成对SNP的相位对数似然分值,每个相位对数似然分值为所述基因座中的每个连续的成对SNP的对数概率之和,所述对数概率为所述候选等位基因对可以说明映射至所述连续的成对SNP的测序读段中的连续成对SNP处存在的序列的对数概率;以及3)对于每对候选等位基因,确定频率对数似然分值,频率对数似然分值为候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数之和;其中基因型对数似然分值、相位对数似然分值和频率对数似然分值之和最高的候选等位基因对为最有可能说明测序读段的候选等位基因对。
[0085] 在一些实施例中,将具有最高对数似然分值(LL总)的候选等位基因对鉴定为基因座处存在的等位基因(例如,HLA基因座处的HLA类型)。在一些实施例中,根据公式1计算LL总。如公式1中所示,每个等位基因对的(LL总)整合了单独SNP位点的所观察到的基因型的似然性(LL基因型)和多个位点上的相位的似然性(LL相位),还有等位基因对存在于人类中概率(LL频率)。
[0086]
[0087] 基因型似然分值评分
[0088] 在一些实施例中,根据贝叶斯模型计算基因座中的单独SNP的对数似然分值(LL基因型)。在一些实施例中,后验对数似然值LLi基因型与条件对数似然值logP(Di│Gi)成比例,条件对数似然值为观察到累积的碱基(Di)给出位点i处的所关注等位基因对(Gi)的基因型的对数概率。对于任何基因型假定边缘先验logP(Gi)是恒定的,因而将其除去。P(Di│Gi)为在位点i处观察到碱基j的独立条件对数似然值P(bij│Gi)的乘积(公式2)。
[0089]
[0090]
[0091] qj为从碱基j的Phred分值转化而来的错误率。
[0092] 相位似然分值评分
[0093] 在一些实施例中,类似于上述的一个SNP位点的基因型似然值,对两个相邻SNP位点的相位似然值(LL相位)进行建模, 与观察到相同链上两个相邻SNP位点i和i+1上的碱基对(DLL+1)给出该两个位点处的所关注等位基因对的相位序列(Gi,i+1)的对数概率成比例。两个位点上存在15个可能的错配(异相)状态和1个匹配(同相)状态。P(Di,i+1│Hi,i+1)为来自覆盖位点i和i+1的所有读段的条件对数似然值的乘积(公式S1)。qerr为异相错误率
(0.01)。
[0094]
[0095] 位点i和i+1处的读段j上的碱基对
[0096] 并且 分别是对应等位基因1和2,
[0097]
[0098] 公式3避免了偏好具有非均相序列的等位基因对的偏向,这种偏向是由基于同相读段和异相读段的数目计算二项式概率而引起的。该非均相的同相读段计数为支持两个均相 和 的同相读段计数之
和,并因而总是大于该同相读段计数。因而,在该二项式模型中,非均相总是具有比两个对应的均相高的概率。相比之下,本文描述的贝叶斯模型偏好仅具有大致平衡的 和
读段的非均相,但当一种类型占优时就不偏好,一种类型占优时终究表明是均相。
[0099] 等位基因频率评分
[0100] 在一些实施例中,当确定最有可能的候选等位基因对时,考虑了候选等位基因对中的每个候选等位基因存在于人种群中的频率的对数。主要的I类和II类基因座的等位基因频率是本领域已知的。例如,这种等位基因频率可从Allele Frequency Net下载。在一些实施例中,对于每个蛋白质(四位数)家族,使用了来自文献发表的等位基因的最大频率并为其中的所有等位基因共有。在一些实施例中,将背景值0.0001赋给任何具有未知频率的蛋白质家族(及其等位基因)。在一些实施例中,LLfreq被计算为两个等位基因的频率的对数之和。
[0101] 移植方法
[0102] 在一些方面,本文所描述的HLA分型方法可用于降低移植排斥和/或移植物抗宿主病的可能性。在一些方面,本文提供执行器官、细胞或组织移植的方法。在一些实施例中,移植方法包括:执行本文所述的HLA分型方法以确定器官、组织或细胞在至少一个HLA基因座处的HLA类型,然后将所述器官、组织或细胞移植给接受者。在一些实施例中,移植方法包括:执行本文所述的HLA分型方法以确定有前景的移植接受者在至少一个HLA基因座处的HLA类型,然后将器官、组织或细胞移植给所述接受者。在一些实施例中,移植方法包括:执行本文所述的HLA分型方法以确定器官、组织或细胞在至少一个HLA基因座处的HLA类型,执行本文所述的HLA分型方法以确定有前景的移植接受者在至少一个HLA基因座处的HLA类
型,然后将所述器官、组织或细胞移植给所述接受者。
[0103] 在一些方面,本文提供防止移植的器官、组织或细胞排斥的方法。在一些实施例中,该方法包括:执行本文所述的HLA分型方法以确定器官、组织或细胞在至少一个HLA基因座处的HLA类型,然后将所述器官、组织或细胞移植给接受者。在一些实施例中,该方法包括:执行本文所述的HLA分型方法以确定有前景的移植接受者在至少一个HLA基因座处的HLA类型,然后将器官、组织或细胞移植给所述接受者。在一些实施例中,该方法包括:执行本文所述的HLA分型方法以确定器官、组织或细胞在至少一个HLA基因座处的HLA类型,执行本文所述的HLA分型方法以确定有前景的移植接受者在至少一个HLA基因座处的HLA类型,然后将所述器官、组织或细胞移植给所述接受者。
[0104] 在一些方面,本文提供防止移植物抗宿主病的方法。在一些实施例中,该方法包括:执行本文所述的HLA分型方法以确定器官、组织或细胞在至少一个HLA基因座处的HLA类型,然后将所述器官、组织或细胞移植给接受者。在一些实施例中,该方法包括:执行本文所述的HLA分型方法以确定有前景的移植接受者在至少一个HLA基因座处的HLA类型,然后将器官、组织或细胞移植给所述接受者。在一些实施例中,该方法包括:执行本文所述的HLA分型方法以确定器官、组织或细胞在至少一个HLA基因座处的HLA类型,执行本文所述的HLA分型方法以确定有前景的移植接受者在至少一个HLA基因座处的HLA类型,然后将所述器官、组织或细胞移植给所述接受者。在一些实施例中,以2位数分辨率确定HLA类型。在一些实施例中,以4位数分辨率确定HLA类型。
[0105] 在一些实施例中,在移植之前测试的HLA基因座是I类HLA基因座。在一些实施例中,HLA基因座为HLA-A基因座、HLA-B基因座或HLA-C基因座。在一些实施例中,HLA基因座为II类HLA基因座。在一些实施例中,HLA基因座为HLA-DQA1基因座、HLA-DQB1基因座、HLA-DRA基因座、HLA-DRB1基因座、HLA-DRB3基因座、HLA-DRB4基因座、HLA-DRB5基因座、HLA-DPA1基因座或HLA-DPB1基因座。在一些实施例中,确定多种HLA基因座的HLA类型。例如,在一些实施例中,确定至少2、3、4、5、6、7、8、9、10、11或12种HLA基因座的HLA类型。在一些实施例中,确定所有三种I类HLA基因座(HLA-A、HLA-B和HLA-C)的HLA类型。在一些实施例中,确定HLA-A、HLA-B、HLA-C、HLA-DQA1、HLA-DQB1和HLA-DRB1的HLA类型。在一些实施例中,确定HLA-A、HLA-B和HLA-DRB1的HLA类型。
[0106] 在一些实施例中,器官、组织或细胞的HLA类型匹配接受者在HLA基因座处的HLA类型。在一些实施例中,HLA基因座为HLA-A基因座、HLA-B基因座或HLA-C基因座。在一些实施例中,HLA基因座为HLA-DQA1基因座、HLA-DQB1基因座、HLA-DRA基因座、HLA-DRB1基因座、HLA-DRB3基因座、HLA-DRB4基因座、HLA-DRB5基因座、HLA-DPA1基因座或HLA-DPB1基因座。在一些实施例中,器官、组织或细胞的HLA类型匹配接受者在至少2、3、4、5、6、7、8、9、10、11或12种HLA基因座处的HLA类型。在一些实施例中,器官、组织或细胞的HLA类型匹配接受者在至少2种I类HLA基因座处的HLA类型。在一些实施例中,器官、组织或细胞的HLA类型匹配接受者在全部3种I类HLA基因座处的HLA类型。在一些实施例中,器官、组织或细胞的HLA类型匹配接受者在HLA-A基因座和HLA-B基因座处的HLA类型。在一些实施例中,器官、组织或细胞的HLA类型匹配接受者在HLA-A基因座、HLA-B基因座和HLA-DRB1基因座处的HLA类型。
在一些实施例中,器官、组织或细胞的HLA类型不匹配接受者在不超过11、10、9、8、7、6、5、4、
3、2或1种HLA基因座处的HLA类型。在一些实施例中,该匹配具有2位数分辨率。在一些实施例中,该匹配具有4位数分辨率。
[0107] 在本文提供的方法的一些实施例中,进行器官移植。在一些实施例中,所移植的器官是心脏、肺、肾、肝脏、胰腺、肠、胃和/或睾丸或者前述器官其中一者的一部分。在一些实施例中,所移植的细胞、组织或器官是肢体(例如,手、脚、手臂或腿)、角膜、皮肤、脸、胰岛、骨髓、造血干细胞、成体干细胞(例如,乳腺干细胞、肠干细胞、间充质干细胞、内皮干细胞、神经干细胞、嗅觉干细胞、心干细胞、肺干细胞)、血管、心脏瓣膜和/或骨。移植的器官、组织或细胞可来自活的供应者或已故供应者。
[0108] 在本文提供的方法的一些实施例中,给所述器官、组织或细胞的接受者施用可降低移植排斥可能性的药剂。在一些实施例中,该药剂是免疫抑制剂。在某些实施例中,给接受者施用泼尼松龙、氢化可的松、环孢素、他克莫司、咪唑硫嘌呤、霉酚酸、西罗莫司、依维莫司、巴利昔单抗、达珠单抗、抗胸腺细胞球蛋白、抗淋巴细胞球蛋白和/或利妥昔单抗。在一些实施例中,如果接受者的HLA类型不匹配移植的器官、细胞或组织在一个或多个HLA基因座处的HLA类型,则给接受者施用该药剂。在一些实施例中,如果接受者的HLA类型不匹配移植的器官、细胞或组织在至少1、2、3、4、5、6、7、8、9、10或11个HLA基因座处的HLA类型,则给接受者施用该药剂。
[0109] 特此将本文提及的所有出版物(包括专利、专利申请以及GenBank登录号)以引用的方式全文并入,就如同明确且独立地指明将每篇单独的出版物或专利以引用的方式并入一样。在发生冲突的情况下,以本专利申请(包括本文中的任何定义)为准。
[0110] 现在本发明得到了一般性的描述,通过参考下面的实例将更容易理解本发明,将这些实例包括在内仅仅是为了示例说明本发明的某些方面和实施例,并非旨在限制本发明。
[0111] 实例
[0112] 实例1:使用PHLAT方法的实施例进行HLA分型
[0113] PHLAT工作流程从使用Bowtie 2进行基于参考序列的读段映射(图1中的步骤I)开始。通过用一批人工染色体扩展人基因组GRCh37/hg19来构建参考基因组,该批人工染色体每一者提供一个HLA等位基因的基因组DNA序列。通过N’s屏蔽染色体6上的HLA-A、B、C、DQA1、DQB1和DRB1基因座处的对应基因组序列,以避免双重映射。Bowtie 2映射参数设定为:very-sensitive(十分灵敏)(即-D20-R3-N0-L20-IS,1,0.50),—end-to-end(端对端)模式。报告每个读段的最佳比对(或同样好的比对中的其中之一)。当读段长度适用于
Bowtie时,将映射引擎换成Bowtie没有明显改变PHLAT的性能(未示出数据)。
[0114] 主要的I类和II类基因座HLA-A(1884个)、HLA-B(2489个)、HLA-C(1382个)、HLA-DQA1(47个)、HLA-DQB1(165个)和HLA-DRB1(1092个)的总共7059个等位基因被包括在该参考序列中。所述等位基因的基因组DNA序列和编码DNA序列(CDS)从IMGT版本3.8.0获得并映射至人参考基因组版本37/hg19中的坐标。基因组DNA序列用于Bowtie 2映射(图1,步骤I,见下文),而CDS序列用于所有其他程序(图1步骤II-V)。仅保留从转录起始位点(TSS)至终止密码子的基因组序列。对于任何仅具有CDS而无基因组记录的等位基因,将非编码区用hg19基因组中相应基因座处使用的参考等位基因(例如,A*03:01:01:01为HLA-A基因座的参考等位基因)的基因组序列填充,只要没有可用的数据表明有超出该等位基因的CDS区的变异。基因组序列填补对HLA分型具有极小(如果有的话)影响,因为非编码区中的多态性不会在蛋白质水平上改变HLA类型。
[0115] 后面的HLA类型预测在两个主要的步骤中完成:靠前候选等位基因的选择(图1中的步骤II-IV)以及基于似然值的排序(图1中的步骤V)。该等位基因选择大大减少了似然值排序的计算成本,因为在似然值排序过程中必须评价等位基因的每个成对组合。随后,似然分值整合了基因型和相位信息以及先验知识来以高分辨率解析高度同源的HLA等位基因。
[0116] 靠前的候选等位基因的选择涉及读段计数的迭代。首先,根据Bowtie2映射结果,对映射至每个等位基因的读段数目进行计数。将读段计数的上分位数阈值(如第90百分位数)应用于对可能的等位基因的粗略预选(图1中的步骤II)。只要一个肽(四位数)家族的一个成员被选择,就保留来自该家族的所有等位基因。接下来,根据更严格的标准重新计算映射至保留的等位基因的读段的数目(图1中的步骤III)。使用由Bowtie 2输出的每个读段的坐标,将读段与该位置处所有保留的等位基因进行比较。仅对与读段匹配最好的等位基因(或多个等位基因,如果联系在一起的话)的该读段进行计数,这通过在相应基因座内由该读段覆盖的SNP位点上的序列同一性来判断。要求至少99%的序列同一性才能对读段进行计数。每个基因座的SNP为来自该基因座处保留的等位基因的多态性位点的集合。将与任何保留的等位基因中的插入和缺失重合的位点排除在外以避免比对偏差,因为插入和缺失未被视为不匹配。根据蛋白质群组(四位数)将读段计数进行非冗余汇总,并用于通过连续的基于计数的排序进行靠前候选等位基因的选择(图1的步骤IV)。具体而言,对于给定的基因座,首先通过读段计数从高到低对蛋白质群组进行排序,称为水平0排序。选择具有最大读段计数的群组(或多个群组,如果联系在一起的话),并将所有关联的等位基因作为候选等位基因储存。然后通过将共享前面选择的群组的读段排除在外,来调整剩余蛋白质群组中的读段计数。将调整过的读段计数以降序排序(水平1排序)并选择新的最靠前群组。为了容忍读段映射和计数中的不确定性,尤其是当测序覆盖度有限或真等位基因或假等位基因十分类似时,将来自在水平0上排序第二靠前的蛋白质群组的等位基因包括在内,条件是如果它们具有不可忽略数目的未共享所述最靠前群组的独特读段(大于映射至排序最靠前的群组的读段的1%)的话。通常选自水平0和水平1排序的等位基因可以解释大部分(≥90%)映射至基因座的读段。否则,重复该程序(水平2排序)并选择基因座处的新的最靠前蛋白质群组。
[0117] 如果满足以下标准的话,则可在该候选等位基因选择步骤确定四位数分辨率的纯合基因型:在水平0上最靠前蛋白质群组解释大部分的读段(>90%),并且与已解释的读段相比由任何其他群组解释的其余读段可忽略不计(少于5%)。
[0118] 在该选择结束时,仅将候选等位基因及它们的相关读段用于后续分析。通常,保留数十个等位基因。该数目小得足以在所述等位基因的全部成对组合(包括自身组合)上进行穷举评价以发现最有可能的对。如公式1中所示,每个等位基因对的总对数似然分值(LL总)整合了所观察到的基因型在单独SNP位点上的似然性(LL基因型)和多个位点上的相位似然性(LL相位),还有等位基因对存在于人类中概率(LL频率)。
[0119]
[0120] 基于贝叶斯模型,后验对数似然值LLi基因型与条件对数似然值log.P(Di│Gi)成比例,条件对数似然值为观察到累积的碱基(Di)给出位点i处的所关注等位基因对(Gt)的基因型的对数概率。对于任何基因型假定边缘先验logP(Gi)是恒定的,因而将其除去。P(Di│Gi)为在位点i观察到碱基j的独立条件对数似然值 的乘积(公式2)。
[0121]
[0122]
[0123] qj为从碱基j的Phred分值转化而来的错误率。
[0124] 类似于一个SNP位点的基因型似然值,对两个相邻SNP位点的相位似然值进行建模。在两个位点的情况下,存在15个可能的错配(异相)状态和1个匹配(同相状态),而不是对于单个位点而言的3个错配和1个匹配。具体而言, 与观察到相同链上两个相邻SNP
位点i和i+1(Di,i+1)上的碱基对给出该两个位点处的所关注等位基因对(Gi+1)的相位序列的对数概率成比例。两个位点上存在15个可能的错配(异相)状态和1个匹配(同相)状态。P(Di,i+1 i,i+1
│H )为来自覆盖位点i和i+1的所有读段的条件对数似然值的乘积(公式3)。q错误为异
相错误率(0.01)。
[0125]
[0126] 位点i和i+1处的读段j上的碱基对
[0127] 并且 分别是对应等位基因1和2,
[0128]
[0129] 图3避免了先前的工作中的偏好具有非均相序列的等位基因对的偏向,这种偏向是由基于同相读段和异相读段的数
目计算二项式概率而引起的。该非均相的同相读段计数为支持两个均相
和 的同相读段计数之和,并因而总是大于该同相读段计数。因而,在该二
项式模型中,非均相总是具有比两个对应的均相高的概率。相比之下,本文描述的贝叶斯模型偏好仅具有大致平衡的 和 读段的非均相,但当一种类型占优时就不偏
好,一种类型占优时终究表明是均相。
[0130] 主要的I类和II类基因座的等位基因频率从Allele Frequency Net下载。对于每个蛋白质(四位数)家族,使用了来自文献发表的等位基因的最大频率并为其中的所有等位基因共有。将背景值0.0001赋给具有未知频率的蛋白质家族(及其等位基因)。LL频率被计算为两个等位基因的频率的对数之和。
[0131] 将具有最高LL总的等位基因对报告为预测的HLA类型。通常,LL总由LL基因型分量和LL相位分量决定。LL频率显著较小,通常小数个数量级。因而,尽管应用的等位基因频率可能存在不确定性,但我们预计对结果没有明显的影响。
[0132] 实例2:PHLAT使用短读段精确地确定HLA类型
[0133] 为了评价使用短读段的PHLAT,使用了HapMap转录组测序(RNAseq)数据集。使用双端短读段(2×37bp)进行的类淋巴母细胞的转录组剖析是从来自HapMap项目(研究登录号为ERP000101)的公用数据库获得,该数据库是祖先来自北欧和西欧的60位犹他州居民的数据库。最初由de Bakker等人Nat.Genet.(《自然遗传学》)38:1166-1172(2006)以四位数分辨率在主要的I类和II类HLA基因座处对五十份这些样品进行基因型分型,并随后在Erlich等人,BMC Genomics(《BMC基因组学》)12:42(2011)中使用不同的技术进行了验证。一份样品(轮次登录号(run accession)ERR009139)由于可映射至人基因组的读段的比率异常的
低(<20%)而被排除。将剩余的49个受试者用于本工作中的分析和比较。
[0134] HapMap RNAseq数据采用双端37bp读段。类似的读段长度(约35bp)通常用于转录组测序研究。然而,它们处于适用的读段长度的下限之内。采用现有技术,使用这样十分短的读段一直难以精确地确定基因型。在高度多态性HLA基因座处这种难度增加。用以前的HLA分型方法使用HapMap RNAseq数据库来预测四位数HLA类型一直是不精确的(图3)。例
如,seq2HLA方法不适合用于解析四位数HLA类型,其具有32%的低精确度(Boegel等人,Genome Med.(《基因组医学》)4:102(2013))。当将HLAminer应用于该数据集时,仅有可能仅以比对模式执行该方法,因为其contig组装模式由于短的读段长度而无法起作用。得到的精确度仅为39.8%(图3)。HLAforest达到84.2%的较高但仍次优的预测精确度(图3)。
[0135] 利用相同的HapMap RNAseq数据集,使用实例1的PHLAT方法在I类基因座处正确推测出96.2%的四位数HLA类型,对于组合的I类和II类基因座二者总体上为92.3%(图3)。PHLAT还精确地预测了纯合子识别(call)。在四位数分辨率的45个纯合基因座(90个等位基因)中,仅6个被错误地分型为杂合的(总共7个假等位基因)。大部分错误分型的等位基因在两位数分辨率下是精确的,并且与真等位基因仅相差一个或两个核苷酸。
[0136] 此外,PHLAT比以前的方法更精确地预测了两位数HLA类型。PHLAT在564个两位数等位基因中仅错误预测5个(精确度为99.1%),而对于该数据集,以前的HLA预测方法的两位数精确度不高于97.3%(图3)。
[0137] PHLAT还提供了排除十分罕见的HLA等位基因的选择,该十分罕见的HLA等位基因在Allele Frequency Net不具有任何关于种群频率的记录。在具有该选择的情况下,对最有可能的HLA类型的搜索减少至HLA-A(526个)、HLA-B(674个)、HLA-C(373个)、HLA-DQA1(33个)、HLA-DQB1(81个)、HLA-DRB1(407个)基因座处的2094个等位基因。当排除罕见等位基因时在这些条件下使用PHLAT导致四位数分辨率下的精确度为93.0%,与包括罕见等位基因在内时的精确度相当(92.3%,见上文)。
[0138] 实例3:PHLAT使用较低覆盖度测序数据精确地确定HLA类型
[0139] HapMap全外显子测序(WXS)数据集和伴随的I类四位数HLA类型收集自祖先来自北欧和西欧、日本和尼日利亚的犹他州居民。WXS数据经由研究登录号SRP004078、SRR004076和SRR004074从公用数据库获得,HLA基因型取自Warren等人,Genome Med.(《基因组医学》)
4:95(2012)以及Abecasis等人,Nature(《自然》)467:1061-1073(2010)。测序通过双端
101bp读段来处理,HLA基因座的CDS区上的中值覆盖度为大约60倍(还可参加“结果”)。
[0140] PHLAT和其他程序用来自CEU、JPT和YRI群体的15个HapMap个体的2×101bp全外显子测序(WXS)数据来评价。读段长度较于HapMap RNAseq数据的读段长度要长得多。然而,测序深度降低。对于感兴趣的HLA基因座,映射后的深度为大约60倍,而HapMap RNAseq数据集具有大约330倍。尽管该覆盖度倍数对于一般的基因型分型而言可认为是足够的,但对于高度多态性HLA基因座的精确分型而言可能存在挑战。
[0141] 使用WXS数据集的多种HLA分型方法的性能在图3中提供。将HLAminer的组装模式应用于该数据集,因为其给出好于比对模式的结果,大概是因为contig在与等位基因的序列比对中比独立的读段更有用,并且对覆盖度的依赖性更低。在四位数分辨率下,HLAminer的精确度为53.3%。还采用默认参数在本地对同一数据集执行HLAforest,得到的精确度为
45.6%。与HapMap RNAseq数据集相比,使用WXS数据集时HLAforest的性能更差,尽管WXS数据具有长得多的读段。
[0142] 当将实例1中描述的PHLAT方法应用于WXS数据时,其得到的四位数分型精确度为93.3%。此外,PHLAT给出的两位数精确度为95.6%,高于seq2HLA(93.3%,p值没有阈值)并且远优于HLAminer(78.9%)和HLAforest(81.1%)。
[0143] 实例4:将PHLAT应用于靶向扩增子测序数据
[0144] 将实例1中描述的PHLAT方法应用于靶向扩增子测序数据。该数据通过利用PCR扩增法扩增五个人细胞系中的I类HLA-A和HLA-B基因座而产生(图4)。简单而言,在第一轮PCR中,产生HLA-A和HLA-B基因座处的外显子2和3的扩增子(引物序列在图5中提供)并同时添加Illumina测序接头。将四种扩增子以1:1:1:1比率汇集并利用第二轮PCR产生条形码。最后,在Illumina MiSeq(加利福尼亚州的Illumina公司(Illumina Inc.CA))上通过2×250
个循环的多重双端测序对汇集的五份样品进行测序。通过MiSeq Reporter软件获得这五份样品的经去重处理(De-multiplexed)的FASTQ文件。
[0145] 还通过如下Sanger测序对这五份样品的HLA-A和HLA-B基因座进行基因型分型。通过 DNA Mini试剂盒(加利福尼亚州的凯杰公司(Qiagen Inc.CA))从上述5个细胞系提取基因组DNA,浓度为15-30ng/μL,并随后使用SeCore测序试剂盒(加利福尼亚州的生命技术公司(Life Technologies Inc.,CA))进行PCR扩增和纯化。在3730×1自动化ABI
测序仪上建立测序反应。将 SBT软件(加利福尼亚州的英杰公司(Invitrogen 
Inc.CA))用于处理序列文件并产生HLA分型报告。由商业供应商(加利福尼亚州的生命科技公司(Life Technologies Inc.,CA))执行这五份样品的独立的HLA分型并返回匹配结果。
[0146] 实例1的PHLAT方法使用Bowtie 2比对工具,Bowtie 2比对工具能够同时处理短读段和长读段。在5份样品的双端250bp扩增子测序数据集上测试PHLAT。对于HLA-A和HLA-B基因座处的总共20个实验验证的等位基因,PHLAT在两位数和四位数分辨率下均以100%的精确度预测了HLA类型(图3)。HLAminer例外,以前公开的方法不能利用该测序数据预测HLA类型。在运行HLAminer的组装模式后,对于四位数和两位数分辨率分别获得了50%和95%的精确度。
[0147] 实例5:错误分型的等位基因的表征
[0148] PHLAT中错误分型的四位数等位基因收集自HapMap RNAseq、1000Genome WXS和HapMap WXS数据集,并根据等位基因类型汇总(图6A)。研究了某些等位基因类型是否被富集,并且如果富集的话,则是否是因为该算法或其他原因引入它们。在HLA-A、B、C和DRB1基因座处,几乎所有的等位基因均具有有限的样本大小(≤10的总发生率)和错误分型事件
(≤2)。因而,对于等位基因类型并没有明显的富集。
[0149] 在HLA-DQA1和HLA-DQB1基因座,一些特定的等位基因在观察到的预测误差中占优。如图6A中所示,HLA-DQA1处的总共二十个错误预测中,十个HLADQA1*03:01等位基因被分型为HLA-DQA1*03:03,六个HLA-DQA1*05:01等位基因被错误地当成HLADQA1*05:05。在HLA-DQB1基因座处,五个HLA-DQB1*02:01等位基因被认为是HLA-DQB1*02:02。这些错误占HLA-DQA1和HLA-DQB1基因座处的全部错误预测的>80%。这些等位基因还在本研究中展现出低的预测精确度(61.5%-73.7%)。尽管真实和预测的等位基因在序列上是高度同源的(<=3SNP),但下面的一些观察结果表明,这些误差可能不是随机的。
[0150] 其他的算法即HLAforest和HLAminer展现出将PHLAT错误识别的相同样品中的DQA1*03:01错误分型为DQA1*03:03的类似倾向。在七份样品中,HLAforest产生与PHLAT相同的错误。来自HLAminer的输出DQA1*03:01P是将DQA1*03:01、DQA1*03:03和一些其他等位基因当成一组的P-名称(P-designation)注解。在没有P名称的情况下再次运行HLAminer表明,在PHLAT错误分型的所有样品中DQA1*03:03是最确信的预测。因为在执行不同比对工具(如,PHLAT的Bowtie 2、HLAforest的Bowtie以及HLAminer的BWA)的算法中出现相同的错误,所以该错误不是由具体的比对引擎引起的。的确,在任何受影响的样品中,在PHLAT中将比对工具换成BWA并不改变输出。这些结果表明,该问题可能不是由于算法中的计算策略或比较工具选择所致。
[0151] 在所有情形中,足够数量的读段支持DQA1*03:03的推断。图6B示出了发生错误分型的一份代表性样品(受试者NA12156)中区分DQA1*03:01等位基因和DQA1*03:03等位基因的单SNP位点(chr6:32609965,对于DQA1*03:03是碱基A,对于DQA1*03:01是碱基C)周围的读段映射细节。该样品中的第二个等位基因为DQA1*02:01,在该位置其序列为C。这些读段已经被送入PHLAT流程并被用于HLA预测。在样品NA12156中,约一半的碱基为A,从而导致杂合基因型AC。因而,在已知这些数据的情况下,推断出DQA1*03:03等位基因还有DQA1*02:01等位基因是有说服力的。对于具有DQA1*03:03预测的所有其他样品也有类似的观察结果。这表明,该误差可能不是简单地由于数据中的随机噪声所致
[0152] 有可能是,支持所述备选等位基因的读段源自基因组中的别的地方。用带有来自HLA-DQA1*03:03等位基因的SNP位点(chr6:32609965)的135核苷酸片段(chr6:32609874-32610008)进行BLAST查询,返回位于HLADQA2基因的外显子3处的最靠前全长命中序列。除了该区域内两个等位基因之间仅有的SNP位点外,不存在其他错配(图6C)。由于对HLADQA2的等位基因了解有限,IMGT数据库不包括任何HLADQA2条目。因此,所有以前的算法在它们的映射参考序列中不具有HLADQA2序列。PHLAT将该参考序列扩展到全基因组。然而其仅包括hg19基因组中使用的一个特定HLA-DQA2等位基因的序列,从而也未能完全地捕集其多态性。鉴于高的序列同源性以及缺少HLA-DQA2的完整等位基因参考序列,错误地将HLA-DQA2基因的读段比对至HLA-DQA1基因的可能性不可忽略。事实上,在chr6:32713784处存在HLA-DQA2基因的常见的C到A错义SNP(rs62619945,约4%的次要等位基因频率,图6C),该位点为DQA1*03:03等位基因SNP在序列比对中的匹配位点。因而,如果受试者恰好携带具有
rs62619945SNP的特定HLA-DQA2等位基因,则所导致的读段可能会被错误地当成来自HLA-DQA1*03:03等位基因。
[0153] 对于其他两个经常被错误分型的等位基因(HLA-DQA1*05:01和HLA-DQBI*02:01)存在类似的观察结果。在五份样品中,PHLAT、HLAminer和HLAforest(无P名称)全部错误地分别将它们鉴定为HLA-DQA1*05:05和HLA-DQB1*02:02。在chr6:32605266、chr6:32610002和chr6:32610445处存在三个驱动DQA1*05:05识别(call)的SNP。每个SNP具有大量的支持DQA1*05:05等位基因的映射读段。此外,每个SNP位于与HLA-DQA2基因同源的外显子片段(取自DQA1*05:05等位基因的序列)内。这些片段长度为72-116个核苷酸并且在2-4个染色体位置处与HLA-DQA2序列(hg19基因组)不同。HLA-DQA2基因中的所有位置均具有dbSNP记录,其中备选碱基匹配DQA1*05:05等位基因中的序列。因而,对于这些区域,有可能混淆来自HLA-DQA2和HLA-DQA1基因座的读段。类似地,较于HLA-DQB1*02:01等位基因(chr6:
32629905),该SNP偏好HLADQB1*02:02等位基因。其处于HLA-DQB1基因和HLA-DQB2基因之间的91个核苷酸的同源区域内。对HLA-DQB2等位基因的研究不充分并且也未记录在IMGT数据库内。
[0154] 总体考虑上述结果,我们推论,将来自次要HLA-DQA2基因座和DQB2基因座的读段分别错误地比对至它们的同源主要HLA-DQA1基因座和DQB1基因座,可能导致了错误分型的HLA-DQA1等位基因和DQB1等位基因的频率不同寻常地高。这种局限性不依赖于算法。将HLA-DQA2和DQB2的等位基因序列并入映射参考序列中,将有可能减轻该问题。当使用具有
100bp或更长的双端读段的数据时,不太担心错误分型的等位基因的问题,因为本文讨论的同源区域有大约100个核苷酸。长的测序读段可扩展至同源性较低的周边区域来降低错误比对。PHLAT或其他现有的算法的使用者可通过Sanger或靶向扩增子测序来验证HLADQA1*
03:03、HLA-DQA1*05:05和HLA-DQB1*02:02等位基因类型。
[0155] 实例6:影响HLA推断的精确度的因素
[0156] 将来自上述数据集的PHLAT HLA预测结果进行汇编,以系统地研究测序参数是如何影响HLA推断的精确度的。基准数据集在各种读段长度(37bp-250bp)和深度(从<60倍至>
1000倍)以及不同测序方案(双端测序或单端测序)方面提供了测试案例。
[0157] 图2示出了来自以下三个数据集的结果:HapMap RNAseq、1000Genome WXS和HapMap WXS。HapMap RNAseq数据集和HapMap WXS数据集在实例2和3中进行了描述。
[0158] 对于每个数据集,根据样品的在HLA基因座处的映射后覆盖度倍数(x-轴)来将样品进行分仓。符号的y坐标表示样品每个仓内的平均精确度(四位数分辨率下),误差棒指示方差。对于每个双端测序数据集(实心符号),还在单端假设(空心符号)下通过忽略读段之间的成对关系来处理样品。通过平滑线条示出符号的趋势,该平滑线条通过样条内插得到。
[0159] 如图2中所示,PHLAT方法的精确度与覆盖度倍数正相关。增加覆盖度倍数时精确度的上升趋势不仅在单独的数据集内出现而且还在它们之间出现。例如,覆盖度系统地高于HapMap WXS样品的1000Genome WXS样品一致性地展现出更高的精确度,尽管这两个数据集的其他测序参数相似。这种依赖关系可能有助于估计用于PHLAT的经验覆盖度阈值以便达到最佳预测。为了在双端测序中实现不低于90%的精确度(水平的虚线,图2),可能要应用30倍-50倍覆盖度,对于低于100bp的读段长度,覆盖度要大于100倍。
[0160] 当忽略成对约束并且将读段视作单端测序读段时,对于所有数据集均观察到预测精确度有不可忽略的系统性降低。在图2中,分别对于双端测序读段(2×101bp,底部分图,实心圆圈)和单端测序读段(1×101bp,底部分图,空心圆圈),HapMap WXS数据的精确度从>90%降到~85%。在HapMap RNAseq数据中降低更明显:从90-95%(2×37bp,顶部分图,实心圆圈)降到70-90%(1×37bp,顶部分图,空心圆圈)。这些观察结果凸显了双端测序对HLA类型推断的重要性。成对读段的优势源于实际上加倍的读段长度,这降低了映射的模糊性。
此外,长的末端到末端的跨度(通常数百个碱基)连接了相对远离的SNP,从而使得PHLAT能利用长的范围内来自SNP对的相位信息。