一种基于低深度测序法检测染色体中三倍体、ROH的方法转让专利

申请号 : CN202110878235.0

文献号 : CN113337600B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 费嘉刘沙沙孙蕾寇帅金治平杨群张倩

申请人 : 北京嘉宝仁和医疗科技有限公司

摘要 :

本发明提供了一种基于低深度测序法检测染色体中三倍体及ROH的方法,方法包括:基于酶切法,获取待测样本的基因组测序数据;提取基因组测序数据内SNP位点,SNP位点的数量记为m;依据SNP位点的基因分型,统计SNP位点中杂合SNP位点的数量n;判断待测样本是否为三倍体:若p≥n/m>0时,则待测样本杂合SNP位点过少,为全基因组ROH;若1>n/m>p时,根据不同AF值区间的SNP数量判断待测样本是否为三倍体。本发明提供的方法兼容性强、适用性广、成本低、不需要设计探针,只需要超低的测序深度即可实现同时对基因组三倍体或ROH的判断。

权利要求 :

1.一种非诊断目的的基于低深度测序法检测染色体中三倍体及ROH的方法,其特征在于,方法包括:

基于酶切法,获取待测样本的低深度基因组测序数据;

提取基因组测序数据内SNP位点,SNP位点的数量记为m,其中基因组测序数据内SNP位点的获取方法为:检测基因组测序数据内全部SNP位点或目标SNP位点;剔除全部SNP位点或目标SNP位点内含多个等位基因的SNP位点;对剔除含多个等位基因的SNP位点后剩余的SNP位点进行过滤,即得基因组测序数据内SNP位点;

依据SNP位点的基因分型,统计SNP位点中杂合SNP位点的数量n;

判断待测样本是否为三倍体或全基因组ROH:若p≥n/m>0时,则待测样本为全基因组ROH;

若1>n/m>p时,则判断待测样本是否为三倍体,其中,p为0.1 0.3;

~

待测样本是否为三倍体的判断方法,包括:基于基因组测序数据,在m个SNP位点内统计等位基因频率AF为0.33、0.5、0.67位置处SNP位点的数量,并依次计数为Count1、Count2、Count3;若(Count1+Count3)/m>2*(Count2/m)时,则判断待测样本为三倍体。

2.根据权利要求1所述的方法,其特征在于,所述方法还包括,基于基因组测序数据,判断基因组测序数据内是否有区域ROH;

区域ROH的判断方法,包括:

将待测样本的基因组测序数据依次划分为若干个区段;

统计各区段内SNP位点的数量q1和杂合SNP位点的数量q2;

计算各区段的q2/q1的数值,若连续多个区段的q2/q1数值均小于阈值Q时,则判断该连续多个区段为区域ROH。

3.根据权利要求2所述的方法,其特征在于,所述阈值Q为0.1 0.3。

~

4.根据权利要求2所述的方法,其特征在于,所述各区段内SNP位点的数量q1≥10。

5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:基于基因组测序数据计算待测样本的染色体拷贝数。

说明书 :

一种基于低深度测序法检测染色体中三倍体、ROH的方法

技术领域

[0001] 本发明属于基因检测技术领域,涉及染色体是否为三倍体或ROH的检测方法,具体为一种基于低深度测序法检测染色体中三倍体、ROH的方法。

背景技术

[0002] 众所周知,正常人类细胞中包含两组染色体,一组来自父亲,一组来自母亲。其中,三倍体是胎儿细胞中多了一组额外的染色体组,其是一种严重的染色体异常,是妊娠早期
流产的重要原因之一。基因组区域纯合状态(Regions of Homozygosity, ROH)是一种基因
组区域中一定范围内连续呈现的杂合性丢失的现象,染色体存在ROH时提示可能存在单亲
二体(UPD),UPD出现在特定的染色体上时,会由于遗传印记效应引起相关疾病。此外,ROH区
域内发生孟德尔隐性遗传病的风险明显增加。
[0003] 在植入前遗传学筛查中,对染色体是否存在三倍体、ROH的情况进行检测,能避免部分流产和减少患儿的出生,减少患者家庭不必要的时间和经济成本,在流产组织学诊断
中,三倍体、ROH的检测能帮助确定流产遗传学原因,提高流产的诊断率。
[0004] 目前,现有的三倍体的检测方法有核型、荧光原位杂交(FISH)、定量PCR(QF‑PCR)、SNP芯片、二代测序等。在上述方法中:
[0005] 核型、FISH、QF‑PCR方法为低通量检测技术,其不能同时检测所有染色体,上述方法可以通过设计特定的探针提示三倍体,但不能提示UPD(单亲二体);
[0006] MS‑MLPA技术能检测UPD,但只能检测特定种类的UPD,且不能提示三倍体;
[0007] 芯片技术中的array CGH可以检测拷贝数异常,但不能检测三倍体和ROH;SNP array技术可以检测三倍体和ROH,但是对待测样本的要求和成本都比较高;
[0008] 测序技术检测染色体拷贝数的方法,CNV‑seq方法的测序深度低,不能检出三倍体和ROH;通过STR方法分析区分三倍体和正常二倍体,STR探针的多态性高,但是其在基因组
中分布不均匀。
[0009] 因此,鉴于目前市场上的检测产品存在通量低、操作复杂、成本高等问题,亟需设计一种能同时检测三倍体和ROH的方法。

发明内容

[0010] 本发明的目的在于提供一种基于低深度测序法检测染色体中三倍体及ROH的方法,其适用性强,能够适用多种建库方式和测序仪器;且其检测成本低、通量高、扩展性强,
可以检测基因组测序数据范围内大量的SNP位点。
[0011] 实现发明目的的技术方案如下:一种基于低深度测序法检测染色体中三倍体及ROH的方法,方法包括:
[0012] 基于酶切法,获取待测样本的基因组测序数据;
[0013] 提取基因组测序数据内SNP位点,SNP位点的数量记为m;
[0014] 依据SNP位点的基因分型,统计SNP位点中杂合SNP位点的数量n;
[0015] 判断待测样本是否为三倍体或全基因组ROH:
[0016] 若p≥n/m>0时,则待测样本为全基因组ROH;
[0017] 若1>n/m>p时,则判断待测样本是否为三倍体。
[0018] 本发明染色体中三倍体及ROH的方法的原理是:首先,基于酶切建库方式获得待测样本的低深度测序数据(即基因组测序数据);其次,提取并统计SNP位点的数量,根据SNP位
点的基因分型,统计杂合SNP位点的数量;然后,根据杂合SNP位点的占比,同时对待测样本
是否为三倍体或基因组测序数据ROH进行判断。本发明提供的方法兼容性强、适用性广、成
本低、不需要设计探针,只需要超低的测序深度即可实现对待测样本是否为三倍体或基因
组测序数据ROH进行判断。
[0019] 其中,上述待测样本是否为三倍体的判断方法,包括:
[0020] 基于基因组测序数据,在m个SNP位点内统计等位基因频率AF为0.33、0.5、0.67位置处SNP位点的数量,并依次计数为Count1、Count2、Count3;
[0021] 若(Count1+Count3)/m>2*(Count2/m)时,则判断待测样本为三倍体。
[0022] 进一步的,上述p为0.1 0.3。~
[0023] 在本发明的一个实施例中,方法还包括:基于基因组测序数据,判断基因组测序数据内是否有区域ROH。具体的,区域ROH的判断方法,包括:
[0024] 将待测样本的基因组测序数据依次划分为若干个区段;
[0025] 统计各区段内SNP位点的数量q1和杂合SNP位点的数量q2;
[0026] 计算各区段的q2/q1的数值,若连续多个区段的q2/q1数值均小于阈值Q时,则判断该连续多个区段为区域ROH。
[0027] 进一步的,上述阈值Q为0.1 0.3。~
[0028] 进一步的,上述各区段内SNP位点的数量q1≥10。
[0029] 在本发明的一个实施例中,方法还包括:基于基因组测序数据计算待测样本的染色体拷贝数。
[0030] 其中,上述基因组测序数据内SNP位点的获取方法,包括:
[0031] 检测基因组测序数据内全部SNP位点或目标SNP位点;
[0032] 剔除全部SNP位点或目标SNP位点内含多个等位基因的SNP位点;
[0033] 对剔除含多个等位基因的SNP位点后剩余的SNP位点进行过滤,即得基因组测序数据内SNP位点。
[0034] 与现有技术相比,本发明的有益效果是:
[0035] 1.本发明提供的方法兼容性强、适用性广、成本低、不需要设计探针,只需要超低的测序深度即可实现对基因组DNA的三倍体或全基因组ROH判断。
[0036] 2.本发明的方法在对基因组DNA的三倍体或全基因组ROH判断的同时,还能够对染色体拷贝数(CNV)、区域ROH进行判断。
[0037] 3.本发明通过将基因组测序数据划分为若干个区段,通过对各区段内SNP位点的数量和杂合SNP位点的数量进行统计,对连续多个区段进行分析,以判断该区域内是否存在
区域ROH的情况,能够更进一步的对待测样本进行分析。

附图说明

[0038] 为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明为了更清楚地说明本发
明实施例或现有技术中的技术方案,对于本领域普通技术人员来讲,在不付出创造性劳动
的前提下,还可以根据这些附图获得其他的附图。
[0039] 图1为实施例1中基于低深度测序法检测染色体中三倍体及全基因组ROH的方法的流程图;
[0040] 图2为实施例2中基于低深度测序法检测染色体中三倍体、全基因组ROH、染色体拷贝数的方法的流程图;
[0041] 图3为实施例3中基于低深度测序法检测染色体中三倍体、全基因组ROH、区域ROH、染色体拷贝数的方法的流程图。

具体实施方式

[0042] 下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人
员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进
行修改或替换,但这些修改和替换均落入本发明的保护范围内。
[0043] 在本实施例的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、 “前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为
基于附图所示的方位或位置关系,仅是为了便于描述本发明创造和简化描述,而不是指示
或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解
为对本发明创造的限制。
[0044] 此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征
可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另有说明,
“多个”的含义是两个或两个以上。
[0045] 实施例1:
[0046] 本实施方式提供了一种基于低深度测序法检测染色体中三倍体及ROH的方法,如图1所示,上述方法包括:
[0047] S1、基于酶切法,获取待测样本的基因组测序数据。
[0048] 具体的,基因组测序数据的获取方法为:提取待测样本的基因组DNA,将基因组DNA片段化。本实施例中择优选择使用酶切法(如特异性内切酶中的MspI酶)将基因组DNA片段
化,然后再在末端修复加A、加接头、扩增、片段选择等步骤,构建测序文库,通过上机测序获
得测序数据。
[0049] 当获得测序数据后,还需要对测序数据处理,方法为:去除测序数据的接头和低质量碱基,然后使用BWA、Bowtie等比对软件将测序数据与 hg18 或 hg19 人参考基因组进行
比对,生成比对文件后对文件进行排序和统计,得到排序后的bam文件和统计信息,其中,统
计信息包括比对率、平均深度等数据。测序数据经上述处理后,获得待测样本的基因组测序
数据。
[0050] S2、提取基因组测序数据内SNP位点,SNP位点的数量记为m。
[0051] 具体的,上述基因组测序数据内SNP位点的获取方法,包括:
[0052] S21、检测基因组测序数据内全部SNP位点或目标SNP位点。
[0053] 在本步骤中,基因组测序数据内SNP位点是通过软件(如Samtools、GATK、Freebayes等软件)检测获取的。其中,目标SNP位点为指定的SNP位点,例如从自有的SNP位
点列表或者公开数据库SNP(例如dbSNP、1000G)获取。
[0054] S22、剔除全部SNP位点或目标SNP位点内含多个等位基因的SNP位点。
[0055] S23、对剔除含多个等位基因的SNP位点后剩余的SNP位点进行过滤,即得基因组测序数据内SNP位点。
[0056] 在本步骤中,上述根据覆盖深度(例如碱基覆盖次数>10)、变异质量值等对SNP位点进行过滤。
[0057] S3、依据SNP位点的基因分型,统计SNP位点中杂合SNP位点的数量n。
[0058] S4、判断待测样本是否为三倍体或全基因组ROH;
[0059] S41、若p≥n/m>0时,说明待测样本中杂合SNP位点过少,可以判断该待测样本为全基因组ROH。
[0060] 本步骤中p为0.1 0.3,择优选择p=0.2。~
[0061] S42、若1>n/m>p时,可以排除待测样本为全基因组ROH,则判断待测样本是否为三倍体。
[0062] 本步骤中p为0.1 0.3,择优选择p=0.2。~
[0063] 具体的,上述待测样本是否为三倍体的判断方法,包括:
[0064] S421、基于基因组测序数据,在m个SNP位点内统计等位基因频率AF为0.33、0.5、0.67位置处SNP位点的数量,并依次计数为Count1、Count2、Count3;
[0065] S422、若(Count1+Count3)/m>2*(Count2/m)时,则判断待测样本为三倍体。
[0066] 本发明染色体中三倍体及ROH的方法的原理是:首先,基于酶切建库方式获得待测样本的低深度测序数据(即基因组测序数据);其次,提取并统计SNP位点的数量,根据SNP位
点的基因分型,统计杂合SNP位点的数量;然后,根据杂合SNP位点的占比,同时对待测样本
是否为三倍体或全基因组ROH进行判断。本发明提供的方法兼容性强、适用性广、成本低、不
需要设计探针,只需要超低的测序深度即可实现对待测样本是否为三倍体或全基因组ROH
进行判断。
[0067] 实施例2:
[0068] 本实施方式是在实施例1的基础上进行改进,具体的,提供了一种基于低深度测序法检测染色体中三倍体及全基因组ROH的方法,本实施例的方法是对待测样本的染色体中
是否存在三倍体或全基因组ROH情况同时进行检测的基础上,还对染色体拷贝数(CNV)进行
计算。
[0069] 如图2所示,同时检测染色体中三倍体或ROH或染色体拷贝数(CNV)的方法方法包括:
[0070] S1、基于酶切法,获取待测样本的基因组测序数据。
[0071] 其中,本步骤待测样本的基因组测序数据的获取方法与实施例1中的方法相同,在此不再进行赘述。
[0072] S2、提取基因组测序数据内SNP位点,SNP位点的数量记为m。
[0073] 其中,本步骤基因组测序数据内SNP位点的获取方法与实施例1中的方法相同,在此不再进行赘述。
[0074] S3、依据SNP位点的基因分型,统计SNP位点中杂合SNP位点的数量n。
[0075] S4、判断待测样本是否为三倍体或全基因组ROH;
[0076] S41、若p≥n/m>0时,说明待测样本中杂合SNP位点过少,可以判断该待测样本为全基因组ROH。
[0077] 本步骤中p为0.1 0.3,择优选择p=0.2。~
[0078] S42、若1>n/m>p时,可以排除待测样本为全基因组ROH,则判断待测样本是否为三倍体。
[0079] 本步骤中p为0.1 0.3,择优选择p=0.2。~
[0080] 具体的,上述待测样本是否为三倍体的判断方法,包括:
[0081] S421、基于基因组测序数据,在m个SNP位点内统计等位基因频率AF为0.33、0.5、0.67位置处SNP位点的数量,并依次计数为Count1、Count2、Count3;
[0082] S422、若(Count1+Count3)/m>2*(Count2/m)时,则判断待测样本为三倍体。
[0083] S43、基于基因组测序数据计算待测样本的染色体拷贝数(CNV)。
[0084] 具体的,上述染色体拷贝数(CNV)的计算方法择优选择为:将基因组DNA划分为一定长度的窗口,通过计算比对到窗口内的reads(测序序列)数,经过样本内均一化、GC校正
等步骤进行校正处理,将校正后的值与正常二倍体样本的值比较得比值,使用隐马尔科夫
模型推测基因组区域的拷贝数。需要说明的是,染色体拷贝数(CNV)的计算方法也可以选择
其他现有的方法进行计算,在此不对其进行具体的限定。
[0085] 本实施例能够对待测样本是否为三倍体或基因组测序数据ROH进行判断,也能够对染色体拷贝数计算,以确保待测样本检测的准确度。本发明提供的方法兼容性强、适用性
广、成本低、不需要设计探针,只需要超低的测序深度即可实现同时对待测样本是否为三倍
体或全基因组ROH或染色体拷贝数进行判断。
[0086] 实施例3:
[0087] 本实施方式是在实施例2的基础上进行改进,具体的,提供了一种基于低深度测序法检测染色体中三倍体及ROH的方法,本实施例的方法是在对待测样本的染色体中是否存
在三倍体或全基因组ROH、染色体拷贝数(CNV)的情况同时进行检测的基础上,还对待测样
本基因组测序数据内中是否存在区域ROH进行检测。
[0088] 如图3所示,同时检测染色体中三倍体、全基因组ROH、染色体拷贝数(CNV)、区域ROH的方法方法包括:
[0089] S1、基于酶切法,获取待测样本的基因组测序数据。
[0090] 其中,本步骤待测样本的基因组测序数据的获取方法与实施例1中的方法相同,在此不再进行赘述。
[0091] S2、提取基因组测序数据内SNP位点,SNP位点的数量记为m。
[0092] 其中,本步骤基因组测序数据内SNP位点的获取方法与实施例1中的方法相同,在此不再进行赘述。
[0093] S3、依据SNP位点的基因分型,统计SNP位点中杂合SNP位点的数量n。
[0094] S4、判断待测样本是否为三倍体或全基因组ROH;
[0095] S41、若p≥n/m>0时,说明待测样本中杂合SNP位点过少,可以判断该待测样本为全基因组ROH。
[0096] 本步骤中p为0.1 0.3,择优选择p=0.2。~
[0097] S42、若1>n/m>p时,可以排除待测样本为全基因组ROH,则判断待测样本是否为三倍体。
[0098] 本步骤中p为0.1 0.3,择优选择p=0.2。~
[0099] 具体的,上述待测样本是否为三倍体的判断方法,包括:
[0100] S421、基于基因组测序数据,在m个SNP位点内统计等位基因频率AF为0.33、0.5、0.67位置处SNP位点的数量,并依次计数为Count1、Count2、Count3;
[0101] S422、若(Count1+Count3)/m>2*(Count2/m)时,则判断待测样本为三倍体。
[0102] S43、基于基因组测序数据计算待测样本的染色体拷贝数(CNV)。
[0103] 其中,本步骤基因组测序数据内染色体拷贝数的计算方法与实施例1中的方法相同,在此不再进行赘述。
[0104] S44、基于基因组测序数据,判断基因组测序数据内的是否有区域ROH。
[0105] 具体的,区域ROH的判断方法,包括:
[0106] S441、将待测样本的基因组测序数据依次划分为若干个区段。
[0107] 具体的,由于基因组测序数据的长度不同,将其划分成区段后,对于不同的个体,其每个区段内含有SNP位点的数量也会不同,同时,在计算区域ROH时,各区段内的SNP位点
在一定数量的情况下,才能得到较准确的结果,否则会出现由SNP位点过少而引起的部分假
阴假阳的情况。因此,本步骤择优选择上述各区段内SNP位点的数量q1≥10,进而在保证各
区段内SNP位点的数量的情况下,各区段长度设置在300kb‑2Mb都是可选的,其需要根据具
体的情况进行确定。
[0108] S442、统计各区段内SNP位点的数量q1和杂合SNP位点的数量q2;
[0109] S443、计算各区段的q2/q1的数值,若连续多个(2个及以上)区段的q2/q1数值均小于阈值Q时,则判断该连续多个区段为区域ROH。
[0110] 在本步骤中阈值Q为0.1 0.3,择优选择阈值Q为0.1 0.2。~ ~
[0111] 本实施例能够对待测样本是否为三倍体、ROH(包括全基因组ROH、区域ROH)进行判断,同时也能够对染色体拷贝数计算,以确保待测样本检测的准确度。本发明提供的方法兼
容性强、适用性广、成本低、不需要设计探针,只需要超低的测序深度即可实现同时实现对
待测样本是否为三倍体、ROH、染色体拷贝数进行判断。
[0112] 以下通过3个示例,对待测样本中是否存在三倍体、全基因组ROH、区域ROH的情况进行判断。
[0113] 示例1:对待测样本1是否存在ROH或三倍体的情况进行判断:
[0114] 通过酶切法,获取待测样本1的基因组测序数据;
[0115] 对基因组测序数据内染色体区域内SNP位点统计,m=14856;
[0116] 对各SNP位点的基因分型进行分析,统计杂合SNP位点数量,n=4138;
[0117] 设置p=0.2,计算n/m=0.28>0.2,则排除该染色体区域存在整体ROH可能性;
[0118] 在m个SNP位点内,统计三个等位基因频率AF0.33、0.5、0.67的SNP个数,依次计数为Count1=1204、Count2=740、Count3=912;
[0119] 计算(Count1+Count3)/m>2*(Count2/m),则提示该待测样本1的染色体区域为三倍体。
[0120] 示例2:对待测样本2是否存在ROH或三倍体的情况进行判断:
[0121] 基于酶切法,获取样本的基因组测序数据。
[0122] 对基因组测序数据内染色体区域内SNP位点统计,m=25887;
[0123] 对各SNP位点的基因分型进行分析,统计杂合SNP位点数量,n=1809;
[0124] 设置p=0.2,计算n/m=0.07<0.2,说明基因组测序数据内杂合SNP位点占比较少,提示该待测样本2为全基因组ROH。
[0125] 示例3:对待测样本3是否存在区域ROH的情况进行判断:
[0126] 基于酶切法,获取待测样本3的基因组测序数据。
[0127] 将基因组测序数据以1M长度为一个窗口(即区段),划分为多个窗口,计算各窗口的杂合SNP位点数量q2与SNP位点数量q1;
[0128] 计算各窗口q2/q1的比值,经计算在基因组测序数据内,8号染色体的末端约14M范围内,其中连续12个窗口的q2/q1比值均低于0.2,判断该待测样本3的基因组测序数据内,8
号染色体末端14M范围的连续12个窗口为区域ROH。
[0129] 同时,对样本3的基因组测序数据进行拷贝数分析,测序数据经过样本内均一化、GC校正、基线校正等步骤,使用隐马尔科夫模型推测基因组区域的拷贝数,结果提示8号染
色体末端14M杂合缺失。
[0130] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
[0131] 此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当
将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员
可以理解的其他实施方式。