一种短串联重复序列重复数的检测和分型方法转让专利
申请号 : CN202110669050.9
文献号 : CN113362892B
文献日 : 2021-12-17
发明人 : 李梦 , 郭茂平 , 胡欢 , 陈初光
申请人 : 北京阅微基因技术股份有限公司
摘要 :
权利要求 :
1.一种基于二代测序的STR侧翼序列搜索比对方法,其特征在于,包括如下步骤:步骤1)原始数据处理步骤:将fastq文件和STR参考序列库进行比对;
步骤2)比对算法构建步骤:
a、已知左侧侧翼序列flank_left、右侧侧翼序列flank_right和待分析序列S1,将flank_left、flank_right按顺序拼接成序列S2;
b、初始化得分矩阵:以S1为列、S2为行构建得分矩阵,设置第1列惩罚得分都为0;设置第1行S2中左右侧翼序列拼接处的两个位置惩罚得分分别为‑10,其余位置惩罚得分为‑1;
c、填充得分矩阵:设置匹配得分match_score = 1,错配得分mismatch_score = ‑1,gap得分gap_score= ‑2;对于矩阵中每个单元格(i,j),其中的i代表矩阵行的索引,j代表矩阵列的索引,得分计算公式为:
若j ≠x 且 j ≠ y : F_ij=max(F_(i‑1,j‑1)+S(A_i,B_j),F_(i,j‑1)+d,F_(i‑1,j)+d) ;
若 j = x : F_ij=max(F_(i‑1,j‑1)+2S(A_i,B_j),F_(i,j‑1)+0,F_(i‑1,j)+2×d);
若 j = y : F_ij=max(F_(i‑1,j‑1)+2S(A_i,B_j),F_(i,j‑1)+2×d,F_(i‑1,j)+0);
其中x是flank_left的长度,y为x+1,d = gap_score,S(A_i,B_j) = match_score 或者 mismatch_score;
步骤3)STR位点重复区域锚定:读取步骤1)比对到的每条read,根据是否能够比对上STR参考序列分为两种情况:若比对上STR位点,则使用该STR位点的侧翼序列和上述比对算法搜索STR重复区域;若未比对上任何STR位点,则遍历所有STR位点的侧翼序列,并且使用上述比对算法搜索STR重复区域;若侧翼序列比对的结果总共不超过2个错配、插入和缺失,则输出比对上的STR位点以及重复区域序列,否则舍弃这条read;最终获得每条read锚定的重复区域序列长度。
2.权利要求1所述的基于二代测序的STR侧翼序列搜索比对方法,其特征在于,所述方法进一步包括:
步骤4):根据每条read锚定的重复区域序列长度,计算每条read比对上的STR位点的重复数。
3.权利要求1‑2任一所述的基于二代测序的STR侧翼序列搜索比对方法,其特征在于,所述步骤2)进一步包括:
d、获取重复区域序列:在矩阵中最后一列由下往上选取该列第一个最大分值s作为侧翼序列的比对得分,假设序列S2的长度为n,若n ‑ s ≤ 4,则在允许2个错配、插入或缺失的情况下,S1和S2可以比对上;以s的坐标为源头往左上回溯,得出j=x和j=y时行的坐标i1、i2,取S1上i1、i2位置中间的序列为STR位点重复区域序列。
4.一种基于检测有效峰值且结合重复数差异进行动态阈值设定的STR分型方法,其特征在于:
1)基于二代测序的单条read比对上的STR位点的重复数,统计样本每个STR位点上每种重复数检测到的reads数量(RC);
2)选取第一分型:根据峰值位置来选取分型,对于每个STR位点,RC最大的重复数A为峰,将该重复数判断为第一分型,反之则判断该STR位点未检测到任何分型;
3)遍历选取第二分型:每次找到一个峰之后将该峰RC值赋0,首先将第一分型的RC赋0,即令RC(A)= 0;假设重复数A、B的RC分别为RC(A)、RC(B),需同时满足以下3个条件则判定重复数B为峰:
a. RC(B)/RC(A)≥ 待检测分型B的梯度阈值T,所述阈值T=初始梯度 + 0.25 × (左侧梯度或者右侧梯度)×(A ‑ B);
b.RC(B)≥ 3;
c.RC(B)高于相邻重复数的RC;
4)输出分型结果,若同时找到满足要求的第一分型和第二分型,则分型结果为(A,B);
若找到满足要求的第一分型但没有找到满足要求的第二分型,则分型结果为(A);若没有找到满足要求的第一分型和第二分型,则未检测到分型;
所述步骤1)基于二代测序的单条read比对上的STR位点的重复数采用权利要求1‑3任一所述方法。
5.权利要求4所述的基于检测有效峰值且结合重复数差异进行动态阈值设定的STR分型方法,其特征在于,所述步骤2)中,所述最大的重复数A的RC ≥ 20。
6.权利要求5所述的基于检测有效峰值且结合重复数差异进行动态阈值设定的STR分型方法,其特征在于,所述步骤3)中,所述待检测分型B的梯度阈值T的计算如下:T = 0.28 + 0.25 × step ×(A ‑ B),其中,若A ‑ B > 0,step= 0.19;
若A ‑ B < 0 ,step = 0.33。
7.权利要求6所述的基于检测有效峰值且结合重复数差异进行动态阈值设定的STR分型方法,其特征在于,所述T=0.02。
8.一种基于检测有效峰值且结合重复数差异进行动态阈值设定的STR分型系统,其特征在于,所述系统包括如下模块,所述模块执行权利要求4‑7任一所述方法的步骤。
9.一种计算机可读介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1‑7任一所述方法。
10.一种电子设备,包括处理器以及存储器,所述存储器上存储一条或多条可读指令,所述一条或多条可读指令被所述处理器执行时,实现权利要求1‑7任一所述方法。
说明书 :
一种短串联重复序列重复数的检测和分型方法
技术领域
背景技术
多态性,易检测等特点,因此广泛地应用与法医相关的检测。从1985年开始,STR检测就已经
被应用到法医领域,通常是通过毛细管电泳配合荧光标记来检测。针对不同的STR位点进行
特异性引物设计,通过扩增获得不同长度和不同的荧光标记的扩增产物,通过毛细管电泳
区分不同的STR位点。
渗漏问题。因此,基于毛细管电泳检测的STR的数量一般不超过60个。随着高通量测序的发
展,越来越多的研究开始转向使用高通量测序来检测和识别STR等分子标记物。二代测序具
有通量大、检测位点多等优点,对于使用STR检测来进行身份鉴定和亲缘推断非常合适,也
越来越被广泛地应用于法医领域。例如近年美国破获的金州杀人案就是应用基于二代测序
的亲缘推断找到犯罪嫌疑人的亲属,从而确定犯罪嫌疑人。
中积累了数千万个个体的STR信息,而且其中很多是犯罪嫌疑人。使用二代测序来对STR位
点进行检测,相比于毛细管电泳有更多的优势。二代测序除了能够获得STR重复区域长度的
信息,也能够得到重复区域DNA序列的信息,这两种信息加在一起更加强了STR个体识别的
功能。已经有研究表明在人群中存在长度相同而序列不同的分型,而基于毛细管电泳的STR
检测不能够区分这种序列差异导致的不同分型;二代测序需要的扩增子片段要小于一代测
序,更加适合于一些降解DNA的STR检测;二代测序检测分型不依赖于bin值,因此能够检测
到新的和较为稀有的分型,而且有研究表明有的样本的STR重复区域发生较少bp的插入或
者缺失时可能会被毛细管电泳划分到同一个bin中,带来STR分型错误;通过给不同的样本
加上不同的序列标签,二代测序可以同时检测几百个,甚至上千个样本,检测通量大;二代
测序技术可以把STR、SNP、线粒体DNA等靶分子标记物融合到一个panel中,能够在一个
panel中得到大量有用的信息。目前美国已经开始在部分州和城市的法医系统中使用二代
测序代替毛细管电泳检测STR的测试,预计在近几年内开始在部分州和城市中实施。
仪是美国illumina公司的测序仪,其测序长度一般不超过250bp,这对于长重复序列STR的
准确分型提出了挑战。另一方面,二代测序检测STR的方法依赖于其两侧的侧翼序列的匹
配,如果侧翼序列发生错配、插入或者缺失,则无法准确定位到STR区域,影响对其重复数的
检测。此外,目前主流STR分型的生信分析方法是通过查看第二个分型的reads数是否为第
一个分型的40%及以上,如果达到则认为该位点是杂合型,有两个不同的分型(即该STR位
点有两种重复数)。由于二代测序的数据量随片段的长度会发生偏差,一般片段越长数据量
越少,所以在检测杂合型STR位点时,如果两个分型重复数相差较大,两个allele上read的
数量可能会差很多(有时两者的比率会超过1:10),按照40%的阈值就会造成重复数多的
STR分型漏检。
发明内容
时考虑错配、插入和缺失,而且跨过了中间的重复区域。
为‑1;
矩阵列的索引,得分计算公式为:
算法搜索STR重复区域;若未比对上任何STR位点,则遍历所有STR位点的侧翼序列,并且使
用上述比对算法搜索STR重复区域;若侧翼序列比对的结果总共不超过2个错配、插入和缺
失,则输出比对上的STR位点以及重复区域序列,否则舍弃这条read;最终获得每条read锚
定的重复区域序列长度。
的情况下,S1和S2可以比对上;以s的坐标为源头往左上回溯,得出j=x和j=y时行的坐标
i1、i2,取S1上i1、i2位置中间的序列为STR位点重复区域序列。
定重复数B为峰:
有找到满足要求的第一分型和第二分型,则未检测到分型。
(MN),而搜索分型的时间复杂度为O(T),其中的M是两个侧翼序列的长度和,N为read的长
度,T为对于某一个STR位点的检测到的总的分型的个数。当侧翼序列发生1‑2个错配、插入
或者缺失时,本发明改进的Needleman‑Wunsch算法依然能根据侧翼序列检测出STR重复区
域,有效地避免了常规检测方法漏掉含错配、插入或者缺失的侧翼序列的read的情况,数据
利用率更高,检测结果更准确。
动态阈值的方式,能够有效地校正测序长度对分型检出的影响,提高杂合型STR两个位点同
时检出的概率。
附图说明
附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前
提下,还可以根据这些附图获得其他的附图。
具体实施方式
人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
很好理解,但仍然阐述以下定义以更好地解释本发明。
是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方
案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
适当的环境下可互换,并且本发明描述的实施方案能以不同于本发明描述或举例说明的其
它顺序实施。
flank_right按顺序拼接成序列S2。这里得到的x、y代表的就是侧翼序列连接处的位置。
余位置惩罚得分为‑1(即矩阵第一行的值除了侧翼序列连接处为‑10,其余都为‑1)。
矩阵列的索引,得分计算公式为:
以比对上;以s的坐标为源头往左上回溯,可以得出j=x和j=y时行的坐标i1、i2,最后取S1
上i1、i2位置中间的序列即为STR位点重复区域序列。
STR重复区域;2、若未比对上任何STR位点,则遍历所有STR位点的侧翼序列,并且使用上述
算法找到STR重复区域;若比对的结果总共不超过2个错配、插入或者缺失,则输出比对上的
STR位点以及重复区域序列,否则舍弃这条read;最终获得每条read锚定的重复区域序列长
度。
的RC之间的比值。重复数B的RC要高于该分型的梯度阈值T。
若没有找到满足要求的第一分型和第二分型,则未检测到分型。
有的read,使用侧翼序列匹配,如果匹配则使用重复数计算公式计算重复区域包含的重复
数。随后统计每一个位点中的各个分型的read的数目,最后使用分型算法得到正确的分型。
其中关键的步骤是重复区域的检测和分型的确定,具体如下。
法),使之能够同时搜索左侧和右侧侧翼序列,并且能够跨过中间的未知重复数的重复区
域。识别侧翼序列的方式的图2所示,图中的最上面是理想情况下read的结构和侧翼序列所
在的位置,中间部分为改进点,最下面是两个侧翼序列和read比对的一个例子。
right按顺序拼接成序列S2。这里得到的x、y代表的就是侧翼序列连接处的位置。
NW算法详细以及打分矩阵,图3左侧是事例打分矩阵,右侧是具体的对NW算法的改进)。
S1和S2可以比对上;以s的坐标为源头往左上回溯,可以得出j=x和j=y时i的坐标i1、i2,
最后取S1上i1、i2中间的序列(TT)即为STR位点重复区域序列。
重复区域;2、若未比对上任何STR位点,则遍历所有STR位点的侧翼序列,并且使用上述算法
找到STR重复区域;若比对的结果总共不超过2个错配、插入或缺失,则输出比对上的STR位
点以及重复区域序列,否则舍弃这条read;最终获得每条read锚定的重复区域序列长度。
如果ACR值高于40%或者50%,一般就认为第二高的分型是一个正确的分型。然而,在毛细
管电泳和二代测序中,重复区域越长的分型其read数目或者荧光强度通常越低。而且,这一
趋势随着read测序长度的变化而变化,如图4所示。图4为测序读长对较长的分型的read数
量的影响,其中,测序读长和两个分型之间read数量的比值(ACR值)已经标记到图中。对于
同一STR位点的两个allele,测序读长越短,则read数量相差越大。
候,去掉之前找到的峰的作用。具体的,read最高的分型必为峰,下一步将最高峰的read数
赋值为0,这是为了避免第二高的正确分型和最高分型相邻的情况。下一步再重新寻找峰值
的位置,依次循环。
考虑分型之间长度越大read数量相差越大的情况,本发明使用了梯度阈值,即阈值随着待
检测的分型和最高read数量的分型的重复数差异的变化而变化,如果待检测的分型的重复
数比最高分型的重复数越大,则阈值越低,反之则阈值越高。
本,找到比较理想的阈值为20。如图6所示,当read数量的阈值小于20的时候,不一致率变化
很大,而当read数量的阈值大于20的时候,不一致率的变化很小。其中检测到的分型数量是
随着read数量阈值的增大而逐渐的减小。
+(A‑B)乘以右侧阈值梯度;如果B使用几十个真实样本和三重循环遍历的方式确定了三个参数的最优值,并且使用地形图来
查看得到的三个阈值是否确实为最优值,结果如图7所示。图7中左图和右图中箭头所指的
位置即为左侧梯度阈值和右侧梯度阈值的最优值。图中的左侧梯度阈值和右侧梯度阈值都
乘以4来让三个值在大小上更相近。可以看出,其中得到的初始梯度的最优值为0.28,左侧
梯度的最优值为0.19,右侧梯度的最优值为0.33,图中箭头的位置即为所述的值的位置。
任何分型。
为RC(A)、RC(B),若同时满足以下两个条件则判定重复数B为峰:
step=0.19(左侧梯度);若A‑B<0,step=0.33(右侧梯度)。已知ACR=RC(B)/RC(A),需同时
满足ACR≥T、ACR≥0.02和RC(B)≥3;其中的A代表检测到的第一分型,B代表正在检测的分
型,ACR值代表B分型和A分型的RC之间的比值。
≤1,0
RC(B)>RC(right)。
真实样本进行测试。真实样本测试的阳性对照为毛细管电泳(CE)的结果。具体的步骤包括
首先是STR位点的二代建库以及高通量测序;下机后的数据拆分、序列比对;最后应用本发
明提出的方法进行重复数的检测和STR的分型,以旧方法(通过ACR值直接进行分型)作对
照。
99.9%,使用旧的方法为99.1%。
旧方法检测的一致率为93.8%。具体结果如表2和表3所示。
著提高。尤其联用本发明两个方法以后,一致率从93.8%增加到了99.6%。而且在一些STR
位点上,例如D13S317,同样看到了明显的效果的改善。
和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应
用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及
各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。