测序结果比对方法及其应用转让专利
申请号 : CN201911148507.0
文献号 : CN112825268A
文献日 : 2021-05-21
发明人 : 朱欠华 , 杨林峰 , 万胜青
申请人 : 深圳华大基因科技服务有限公司
摘要 :
权利要求 :
1.一种测序结果比对方法,其特征在于,包括:将参考序列按照第一预定长度进行k-mer切分,构建索引库;
基于每条测序读段的序列,确定种子序列集合,所述种子序列集合由多个种子序列构成,所述种子序列集合中所述种子序列的数目大于比对所允许的错配数,并且所述种子序列的长度不超过所述第一预定长度;
将所述种子序列集合的至少一部分与所述索引库进行匹配;
将测序读段与匹配上的参考序列进行全局比对。
2.根据权利要求1所述的方法,其特征在于,所述全局比对是通过如下方式进行的:获取待比对的来源于所述测序读段的第一核酸序列与来源于所述匹配上的参考序列的第二核酸序列各位置上的基本单元信息;
基于所述基本单元信息,构建得分矩阵Mmn,其中,m为所述第一核酸序列的基本单元数目,n为所述第二核酸序列的基本单元数目,其中所述得分矩阵中的元素Mij表示所述第一核酸序列中第i个基本单元与所述第二核酸序列中第j个基本单元的比对得分;
基于所述得分矩阵Mmn的数值,进行回溯处理,以便获得经过所述第一核酸序列与所述第二核酸序列的比对结果,
其中,
所述元素Mij是基于下列公式确定的:其中,
Mi-1,j-1表示所述第一核酸序列中第i-1个基本单元与所述第二核酸序列中第j-1个基本单元的比对得分;
Mi,j-1表示所述第一核酸序列中第i个基本单元与所述第二核酸序列中第j-1个基本单元的比对得分;
Mi-1,j表示所述第一核酸序列中第i-1个基本单元与所述第二核酸序列中第j个基本单元的比对得分;
g表示小于零的第一预定数值;
S(Ri,Sj)是基于所述第一核酸序列中第i个基本单元Ri与所述第二核酸序列中第j个基本单元Sj确定的数值,其中,当Ri与Sj相同时,S(Ri,Sj)为第二预定数值,当Ri与Sj不相同时,S(Ri,Sj)为第三预定数值,所述第三预定数值小于所述第二预定数值。
3.根据权利要求1或2所述的方法,其特征在于,所述回溯处理是根据下列步骤确定的;
(a)确定所述矩阵Mmn中的最大值所对应的回溯起始位置;
(b)基于所述回溯起始位置上游相邻三个位置的数值,确定下一回溯位置,其中,所述上游相邻三个位置包括行相邻位置、对角线相邻位置和列相邻位置,其中,选择数值最大的位置作为所述下一回溯位置,并且优先选择所述对角线相邻位置;
(c)重复步骤(b),直到步骤(b)中所确定的所述下一回溯位置的行号和列号的至少之一为0;
(d)基于步骤(a)-(c)中所确定的回溯路线,确定所述第一核酸序列与所述第二核酸序列的比对结果。
4.根据权利要求2所述的方法,其特征在于,所述第一预定数值为不小于-10的整数,优选-5。
5.根据权利要求2所述的方法,其特征在于,所述第二预定数值为1。
6.根据权利要求2所述的方法,其特征在于,所述第三预定数值为-2。
7.根据权利要求2所述的方法,其特征在于,所述基本单元为碱基。
8.根据权利要求1所述的方法,其特征在于,所述第一预定长度为不超过20的整数,优选不超过15,更优选不超过10,最优选9。
9.根据权利要求1所述的方法,其特征在于,所述种子序列集合是通过下列步骤确定的:
(1)将所述测序读段的5’末端和3’末端各去除第二预定长度的碱基;
(2)将经过步骤(1)处理的所述测序读段划分为多个长度相同的子片段,所述子片段的数目超过所述比对所允许的错配数;
(3)在每个子片段中,由5’末端起始基于所述第一预定长度,确定所述种子序列,其中,如果所述子片段的长度小于所述第一预定长度,则将所述子片段作为所述种子序列,如果所述子片段的长度大于所述第一预定长度,则由所述子片段作的5’末端起始延伸所述第一预定长度作为所述种子序列。
10.根据权利要求9所述的方法,其特征在于,所述第二预定长度为不超过2的整数。
11.根据权利要求9所述的方法,其特征在于,所述子片段的数目=所述比对所允许的错配数+1。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-11中任一所述的测序结果比对方法。
13.一种电子设备,其特征在于,包括存储器、处理器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-11中任一所述的测序结果比对方法。
14.一种测序结果比对系统,其特征在于,包括:构建索引库装置,所述构建索引库装置用于将参考序列按照第一预定长度进行k-mer切分,构建索引库;
种子序列集合确定装置,所述种子序列集合确定装置用于基于每条测序读段的序列,确定种子序列集合,所述种子序列集合由多个种子序列构成,所述种子序列集合中所述种子序列的数目大于比对所允许的错配数,并且所述种子序列的长度不超过所述第一预定长度;
匹配装置,所述匹配装置用于将所述种子序列集合的至少一部分与所述索引库进行匹配;
比对装置,所述比对装置用于将测序读段与匹配上的参考序列进行全局比对。
15.根据权利要求14所述的比对系统,其特征在于,所述比对装置包括:获取基本单元信息单元,所述获取基本单元信息单元用于获取待比对的来源于所述测序读段的第一核酸序列与来源于所述匹配上的参考序列的第二核酸序列各位置上的基本单元信息;
构建得分矩阵单元,所述构建得分矩阵单元与所述获取基本单元信息单元相连,用于基于所述基本单元信息,构建得分矩阵Mmn,其中,m为所述第一核酸序列的基本单元数目,n为所述第二核酸序列的基本单元数目,其中所述得分矩阵中的元素Mij表示所述第一核酸序列中第i个基本单元与所述第二核酸序列中第j个基本单元的比对得分;
回溯单元,所述回溯单元与所述构建得分矩阵单元相连,用于基于所述得分矩阵Mmn的数值,进行回溯处理,以便获得经过所述第一核酸序列与所述第二核酸序列的比对结果,其中,
所述元素Mij是基于下列公式确定的:其中,
Mi-1,j-1表示所述第一核酸序列中第i-1个基本单元与所述第二核酸序列中第j-1个基本单元的比对得分;
Mi,j-1表示所述第一核酸序列中第i个基本单元与所述第二核酸序列中第j-1个基本单元的比对得分;
Mi-1,j表示所述第一核酸序列中第i-1个基本单元与所述第二核酸序列中第j个基本单元的比对得分;
g表示小于零的第一预定数值;
S(Ri,Sj)是基于所述第一核酸序列中第i个基本单元Ri与所述第二核酸序列中第j个基本单元Sj确定的数值,其中,当Ri与Sj相同时,S(Ri,Sj)为第二预定数值,当Ri与Sj不相同时,S(Ri,Sj)为第三预定数值,所述第三预定数值小于所述第二预定数值。
16.根据权利要求14所述的系统,其特征在于,所述种子序列集合确定装置进一步包括:
末端去除单元,所述末端去除单元用于将所述测序读段的5’末端和3’末端各去除第二预定长度的碱基;
划分子片段单元,所述划分子片段单元用于将经过末端去除单元处理的所述测序读段划分为多个长度相同的子片段,所述子片段的数目超过所述测序的平均错配数;
种子序列确定单元,所述种子序列确定单元用于在每个子片段中,由5’末端起始基于所述第一预定长度,确定所述种子序列,其中,如果所述子片段的长度小于所述第一预定长度,则将所述子片段作为所述种子序列,如果所述子片段的长度大于所述第一预定长度,则由所述子片段作的5’末端起始延伸所述第一预定长度作为所述种子序列。
17.根据权利要求15所述的系统,其特征在于,所述回溯单元进一步包括;
确定回溯起始位置模块,所述确定回溯起始位置模块用于确定所述矩阵Mmn中的最大值所对应的回溯起始位置;
确定下一回溯位置模块,所述确定下一回溯位置模块用于基于所述回溯起始位置上游相邻三个位置的数值,确定下一回溯位置,其中,所述上游相邻三个位置包括行相邻位置、对角线相邻位置和列相邻位置,其中,选择数值最大的位置作为所述下一回溯位置,并且优先选择所述对角线相邻位置;重复确定下一回溯位置,直到所确定的所述下一回溯位置的行号和列号的至少之一为0;
比对结果输出模块,所述比对结果输出模块用于基于所确定的回溯路线,确定所述第一核酸序列与所述第二核酸序列的比对结果。
说明书 :
测序结果比对方法及其应用
技术领域
背景技术
由于部分物种参考序列不一定完全准确,或者测序过程中引入的误差(譬如illumina机器
在高GC区时测序不准确)等原因,导致测序得到的片段存在一些小的突变,却难以准确定位
到相应的参考序列,使得最终的定量结果存在偏差。
易检索不到完全匹配的片段,从而导致序列不能被比对上,进而影响了下游的小RNA定量。
找和种子序列相同的片段并标记,以这些标记点为锚点向左右按一定规律延伸比对,将不
合条件的舍弃,符合条件的结果将输出保存。如果种子中存在错配,整条read的比对就不会
被进行,所以就会被认定为非比对上,导致丢失部分比对信息。
发明内容
串)切分,构建索引库;基于每条测序读段的序列,确定种子序列集合,所述种子序列集合由
多个种子序列构成,所述种子序列集合中所述种子序列的数目大于比对所允许的错配数,
并且所述种子序列的长度不超过所述第一预定长度;将所述种子序列集合的至少一部分与
所述索引库进行匹配,将测序读段与匹配上的参考序列进行全局比对。根据本发明实施例
的上述测序结果比对方法通过采取比测序的平均错配数多的多个种子序列检索模式,保证
了每条测序读段至少有一条种子序列的匹配,避免了因为种子序列错配而导致匹配不上的
情况;同时,通过种子序列与索引库先匹配,将参考读段与匹配上的参考序列进行全局比
对,而非每条测序读段与所有参考序列进行全局比对,减少了比对的运算量,极大提高了比
对速度;并且通过全局比对,极大地满足了各种类型的小核酸序列比对,如目的片段比参考
序列长、目的片段中存在突变等;提高了小核酸数据的利用率,同时提升了小核酸定量的准
确性。
上的基本单元信息;基于所述基本单元信息,构建得分矩阵Mmn,其中,m为所述第一核酸序列
的基本单元数目,n为所述第二核酸序列的基本单元数目,其中所述得分矩阵中的元素Mij表
示所述第一核酸序列中第i个基本单元与所述第二核酸序列中第j个基本单元的比对得分;
基于所述得分矩阵Mmn的数值,进行回溯处理,以便获得经过所述第一核酸序列与所述第二
核酸序列的比对结果,其中,所述元素Mij是基于下列公式确定的:
酸序列中第j-1个基本单元的比对得分;Mi-1,j表示所述第一核酸序列中第i-1个基本单元与
所述第二核酸序列中第j个基本单元的比对得分;g表示小于零的第一预定数值;S(Ri,Sj)是
基于所述第一核酸序列中第i个基本单元Ri与所述第二核酸序列中第j个基本单元Sj确定的
数值,其中,当Ri与Sj相同时,S(Ri,Sj)为第二预定数值,当Ri与Sj不相同时,S(Ri,Sj)为第三
预定数值,所述第三预定数值小于所述第二预定数值。
件更严格一些,就是不允许错配;如果所允许的错配数大于1,比对结果可能不太可靠,导致
后续定量等分析结果相对不那么准确。所以在小RNA测序中,比对所允许的错配数一般是1
个错配。
对不上,从而丢失部分比对结果;种子长度过短会增加运算时间,比对速度较慢,但结果更
准确。本方法通过比较不同长度后优选设置长度为9,平衡了比对速度和结果准确性。
段划分为多个长度相同的子片段,所述子片段的数目超过所述测序的平均错配数;(3)在每
个子片段中,由5’末端起始基于所述第一预定长度,确定所述种子序列,其中,如果所述子
片段的长度小于所述第一预定长度,则将所述子片段作为所述种子序列,如果所述子片段
的长度大于所述第一预定长度,则由所述子片段作的5’末端起始延伸所述第一预定长度作
为所述种子序列。
越长则快但可能会丢失部分比对信息;
码来运行与所述可执行程序代码对应的程序,以用于实现前面所述的测序结果比对方法。
度进行k-mer切分,构建索引库;种子序列集合确定装置,所述种子序列集合确定装置用于
基于每条测序读段的序列,确定种子序列集合,所述种子序列集合由多个种子序列构成,所
述种子序列集合中所述种子序列的数目大于比对所允许的错配数,并且所述种子序列的长
度不超过所述第一预定长度;匹配装置,所述匹配装置用于将所述种子序列集合的至少一
部分与所述索引库进行匹配;比对装置,所述比对装置用于将测序读段与匹配上的参考序
列进行全局比对。
基本单元信息;
目,n为所述第二核酸序列的基本单元数目,其中所述得分矩阵中的元素Mij表示所述第一核
酸序列中第i个基本单元与所述第二核酸序列中第j个基本单元的比对得分;
果,其中,
同时,S(Ri,Sj)为第三预定数值,所述第三预定数值小于所述第二预定数值。
子片段单元,所述划分子片段单元用于将经过末端去除单元处理的所述测序读段划分为多
个长度相同的子片段,所述子片段的数目超过所述测序的平均错配数;种子序列确定单元,
所述种子序列确定单元用于在每个子片段中,由5’末端起始基于所述第一预定长度,确定
所述种子序列,其中,如果所述子片段的长度小于所述第一预定长度,则将所述子片段作为
所述种子序列,如果所述子片段的长度大于所述第一预定长度,则由所述子片段作的5’末
端起始延伸所述第一预定长度作为所述种子序列。
溯位置模块,所述确定下一回溯位置模块用于基于所述回溯起始位置上游相邻三个位置的
数值,确定下一回溯位置,其中,所述上游相邻三个位置包括行相邻位置、对角线相邻位置
和列相邻位置,其中,选择数值最大的位置作为所述下一回溯位置,并且优先选择所述对角
线相邻位置;重复确定下一回溯位置,直到所确定的所述下一回溯位置的行号和列号的至
少之一为0;比对结果输出模块,所述比对结果输出模块用于基于所确定的回溯路线,确定
所述第一核酸序列与所述第二核酸序列的比对结果。
附图说明
具体实施方式
取种子序列长度的片段,如果到S末端的长度小于种子序列长度时,则截取S末端种子序列
长度的片段,确定种子序列集合;
(Ri,Sj)是根据Ri和Sj的碱基的匹配情况给不同的分值。
频率也是很低的,所以在进行测序读段比对时,遇到错配或者indel应该是小概率事件,所
以这样进行罚分。
参考序列和测序片段开gap。
待比对的第一核酸序列与第二核酸序列各位置上的基本单元信息;构建得分矩阵单元420,
所述构建得分矩阵单元420与所述获取基本单元信息单元410相连,用于基于所述基本单元
信息,构建得分矩阵Mmn,其中,m为所述第一核酸序列的基本单元数目,n为所述第二核酸序
列的基本单元数目,其中所述得分矩阵中的元素Mij表示所述第一核酸序列中第i个基本单
元与所述第二核酸序列中第j个基本单元的比对得分;回溯单元430,所述回溯单元430与所
述构建得分矩阵单元420相连,用于基于所述得分矩阵Mmn的数值,进行回溯处理,以便获得
经过所述第一核酸序列与所述第二核酸序列的比对结果,其中,
同时,S(Ri,Sj)为第三预定数值,所述第三预定数值小于所述第二预定数值。
始位置;确定下一回溯位置模块432,所述确定下一回溯位置模块432用于基于所述回溯起
始位置上游相邻三个位置的数值,确定下一回溯位置,其中,所述上游相邻三个位置包括行
相邻位置、对角线相邻位置和列相邻位置,其中,选择数值最大的位置作为所述下一回溯位
置,并且优先选择所述对角线相邻位置;重复确定下一回溯位置,直到所确定的所述下一回
溯位置的行号和列号的至少之一为0;比对结果输出模块433,所述比对结果输出模块433用
于基于所确定的回溯路线,确定所述第一核酸序列与所述第二核酸序列的比对结果。
定长度进行k-mer切分,构建索引库;;种子序列集合确定装置200,所述种子序列集合确定
装置200用于基于每条测序读段的序列,确定种子序列集合,所述种子序列集合由多个种子
序列构成,所述种子序列集合中所述种子序列的数目大于测序的平均错配数,并且所述种
子序列的长度不超过所述第一预定长度;匹配装置300,所述匹配装置300用于将所述种子
序列集合的至少一部分与所述索引库进行匹配;比对装置400,所述比对装置400用于将所
述种子序列集合的至少一部分与所述索引库进行比对,其中所述核酸序列比对装置如前面
所限定的。
定长度的碱基;划分子片段单元220,所述划分子片段单元220用于将经过末端去除单元处
理的所述测序读段划分为多个长度相同的子片段,所述子片段的数目超过所述测序的平均
错配数;种子序列确定单元230,所述种子序列确定单元230用于在每个子片段中,由5’末端
起始基于所述第一预定长度,确定所述种子序列,其中,如果所述子片段的长度小于所述第
一预定长度,则将所述子片段作为所述种子序列,如果所述子片段的长度大于所述第一预
定长度,则由所述子片段作的5’末端起始延伸所述第一预定长度作为所述种子序列。
骤生成了1-19的几个片段,深度的意思就是对同一个参考序列,进行多少次1-4步骤。10以
内)。
代表错配,S代表首末端滑动。
发明的性能都是优于现有的比对方法的。
滑动,(这个在本申请的方法里面是不认为比对上的,本申请的方法至多允许首末端2个滑
动)。这是因为在真实的小RNA分析时,也不太可能说首末端多出3个甚至更多的碱基,还认
为是同一个小RNA的片段。
隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三
个等,除非另有明确具体的限定。
连接或彼此可通讯;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部
的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而
言,可以根据具体情况理解上述术语在本发明中的具体含义。
点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不
必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任
一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技
术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结
合和组合。
实施例进行变化、修改、替换和变型。