基于SNP多态性位点的样本识别标签筛选方法与样本识别检测方法转让专利
申请号 : CN202011192800.X
文献号 : CN112466395B
文献日 : 2021-08-17
发明人 : 栗海波 , 余伟师 , 梁萌萌 , 张斯佳 , 李珉
申请人 : 苏州赛美科基因科技有限公司
摘要 :
权利要求 :
1.一种样本识别检测方法,其特征在于,包括如下步骤:基于SNP多态性位点的样本识别标签筛选方法构建样本识别标签;
基于待识别样本的基因组比对与矫正数据,指定样本识别标签中所有SNP位点信息,重复获取每个SNP位点上的四类碱基分布情况;
根据每个SNP位点上同一碱基的频率,判定各SNP位点的分型,得到待识别样本中每个SNP位点的基因型统计结果;
分别获取多个待识别样本在样本识别标签下的所有SNP位点基因型统计结果,合并待识别样本中所有SNP位点基因型统计结果,进行基因型结果合并,获得多样本的SNP位点基因型矩阵;
基于SNP位点基因型矩阵,采用距离计算方法,得到样本间距离矩阵;
根据样本间距离矩阵,进行样本个体识别或样本来源判定。
2.根据权利要求1所述的样本识别检测方法,其特征在于,所述样本识别标签用于判定样本间对应关系,所述基于SNP多态性位点的样本识别标签筛选方法包括如下步骤:
1)对多个样本的基因组比对与矫正数据进行SNP变异检测,获得各样本的SNP变异检测数据;
2)对各样本的SNP变异检测数据中的变异进行合并,获得群体变异数据;
3)对群体变异数据中各变异位点进行频率统计,获得各SNP位点的人群频率统计数据;
4)将SNP位点人群频率统计数据按照指定人群频率过滤,保留指定人群频率区间范围内的SNP位点,构成第一SNP位点集合;
5)基于不同捕获探针共有的捕获区,筛选并保留第一SNP位点集合中共有捕获区域内的SNP位点,构成第二SNP位点集合;
6)过滤第二SNP位点集合中同源区域和重复区域的SNP位点,获得去重后的第三SNP位点集合;
7)根据第三SNP位点集合中任一SNP位点所在基因组片段的GC碱基含量筛选第三SNP位点集合中所有SNP位点,获得基因组片段中GC碱基含量处于平衡区的所有SNP位点,构成第四SNP位点集合;
8)对第四SNP位点集合中位于基因组上连锁区中的若干SNP位点,仅保留位于连锁区上任一SNP位点,去除连锁区上冗余SNP位点,获得最终无连锁现象的第五SNP位点集合,第五SNP位点集合定义为SNP候选标签位点集合;
9)从SNP候选标签位点集合中任意选取特定数目的SNP位点,特定数目的SNP位点构成样本识别标签。
3.根据权利要求2所述的样本识别检测方法,其特征在于,所述步骤3)中获得SNP位点人群频率统计数据的过程为:
对群体变异数据中任一变异位点,定义为目标SNP位点,获取目标SNP位点在基因组中的参考碱基类型和目标SNP位点经SNP变异后碱基类型;计算目标SNP位点人群频率,所述目标SNP位点人群频率包括变异频率和纯合比例;所述变异频率为群体所有样本中目标SNP位点经SNP变异后单碱基数量和占群体变异数据中群体所有样本目标位点碱基总数的比例,所述纯合比例为群体所有样本中目标SNP位点经SNP变异后纯合碱基数量占群体变异数据中群体所有样本目标位点双碱基总数的比例。
4.根据权利要求3所述的样本识别检测方法,其特征在于,所述步骤4)中指定人群频率区间为满足变异频率区间为(0.4,0.6),且同时满足纯合比例区间为(0.15,0.25)。
5.根据权利要求2所述的样本识别检测方法,其特征在于,所述步骤5)中捕获探针包括IDT、Agilent、T192V1、MGIV4和T084V2。
6.根据权利要求2所述的样本识别检测方法,其特征在于,所述步骤7)中根据SNP位点所在基因组片段的GC碱基含量筛选SNP位点的过程为:以任一SNP位点在基因组中的位置为参考位置,定义基因组上沿参考位置上下游100bp区域为基因组片段;查找基因组片段中所有碱基,统计基因组片段内GC碱基含量占基因组片段中所有碱基的比例;当该SNP位点对应的基因组片段中GC碱基的比例在[30%,50%]区间内,则保留该SNP位点至第四SNP位点集合中,否则筛去该SNP位点。
7.根据权利要求1所述的样本识别检测方法,其特征在于,根据样本间距离矩阵,判定样本间距离远近,绘制距离关系热图,样本间距离值的大小表征样本间亲缘关系的远近。
8.根据权利要求1所述的样本识别检测方法,其特征在于,所述样本间距离计算方法为:
对SNP位点基因型矩阵中每个SNP位点计算任意两个待识别样本间的距离值,任意两个待识别样本间的距离值为两个待识别样本上所有样本识别标签中的对应SNP位点间距离和的均值,公式如下:
其中,x、y分别表示待识别样本中任意两个样本,Dxy表示任意两个待识别样本间的距离值,i表示样本识别标签中特定的SNP位点,n表示样本识别标签中SNP位点的总数,dxy表示特定的SNP位点在两个待识别样本间距离值;
当两个待识别样本对于特定的SNP位点检出的基因型相同时,dxy=0.0;当两个待识别样本对于特定的SNP位点检出的基因型部分相同时,dxy=0.5;当两个待识别样本对于特定的SNP位点检出的基因型完全不相同时,dxy=1.0。
说明书 :
基于SNP多态性位点的样本识别标签筛选方法与样本识别检
测方法
技术领域
背景技术
对大量的个体检测样本,如何确保前端送测样本与最后分析样本一致性,避免样本间的搞
混,或是交叉污染的发生,需要耗费大量的监控资源。另一方面,在发现样本存在问题的情
况下,如何高效准确的区分样本,排查问题发生的环节,也存在一定的技术挑战。当前,精准
医学在迅速的普及与发展,医学领域不同疾病大型队列研究也在逐渐兴起,因此,大量的个
体与对应的样本间有效的对应管理,以及发现异常后,对样本与个体间的高效识别,也越来
越重要。
过电泳的方式进行扩增片段分离,并显示带型,通过对带型的差异分析,来进行个体样本的
区分,该方法目前是个体识别的主要技术手段。
扩增、电泳、显带STR分型,整体的流程周期比较长;2)通量较低,由于实验流程的复杂性,该
技术已经无法适配精准医学领域个体样本检测规模通量,成为一个比较关键的制约因素;
3)普适性偏低, PCR‑STR实验设计需要选取STR基因座,而STR基因座存在地缘人种的差异。
不同的地缘人种需要设计不同的STR基因座,来适用该地缘人种的个体识别;4) 有比较高
的技术要求,只有相关有资质的检测机构和专业人员,才能完成如此复杂的PCR‑STR分型实
验流程;即现有技术中缺乏可高效用于样本个体识别的检测方法,也缺乏能普遍适用于任
何样本进行识别判断的有效的识别标签。
发明内容
样本识别检测过程中高效对个体进行分型并识别样本的个体来源。
步骤:
成第四SNP位点集合;
第五SNP位点集合定义为SNP候选标签位点集合;
述目标SNP位点人群频率包括变异频率和纯合比例;所述变异频率为群体所有样本中目标
SNP位点经SNP变异后单碱基数量和占群体变异数据中群体所有样本目标位点碱基总数的
比例,所述纯合比例为群体所有样本中目标SNP位点经SNP变异后纯合碱基数量占群体变异
数据中群体所有样本目标位点双碱基总数的比例。
因组片段中所有碱基的比例;当该SNP位点对应的基因组片段中GC碱基的比例在[30%,
50%]区间内,则保留该SNP位点至第四SNP 位点集合中,否则筛去该SNP位点。
SNP位点基因型矩阵;
离和的均值,公式如下:
dxy表示特定的SNP位点在两个待识别样本间距离值;
特定的SNP位点检出的基因型完全不相同时,dxy=1.0。
本中若干个体来源识别或对应关系的检测;具体为,首先根据多个样本的基因组比对与矫
正数据经SNP变异检测后建立SNP人群频率数据库,再在SNP人群频率数据库中经五次筛选
出检测效果好的若干SNP位点构建 SNP候选标签位点集合,SNP候选标签位点集合中特定数
目的SNP位点构成样本识别标签;统计待识别样本中所有个体按照样本识别标签中各SNP位
点的分型结果构成SNP位点基因型矩阵,采用距离计算方法获得样本间距离矩阵,根据样本
间距离矩阵的数据即可实现样本个体识别或样本来源判定。
NGS测序技术中,实现对样本进行“指纹识别”,根据计算的样本间距离判定样本的个体来
源,能准确判别样本是否源于同一个体,同时能根据样本间距离关系,辅助判定样本亲缘关
系。
全外显子组测序(WES)等,针对不同探针类型的WES 测序数据也同样使用;整体筛选和检测
方法流程简便,使用方便。
的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
具体实施方式
明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术
人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。除
非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的
人士所理解的通常意义。
清楚地指明其它情况,否则单数形式的“一个”“一”或者“该”等类似词语也不表示数量限
制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包
含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的特征、整体、步骤、操作、
元素和/或组件,并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合
的存在或添加。“上”“下”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则
该相对位置关系也可能相应地改变。
高;本发明旨在提出一种基于SNP多态性位点的样本识别标签筛选方法与样本识别检测方
法,构建了对不同样本具有普适性的样本识别标签,对多个样本在分型能快速进行样本个
体识别和来源对应关系判断,适用范围广,工作效率和通量高。
法,上述两部分技术方案可直接概括为四个阶段,即SNP 人群频率数据库构建、SNP候选标
签位点筛选、样本SNP位点检测与分型和样本间距离关系计算与个体识别。其中,样本识别
标签的筛选方法涉及SNP人群频率数据库构建和SNP候选标签位点筛选两个阶段,样本识别
检测包括样本 SNP位点检测与分型和样本间距离关系计算与个体识别两个阶段。
成第四SNP位点集合;
第五SNP位点集合定义为SNP候选标签位点集合;
点经SNP变异后碱基类型;计算目标SNP位点人群频率,所述目标SNP位点人群频率包括变异
频率和纯合比例;所述变异频率为群体所有样本中目标SNP位点经SNP变异后单碱基数量和
占群体变异数据中群体所有样本目标位点碱基总数的比例,所述纯合比例为群体所有样本
中目标 SNP位点经SNP变异后纯合碱基数量占群体变异数据中群体所有样本目标位点双碱
基总数的比例。具体实施时,样本的基因组比对与矫正数据通常为存储的 BAM文件,SNP变
异检测数据存储为gVCF文件。
中有100份该目标SNP位点碱基类型为TT,600 份该目标SNP位点碱基类型为CT,其余300份
碱基类型为CC,则该目标SNP 位点T碱基的变异频率Freq(T)为0.4,该目标SNP位点T碱基纯
合比例 Ratio_Hom(T)为0.1,即
位点筛选,有效提升SNP位点的筛选效率。SNP人群频率数据库可以依据现有收录的多个已
知样本进行构建,也可以从公共开源的数据库中下载获取,通常用来构建SNP人群频率数据
库的样本总数至少要超过 1000份,确保选取的SNP位点具有普适性。
不是每一个变异位点都能作为有效的标签位点,需要进一步基于不同的条件进行筛选,最
终获得可作为标签的SNP位点候选集合,并用于后续的相关检测和分析。
(0.15,0.25),保留该变异位点至第一SNP位点集合中;人群中发生变异频率过高或者过低
的变异位点,因为不能有效的区分人群而不适用于作为个体标签。在不同的临检机构对样
本会采用不同的测序方式,例如 WGS(全基因组测序),WES(全外显子组测序),Panel(特定
基因或区域捕获测序)等,而WES和Panel又有不同的类型的捕获探针,例如IDT、Agilent、
T192V1、MGIV4和T084V2,各探针对基因组捕获的区域各不相同,因此为了提高筛选到的SNP
位点适用范围,可预先将不同捕获试剂盒共同捕获区的SNP 位点进行过滤保留,即进行步
骤5)的第二次筛选,并获得第二SNP位点集合。基于在基因组中存在大量的基因组序列信息
相似度很高的同源区域和重复区域,在测序实验过程中,同源区域和重复区域的变异位点
是会因为同源或重复因素的影响,无法准确判定真实的状态,因此在步骤6)的第二SNP位点
集合需要提前去除同源区域和重复区域的SNP位点。
中每个SNP位点进行区域GC碱基含量统计,并去除高 GC碱基含量或低GC碱基含量区的SNP
位点,确保最终得到的标签位点在不同方式的测序实验中,都是容易被检测到的。在步骤7)
中,高GC碱基含量是指 GC碱基达50%以上,低GC碱基含量指GC碱基处于30%以下;根据SNP
位点所在基因组片段的GC碱基含量筛选SNP位点的过程为:以任一SNP位点在基因组中的位
置为参考位置,定义基因组上沿参考位置上下游100bp区域为基因组片段;查找基因组片段
中所有碱基,统计基因组片段内GC碱基含量占基因组片段中所有碱基的比例;当该SNP位点
对应的基因组片段中GC碱基的比例在 [30%,50%]区间内,则保留该SNP位点至第四SNP位
点集合中,否则筛去该 SNP位点。
点,在同时作为标签位点发挥作用,与任意选取其中一个SNP位点发挥作用,效力是等同的,
因此获得位于平衡区的第四SNP位点集合后,对第四SNP位点集合中的SNP位点进一步去除
冗余,获得各SNP位点不连锁、不重复的第五SNP位点集合,即SNP候选标签位点集合。
SNP位点直接构成样本识别标签进行样本识别,如多个样本是否来源同一个体,两个样本间
的亲缘对应关系等。
SNP位点基因型矩阵;
离和的均值,公式如下:
dxy表示特定的SNP位点在两个待识别样本间距离值;
特定的SNP位点检出的基因型完全不相同时,dxy=1.0。
本进行样本间距离计算,验证是否是来源同一个体,实现样本来源识别。
图,样本间距离值的大小表征样本间亲缘关系的远近;例如,Dxy值越大表示两个样本亲缘
关系越远,Dxy值越小表示两个样本亲缘关系越近。
测到,通过该标签对样本进行分型、准确识别样本来源,进行个体识别;创新性的将样本识
别标签应用于NGS测序技术中,构成样本的“指纹”,通过样本的“指纹”判定样本的个体来
源,或进行样本间距离计算判定与个体的对应关系或样本亲缘关系。本发明的样本识别检
测方法分析流程简便,部署方便,效率高、检测精度高,可高通量检测多个样本,并且能适用
不同检测仪器,使用范围广。
此,本发明的保护范围当视权利要求书所界定者为准。