一种Illumina高通量测序数据误差校正方法转让专利

申请号 : CN201810601099.9

文献号 : CN108959851B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 冯伟兴贺波陈多娇王雪莹南方伯

申请人 : 哈尔滨工程大学

摘要 :

本发明提供一种Illumina高通量测序数据误差校正方法,包括:1、对Illumina测序样本同时进行半导体测序。即在得到样本Illumina测序结果的同时,也获取其半导体测序结果;2、分别将Illumina测序结果和半导体测序结果通过序列比对确定每一测序读数在参考基因组中的位置;3、对同一位置的测序结果进行分析。本发明针对该问题提出了一种Illumina高通量测序数据误差校正方法。该方法利用半导体高通量测序结果中碱基类型不易测错的特点,通过逻辑分析Illumina高通量测序结果、半导体高通量测序结果与参考基因组碱基序列之间的对应关系,实现Illumina高通量测序数据的误差校正。

权利要求 :

1.一种Illumina高通量测序数据误差校正方法,其特征在于:步骤如下:步骤1、对Illumina测序样本同时进行半导体测序,得到样本Illumina测序结果的同时也获取其半导体测序结果;

步骤2、分别将Illumina测序结果和半导体测序结果通过序列比对确定每一测序读数在参考基因组中的位置;

步骤3、对同一位置的测序结果进行如下判断:a.Illumina测序结果与参考基因组碱基序列相同,Illumina测序结果正确;

b.Illumina测序结果与参考基因组碱基序列不同,分如下三种情况:

1)半导体测序结果与Illumina测序结果相同,Illumina测序结果正确;

2)半导体测序结果与参考基因组碱基序列相同,Illumina测序结果错误;

3)半导体测序结果与Illumina测序结果和参考基因组碱基序列均不相同,Illumina测序结果不定。

说明书 :

一种Illumina高通量测序数据误差校正方法

技术领域

[0001] 本发明涉及一种Illumina高通量测序数据误差校正方法,属于分子生物信息检测领域。

背景技术

[0002] 随着生物检测技术的迅猛发展,Illumina的Solexa、Life Sciences的454和ABI的SOLiD等第二代测序平台逐渐被新一代测序平台所取代。这包括Illumina的MiSeq、
NextSeq、HiSeq系列,ABI的Ion Torrent、Ion Proton、Ion PGM系列,以及Oxford Nanopore 
Technologies的MinION等。尽管新一代测序平台的推出使得生物信息检测的深度更深、成
本更低、效率更高,但由于检测机理有所变化,原有高通量测序数据的解读方法将不得不作
出相应改变。
[0003] 在新一代测序平台中,Illumina测序平台因测序深度更高、误差率更低等特点,已广泛应用于各种分子生物信息检测。但由于基于光的色差进行碱基类型识别,Illumina测
序数据存在着一定的测序错误,其主要表现形式为碱基类型错误。这将导致Illumina测序
结果与参考基因组碱基序列间出现差异。然而,由于个体不同,Illumina测序结果与参考基
因组碱基序列间存在一定差异是正常的,而这些差异往往也是后续研究中重点关注对象。
因此,如何区分Illumina测序结果与参考基因组碱基序列间的差异是真正的差异,还是
Illumina测序错误导致的差异,非常重要。
[0004] 半导体高通量测序通过化学反应进行碱基类型识别,因此,其碱基类型不易测错。基于此,本发明创新性地提出通过逻辑分析Illumina高通量测序结果、半导体高通量测序
结果与参考基因组碱基序列之间的对应关系,实现Illumina高通量测序数据的误差校正。

发明内容

[0005] 本发明的目的是为了提供一种Illumina高通量测序数据误差校正方法,能够有效识别并去除该类测序平台测序数据中的测序错误。
[0006] 本发明的目的是这样实现的:步骤如下:
[0007] 步骤1、对Illumina测序样本同时进行半导体测序,得到样本Illumina测序结果的同时也获取其半导体测序结果;
[0008] 步骤2、分别将Illumina测序结果和半导体测序结果通过序列比对确定每一测序读数在参考基因组中的位置;
[0009] 步骤3、对同一位置的测序结果进行如下判断:
[0010] a.Illumina测序结果与参考基因组碱基序列相同,Illumina测序结果正确;
[0011] b.Illumina测序结果与参考基因组碱基序列不同,分如下三种情况:
[0012] 1)半导体测序结果与Illumina测序结果相同,Illumina测序结果正确;
[0013] 2)半导体测序结果与参考基因组碱基序列相同,Illumina测序结果错误;
[0014] 3)半导体测序结果与Illumina测序结果和参考基因组碱基序列均不相同,Illumina测序结果不定。
[0015] 与现有技术相比,本发明的有益效果是:作为新一代高通量测序技术,Illumina测序已广泛应用于各种分子生物信息检测。但该测序平台也存在一定的测序误差,其主要表
现形式为碱基类型错误。本发明针对该问题提出了一种Illumina高通量测序数据误差校正
方法。该方法利用半导体高通量测序结果中碱基类型不易测错的特点,通过逻辑分析
Illumina高通量测序结果、半导体高通量测序结果与参考基因组碱基序列之间的对应关
系,实现Illumina高通量测序数据的误差校正。

附图说明

[0016] 图1是本发明的流程图;
[0017] 图2是Illumina测序数据中正确差异碱基的位置分布示意图;
[0018] 图3是Illumina测序数据中错误差异碱基的位置分布示意图。

具体实施方式

[0019] 下面结合附图与具体实施方式对本发明作进一步详细描述。
[0020] 结合图1至图3,作为新一代高通量测序技术,Illumina测序已广泛应用于各种分子生物信息检测。但由于基于光的色差进行碱基类型识别,Illumina测序结果不可避免地
存在一定的碱基类型测序错误。半导体高通量测序则通过化学反应进行碱基类型识别,其
碱基类型不易测错。基于此,本发明创新性地提出一种Illumina高通量测序数据误差校正
方法。该方法通过逻辑分析Illumina高通量测序结果、半导体高通量测序结果与参考基因
组碱基序列之间的对应关系,实现Illumina高通量测序数据的误差校正。
[0021] 本发明的方法包括以下步骤:
[0022] 1、对Illumina测序样本同时进行半导体测序。即在得到样本Illumina测序结果的同时,也获取其半导体测序结果;
[0023] 2、分别将Illumina测序结果和半导体测序结果通过序列比对确定每一测序读数在参考基因组中的位置;
[0024] 3、对同一位置的测序结果进行如下逻辑分析:
[0025] a.Illumina测序结果与参考基因组碱基序列相同,Illumina测序结果正确;
[0026] b.Illumina测序结果与参考基因组碱基序列不同,分如下三种情况:
[0027] 1)半导体测序结果与Illumina测序结果相同,Illumina测序结果正确;
[0028] 2)半导体测序结果与参考基因组碱基序列相同,Illumina测序结果错误;
[0029] 3)半导体测序结果与Illumina测序结果和参考基因组碱基序列均不相同,Illumina测序结果不定。
[0030] 4、实验验证
[0031] 我们对同一个人类实验样本分别进行了Illumina测序和半导体Ion Torrent测序。然后将两个平台的测序结果均通过序列比对确定每一测序读数在参考基因组中的位
置。
[0032] Illumina测序数据总共有4592877条测序读数,读数长度为100个碱基,其中,1007117个读数与参考基因组碱基序列相比含有1个差异碱基。我们针对这1007117个差异
碱基进行分析。利用我们提出的校正方法,共发现11597个碱基测序错误,占比1.15%。
[0033] 我们将1007117个差异碱基分为测序正确和测序错误两类,并分别统计了二者在测序读数中的位置。由于差异碱基是否存在与测序读数本身无关,因而,测序正确的差异碱
基在测序读数中的位置应符合均匀分布。而由于累计效应,测序错误的差异碱基更倾向于
发生在测序读数的后部。图2,图3证实了这一点,也表明我们所提出的Illumina高通量数据
误差校正方法的有效性。