一种基因测序数据重组封装的方法和装置转让专利

申请号 : CN202110810347.2

文献号 : CN113268461B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 郭祥学张巍

申请人 : 广州嘉检医学检测有限公司

摘要 :

本发明公开了一种基因测序数据重组封装的方法,包括如下步骤,步骤1:构建参考基因组数据库和基因字典;步骤2:获取样品中染色体的第二基因序列;步骤3:将步骤2的第二基因序列和多条第一基因序列进行比对;步骤4:将第二基因序列和标准基因进行比对;步骤5:将基因片段中的核苷酸以N个为一组依次进行分组;步骤6:将前段、基因片段、后段用基因字典中的代号表示,形成一组核苷酸数据;步骤7:将不同染色体上的核苷酸数据进行统计并压缩即可得到压缩后的基因组数据;步骤8:还原得到样品的第二基因序列。本发明将一小段核苷酸采用字典代码化,能够实现数据的有效压缩;同时,本发明还提供基于该方法的装置。

权利要求 :

1.一种基因测序数据重组封装的方法,其特征在于,包括如下步骤:步骤1:构建参考基因组数据库和基因字典,所述参考基因组数据库中存储有多条染色体的第一基因序列,所述基因字典中用代号表示小于以及等于N个核苷酸序列的不同组合;

步骤2:获取样品中染色体的第二基因序列;

步骤3:将步骤2的第二基因序列和多条第一基因序列进行比对,找到和第二基因序列相似度最高的第一基因序列作为标准基因;

步骤4:将第二基因序列和标准基因进行比对,分离出第二基因序列中和标准基因不同的基因片段以及基因片段前后各N个核苷酸;基因片段的前端的N个核苷酸定义为前段,基因片段的后端的N个核苷酸定义为后段;

步骤5:将基因片段中的核苷酸以N个为一组依次进行分组;

步骤6:将前段、基因片段、后段用基因字典中的代号表示,形成一组核苷酸数据;

步骤7:将不同染色体上的核苷酸数据进行统计并压缩即得到压缩后的基因组数据,将基因组数据以及标准基因对应的第一基因序列的编号发送给数据接收端;

步骤8:当数据接收端接收到基因组数据、第一基因序列的编号后,将基因组数据进行解压缩,参考基因字典提取出每个染色体上的核苷酸数据,通过前段、后段的核苷酸序列以及前段后段之间的核苷酸的数量来确定基因片段在标准基因上的位置,还原得到样品的第二基因序列。

2.根据权利要求1所述的基因测序数据重组封装的方法,其特征在于,所述N为3或4或5或6。

3.根据权利要求1所述的基因测序数据重组封装的方法,其特征在于,所述基因片段的长度大于N个核苷酸。

4.根据权利要求1所述的基因测序数据重组封装的方法,其特征在于,所述参考基因组数据库中,所述第一基因序列包括常染色体的第一基因序列和性染色体的第一基因序列。

5.一种基因测序数据重组封装装置,其特征在于,包括如下模块:存储模块:用于存储和构建参考基因组数据库和基因字典,所述参考基因组数据库中存储有多条染色体的第一基因序列,所述基因字典中用代号表示小于以及等于N个核苷酸序列的不同组合;

标准基因组选择模块:将样品的各个染色体的第二基因序列和多条第一基因序列进行比对,找到和第二基因序列相似度最高的第一基因序列作为标准基因;

比对模块:用于将第二基因序列和标准基因进行比对,分离出第二基因序列中和标准基因不同的基因片段以及基因片段前后各N个核苷酸;基因片段的前端的N个核苷酸定义为前段,基因片段的后端的N个核苷酸定义为后段;

字典化模块:用于将基因片段中的核苷酸以N个为一组依次进行分组;用于将前段、基因片段、后段用基因字典中的代号表示,形成一组核苷酸数据;用于将不同染色体上的核苷酸数据进行统计并压缩即得到压缩后的基因组数据,将基因组数据以及标准基因对应的参考基因的代号发送给数据接收端。

6.根据权利要求5所述的基因测序数据重组封装装置,其特征在于,所述N为3或4或5或

6。

7.根据权利要求5所述的基因测序数据重组封装装置,其特征在于,所述基因片段的长度大于N个核苷酸。

8.根据权利要求5所述的基因测序数据重组封装装置,其特征在于,所述参考基因组数据库中,所述第一基因序列包括常染色体的第一基因序列和性染色体的第一基因序列。

说明书 :

一种基因测序数据重组封装的方法和装置

技术领域

[0001] 本发明涉及新一代信息技术的电数字数据处理领域,具体为一种基因测序数据重组封装的方法和装置。

背景技术

[0002] CN202010457824.7公开了深度测序第二基因序列数据文件的无损压缩方法,该专利申请的技术方案以传输过程中不需要传输的内置标准参考基因组和内置字典文件作为
对比。因此如果传输或者存储过程中丢失转换后的第二基因序列或者本专利压缩后的第二
基因序列数据的话,只要其他人员无法取得内置标准基因和内置字典文件,就无法还原相
关的序列,大大加强了安全性。未匹配上的变异,增设临时字典,该字典随着文件压缩和传
输。如果第一次未匹配到的特殊变异写入该字典后,后面几百甚至上万次测序数据中出现
的该特殊变异就不用另外存储,大大节省了空间。
[0003] 该方法采用字典文件来减少核苷酸序列的数据,来实现压缩传递核苷酸数据的目的,但是,是否存在进一步降低数据传输量的有效路径,则没有进一步的研究或者说明,而
这恰恰是本领域所迫切需要被满足的。

发明内容

[0004] 本发明的目的在于提供一种基因测序数据重组封装的方法,该方法将一小段核苷酸采用字典代码化,能够实现数据的有效压缩;
[0005] 同时,本发明还提供基于该方法的装置。
[0006] 为实现上述目的,本发明提供如下技术方案:一种基因测序数据重组封装的方法,包括如下步骤:
[0007] 步骤1:构建参考基因组数据库和基因字典,所述参考基因组数据库中存储有多条染色体的第一基因序列,所述基因字典中用代号表示小于以及等于N个核苷酸序列的不同
组合;
[0008] 步骤2:获取样品中染色体的第二基因序列;
[0009] 步骤3:将步骤2的第二基因序列和多条第一基因序列进行比对,找到和第二基因序列相似度最高的第一基因序列作为标准基因;
[0010] 步骤4:将第二基因序列和标准基因进行比对,分离出第二基因序列中和标准基因不同的基因片段以及基因片段前后各N个核苷酸;基因片段的前端的N个核苷酸定义为前
段,基因片段的后端的N个核苷酸定义为后段;
[0011] 步骤5:将基因片段中的核苷酸以N个为一组依次进行分组;
[0012] 步骤6:将前段、基因片段、后段用基因字典中的代号表示,形成一组核苷酸数据;
[0013] 步骤7:将不同染色体上的核苷酸数据进行统计并压缩即得到压缩后的基因组数据,将基因组数据以及标准基因对应的第一基因序列的编号发送给数据接收端;
[0014] 步骤8:当数据接收端接收到基因组数据、第一基因序列的编号后,将基因组数据进行解压缩,参考基因字典提取出每个染色体上的核苷酸数据,通过前段、后段的核苷酸序
列以及前段后段之间的核苷酸的数量来确定基因片段在标准基因上的位置,还原得到样品
的第二基因序列。
[0015] 在上述的基因测序数据重组封装的方法中,所述N为3或4或5或6。
[0016] 在上述的基因测序数据重组封装的方法中,所述基因片段的长度大于N个核苷酸。
[0017] 在上述的基因测序数据重组封装的方法中,所述参考基因组数据库中,所述第一基因序列包括常染色体的第一基因序列和性染色体的第一基因序列。
[0018] 同时,本发明还公开了一种基因测序数据重组封装装置,包括如下模块:
[0019] 存储模块:用于存储和构建参考基因组数据库和基因字典,所述参考基因组数据库中存储有多条染色体的第一基因序列,所述基因字典中用代号表示小于以及等于N个核
苷酸序列的不同组合;
[0020] 标准基因组选择模块:将样品的各个染色体的第二基因序列和多条第一基因序列进行比对,找到和第二基因序列相似度最高的第一基因序列作为标准基因;
[0021] 比对模块:用于将第二基因序列和标准基因进行比对,分离出第二基因序列中和标准基因不同的基因片段以及基因片段前后各N个核苷酸;基因片段的前端的N个核苷酸定
义为前段,基因片段的后端的N个核苷酸定义为后段;
[0022] 字典化模块:用于将基因片段中的核苷酸以N个为一组依次进行分组;用于将前段、基因片段、后段用基因字典中的代号表示,形成一组核苷酸数据;用于将不同染色体上
的核苷酸数据进行统计并压缩即得到压缩后的基因组数据,将基因组数据以及标准基因对
应的参考基因的代号发送给数据接收端。
[0023] 在上述的基因测序数据重组封装装置中,所述N为3或4或5或6。
[0024] 在上述的基因测序数据重组封装装置中,所述基因片段的长度大于N个核苷酸。
[0025] 在上述的基因测序数据重组封装装置中,所述参考基因组数据库中,所述第一基因序列包括常染色体的第一基因序列和性染色体的第一基因序列。
[0026] 与现有技术相比,本发明的有益效果是:
[0027] 本发明基因字典将数据中的前段、后段、基因片段还原,并根据其长度、前段和后段的基因序列、第一基因序列的编号确定其在准确的第一基因序列中的位置,并替换掉第
一基因序列中对应位置,得到第二基因序列。
[0028] 其压缩数据量小,计算速度快。

附图说明

[0029] 图1为本发明的实施例1的流程图;
[0030] 图2为本发明的实施例2的拓扑图。

具体实施方式

[0031] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
[0032] 实施例1
[0033] 如图1,一种基因测序数据重组封装的方法,包括如下步骤:
[0034] 步骤1:构建参考基因组数据库和基因字典,所述参考基因组数据库中存储有多条染色体的第一基因序列,所述基因字典中用代号表示小于以及等于N个核苷酸序列的不同
组合;每个第一基因序列都有编号;
[0035] 在实际应用中,选择N为3,则所有的核苷酸的任意组合可组成64个组合,另外含单个核苷酸有4中不同情况,2个核苷酸有16个组合,总共有84个组合。
[0036] 选择N为4,则所有的核苷酸的任意组合可组成256个组合,另外含单个核苷酸有4中不同情况,2个核苷酸有16个组合,3个核苷酸有64个组合,总共有340个组合。
[0037] 以N为4为例,在基因字典中,将这340个组合采用代号表示。
[0038] 参考基因组数据库中并不仅仅只含有男女分别23对染色体,其内含有若干组以23对染色体为一组的染色体的第一基因序列的数据。
[0039] 步骤2:获取样品中染色体的第二基因序列;
[0040] 步骤3:将步骤2的第二基因序列和多条第一基因序列进行比对,找到和第二基因序列相似度最高的第一基因序列作为标准基因;
[0041] 每个人有23个第二基因序列,将23个第二基因序列逐个和参考基因组数据库中的第一基因序列进行比对,可得到多个第二基因序列作为标准基因。
[0042] 作为进一步的优化,可根据人的基因出现区别的位置,在参考基因组数据库中的第一基因序列中可能出现区别的位置予以标记,在每个第一基因序列中产生多个标记点,
在和第二基因序列进行比对时,仅将该第二基因序列的同样位点的基因与标记点的基因进
行比对,以区别最少的第一基因序列作为标准基因,这样可进一步明显缩短标准基因的确
定的时间,提高步骤3的速度。
[0043] 步骤4:将第二基因序列和标准基因进行比对,分离出第二基因序列中和标准基因不同的基因片段以及基因片段前后各N个核苷酸;基因片段的前端的N个核苷酸定义为前
段,基因片段的后端的N个核苷酸定义为后段;
[0044] 步骤5:将基因片段中的核苷酸以N个为一组依次进行分组;
[0045] 比如基因片段为101个核苷酸且N为4,则该基因可以分为26组。
[0046] 步骤6:将前段、基因片段、后段用基因字典中的代号表示,形成一组核苷酸数据;
[0047] 该核苷酸数据依序由若干个代号组成。
[0048] 步骤7:将不同染色体上的核苷酸数据进行统计并压缩即可得到压缩后的基因组数据,将基因组数据以及标准基因对应的第一基因序列的编号发送给数据接收端;
[0049] 步骤8:当数据接收端接收到基因组数据、第一基因序列的编号后,将基因组数据进行解压缩,参考基因字典提取出每个染色体上的核苷酸数据,通过前段、后段的核苷酸序
列以及前段后段之间的核苷酸的数量来确定基因片段在标准基因上的位置,还原得到样品
的第二基因序列。
[0050] 数据接收端共接收23组数据,每组数据中有基因组数据、参考基因的代号;
[0051] 在还原人的染色体的基因时,主要考虑前段、后段的基因序列,以及前端和后段之间的长度时多长,前端和后段之间的长度可通过上述代码计算得到。
[0052] 一般来说,不管N=3或N=4,几乎不会在同样的长度得到相同的前段和后段,因此这种定位方式具有唯一性,无需在数据组附区别的基因的位置数据。
[0053] 其可有效的节约数据量。
[0054] 实施例2
[0055] 如图2,一种用于实施实施例1所述方法的基因测序数据重组封装装置,包括如下模块:
[0056] 存储模块1:用于存储和构建参考基因组数据库和基因字典,所述参考基因组数据库中存储有多条染色体的第一基因序列,所述基因字典中用代号表示小于以及等于N个核
苷酸序列的不同组合;
[0057] 标准基因组选择模块2:将样品的各个染色体的第二基因序列和多条第一基因序列进行比对,找到和第二基因序列相似度最高的第一基因序列作为标准基因;
[0058] 比对模块3:用于将第二基因序列和标准基因进行比对,分离出第二基因序列中和标准基因不同的基因片段以及基因片段前后各N个核苷酸;基因片段的前端的N个核苷酸定
义为前段,基因片段的后端的N个核苷酸定义为后段;
[0059] 字典化模块4:用于将基因片段中的核苷酸以N个为一组依次进行分组;用于将前段、基因片段、后段用基因字典中的代号表示,形成一组核苷酸数据;用于将不同染色体上
的核苷酸数据进行统计并压缩即可得到压缩后的基因组数据,将基因组数据以及标准基因
对应的参考基因的代号发送给数据接收端。
[0060] 其工作过程为:
[0061] 人工测序,得到被测人员的全基因组序列,全基因组序列有23个第二基因序列组成;
[0062] 通过标准基因组选择模块逐个为第二基因序列找到最接近的第一基因序列作为标准基因,标准基因有多个;
[0063] 通过字典化模块将第一基因序列和第二基因序列的区别位置以字典化,将区别位置的前段、后段、基因片段形成连续的代号;并将23个第二基因序列逐个通过字典化模块进
行字典化,并压缩得到压缩后的基因组数据。
[0064] 在外设的数据接收端,操作端的服务器中具有一样的存储模块,并存储模块中的基因字典将数据中的前段、后段、基因片段还原,并根据其长度、前段和后段的基因序列、第
一基因序列的编号确定其在准确的第一基因序列中的位置,并替换掉第一基因序列中对应
位置,可得到第二基因序列。
[0065] 对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论
从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权
利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有
变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。