DNA指纹图谱的构建方法、构建装置及终端设备转让专利

申请号 : CN202010102817.5

文献号 : CN111883212B

文献日 : 2021-11-26

本申请适用于数据处理技术领域，提供了一种DNA指纹图谱的构建方法、构建装置及终端设备，包括：获取目标物种的M个单碱基多态性位点以及每个单碱基多态性位点上的碱基信息；根据所述每个单碱基多态性位点上的碱基信息，从所述M个单碱基多态性位点中筛选出N个核心位点，其中，N小于或等于M；将所述N个核心位点输入到预设的遗传算法模型中构建出所述目标物种的DNA指纹图谱。通过上述方法，有效提高了DNA指纹图谱的创建效率，同时有效提高了创建方法的自适应性，保证了构建出的DNA指纹图谱的准确性。

1.一种DNA指纹图谱的构建方法，其特征在于，包括：获取目标物种的M个单碱基多态性位点以及每个单碱基多态性位点上的碱基信息；

根据所述每个单碱基多态性位点上的碱基信息，从所述M个单碱基多态性位点中筛选出N个核心位点，其中，N小于或等于M，包括：获取所述目标物种的参考基因组；分别将所述每个单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息进行比对，并根据比对结果分别确定每个单碱基多态性位点对应的变异标签，包括：对于每个单碱基多态性位点，若所述单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息相同，则确定所述单碱基多态性位点对应的变异标签为第一标签；

若所述单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息不同，则确定所述单碱基多态性位点对应的变异标签为第二标签；若所述单碱基多态性位点上缺失碱基信息，则确定所述单碱基多态性位对应的变异标签为第三标签；根据预设的筛选条件和所述每个单碱基多态性位点对应的变异标签，从M个单碱基多态性位点中选取N个核心位点；所述N个核心位点中包括至少一个所述第一标签对应的单碱基多态性位点、至少一个所述第二标签对应的单碱基多态性位点和至少一个第三标签对应的单碱基多态性位点；

将所述N个核心位点输入到预设的遗传算法模型中构建出所述目标物种的DNA指纹图谱。

2.如权利要求1所述的DNA指纹图谱的构建方法，其特征在于，所述N个核心位点中包括至少一个所述第一标签对应的单碱基多态性位点、至少一个所述第二标签对应的单碱基多态性位点和至少一个第三标签对应的单碱基多态性位点；

所述筛选条件包括：

在所述N个核心位点中，所述第三标签对应的单碱基多态性位点的个数与所述N的比值小于第一预设值，并且和分别小于第二预设值；

其中，a为所述N个核心位点中所述第一标签对应的单碱基多态性位点的个数，b为所述N个核心位点中所述第二标签对应的单碱基多态性位点的个数。

3.如权利要求1所述的DNA指纹图谱的构建方法，其特征在于，所述将所述N个核心位点输入到预设的遗传算法模型中构建出所述目标物种的DNA指纹图谱，包括：获取预设的迭代次数和位点条数，其中，所述位点条数小于或等于所述N；

将所述迭代次数和所述位点条数作为所述遗传算法的参数，并基于所述参数、根据所述遗传算法和所述N个核心位点构建所述目标物种的DNA指纹图谱；

其中，所述目标物种的DNA指纹图谱中包括所述目标物种的多个品种的DNA指纹，每个品种的DNA指纹中包括该品种对应的所有位点组合，每个位点组合中包括L个核心位点以及每个核心位点对应的变异标签，L为所述位点条数。

4.如权利要求3所述的DNA指纹图谱的构建方法，其特征在于，在将所述N个核心位点输入到预设的遗传算法模型中构建出所述目标物种的DNA指纹图谱之后，所述方法还包括：获取属于所述目标物种的待鉴定样品，并获取所述待鉴定样品的所述N个核心位点上的碱基信息，为目标信息；

分别将每个目标信息与所述参考基因组中对应的基因位点上的碱基信息进行比对，并根据比对结果确定所述待鉴定样品的DNA指纹；

将所述目标物种的DNA指纹图谱中目标指纹对应的品种确定为所述待鉴定样品的品种，其中，所述目标指纹为与所述待鉴定样品的DNA指纹匹配的DNA指纹。

5.一种DNA指纹图谱的构建装置，其特征在于，包括：获取单元，用于获取目标物种的M个单碱基多态性位点以及每个单碱基多态性位点上的碱基信息；

筛选单元，用于根据所述每个单碱基多态性位点上的碱基信息，从所述M个单碱基多态性位点中筛选出N个核心位点，其中，N小于或等于M；所述筛选单元包括：获取模块，用于获取所述目标物种的参考基因组；比对模块，用于分别将所述每个单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息进行比对，并根据比对结果分别确定每个单碱基多态性位点对应的变异标签；筛选模块，用于根据预设的筛选条件和所述每个单碱基多态性位点对应的变异标签，从M个单碱基多态性位点中选取N个核心位点；比对模块还用于：对于每个单碱基多态性位点，若所述单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息相同，则确定所述单碱基多态性位点对应的变异标签为第一标签；若所述单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息不同，则确定所述单碱基多态性位点对应的变异标签为第二标签；

若所述单碱基多态性位点上缺失碱基信息，则确定所述单碱基多态性位对应的变异标签为第三标签；所述N个核心位点中包括至少一个所述第一标签对应的单碱基多态性位点、至少一个所述第二标签对应的单碱基多态性位点和至少一个第三标签对应的单碱基多态性位点；

构建单元，用于将所述N个核心位点输入到预设的遗传算法模型中构建出所述目标物种的DNA指纹图谱。

6.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的方法。

DNA指纹图谱的构建方法、构建装置及终端设备

技术领域

[0001] 本申请属于数据处理技术领域，尤其涉及一种DNA指纹图谱的构建方法、构建装置及终端设备。

背景技术

[0002] DNA(Deoxyribonucleic Acid，脱氧核糖核酸(英文缩写为DNA))指纹图谱是指DNA样品用特定分子标记技术处理显示出具有特定DNA片段的总称。DNA指纹图谱技术最早用于
在刑侦或亲子鉴定中确定人的身份，而后随着生物技术的进步与发展，DNA指纹图谱技术被
广泛应用于生物品种的鉴定。

[0003] 但是现有的DNA指纹图谱的构建方法，步骤繁琐，不易实现自动化分析，耗时较长；另外，现有的DNA指纹图谱的构建方法容易受各种因素影响，例如当分子遗传标记的操作条
件或操作方法等发生改变时，构建的DNA指纹图谱往往不够准确，方法的自适应性较差。

发明内容

[0004] 本申请实施例提供了一种DNA指纹图谱的构建方法、构建装置及终端设备，可以解决现有的DNA指纹图谱的构建方法耗时较长、自适应性较差的问题。

[0005] 第一方面，本申请实施例提供了一种DNA指纹图谱的构建方法，包括：

[0006] 获取目标物种的M个单碱基多态性位点以及每个单碱基多态性位点上的碱基信息；

[0007] 根据所述每个单碱基多态性位点上的碱基信息，从所述M个单碱基多态性位点中筛选出N个核心位点，其中，N小于或等于M；

[0008] 将所述N个核心位点输入到预设的遗传算法模型中构建出所述目标物种的DNA指纹图谱。

[0009] 在第一方面的一种可能的实现方式中，所述根据所述每个单碱基多态性位点上的碱基信息，从所述M个单碱基多态性位点中筛选出N个核心位点，包括：

[0010] 获取所述目标物种的参考基因组；

[0011] 分别将所述每个单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息进行比对，并根据比对结果分别确定每个单碱基多态性位点对应的变
异标签；

[0012] 根据预设的筛选条件和所述每个单碱基多态性位点对应的变异标签，从M个单碱基多态性位点中选取N个核心位点。

[0013] 在第一方面的一种可能的实现方式中，所述分别将每个单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息进行比对，并根据比对结果分别
确定每个单碱基多态性位点对应的变异标签，包括：

[0014] 对于每个单碱基多态性位点，若所述单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息相同，则确定所述单碱基多态性位点对应的变异标
签为第一标签；

[0015] 若所述单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息不同，则确定所述单碱基多态性位点对应的变异标签为第二标签；

[0016] 若所述单碱基多态性位点上缺失碱基信息，则确定所述单碱基多态性位对应的变异标签为第三标签。

[0017] 在第一方面的一种可能的实现方式中，所述N个核心位点中包括至少一个所述第一标签对应的单碱基多态性位点、至少一个所述第二标签对应的单碱基多态性位点和至少
一个第三标签对应的单碱基多态性位点；

[0018] 所述筛选条件包括：

[0019] 在所述N个核心位点中，所述第三标签对应的单碱基多态性位点的个数与所述N的比值小于第一预设值，并且和分别小于第二预设值；

[0020] 其中，a为所述N个核心位点中所述第一标签对应的单碱基多态性位点的个数，b为所述N个核心位点中所述第二标签对应的单碱基多态性位点的个数。

[0021] 在第一方面的一种可能的实现方式中，所述将所述N个核心位点输入到预设的遗传算法模型中构建出所述目标物种的DNA指纹图谱，包括：

[0022] 获取预设的迭代次数和位点条数，其中，所述位点条数小于或等于所述N；

[0023] 将所述迭代次数和所述位点条数作为所述遗传算法的参数，并基于所述参数、根据所述遗传算法和所述N个核心位点构建所述目标物种的DNA指纹图谱；

[0024] 其中，所述目标物种的DNA指纹图谱中包括所述目标物种的多个品种的DNA指纹，每个品种的DNA指纹中包括该品种对应的所有位点组合，每个位点组合中包括L个核心位点
以及每个核心位点对应的变异标签，L为所述位点条数。

[0025] 在第一方面的一种可能的实现方式中，在将所述N个核心位点输入到预设的遗传算法模型中构建出所述目标物种的DNA指纹图谱之后，所述方法还包括：

[0026] 获取属于所述目标物种的待鉴定样品，并获取所述待鉴定样品的所述N个核心位点上的碱基信息，为目标信息；

[0027] 分别将每个目标信息与所述参考基因组中对应的基因位点上的碱基信息进行比对，并根据比对结果确定所述待鉴定样品的DNA指纹；

[0028] 将所述目标物种的DNA指纹图谱中目标指纹对应的品种确定为所述待鉴定样品的品种，其中，所述目标指纹为与所述待鉴定样品的DNA指纹匹配的DNA指纹。

[0029] 第二方面，本申请实施例提供了一种DNA指纹图谱的构建装置，包括：

[0030] 获取单元，用于获取目标物种的M个单碱基多态性位点以及每个单碱基多态性位点上的碱基信息；

[0031] 筛选单元，用于根据所述每个单碱基多态性位点上的碱基信息，从所述M个单碱基多态性位点中筛选出N个核心位点，其中，N小于M；

[0032] 构建单元，用于将所述N个核心位点输入到预设的遗传算法模型中构建出所述目标物种的DNA指纹图谱。

[0033] 在第二方面的一种可能的实现方式中，所述筛选单元包括：

[0034] 获取模块，用于获取所述目标物种的参考基因组；

[0035] 比对模块，用于分别将所述每个单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息进行比对，并根据比对结果分别确定每个单碱基多态性
位点对应的变异标签；

[0036] 筛选模块，用于根据预设的筛选条件和所述每个单碱基多态性位点对应的变异标签，从M个单碱基多态性位点中选取N个核心位点。

[0037] 第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计
算机程序时实现如上述第一方面中任一项所述的DNA指纹图谱的构建方法。

[0038] 第四方面，本申请实施例提供了一种计算机可读存储介质，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述
计算机程序被处理器执行时实现如上述第一方面中任一项所述的DNA指纹图谱的构建方
法。

[0039] 第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的DNA指纹图谱的构建方法。

[0040] 可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

[0041] 本申请实施例与现有技术相比存在的有益效果是：

[0042] 本申请实施例通过获取目标物种的M个单碱基多态性位点以及每个单碱基多态性位点上的碱基信息；根据所述每个单碱基多态性位点上的碱基信息，从所述M个单碱基多态
性位点中筛选出N个核心位点，其中，N小于或等于M；单碱基多态性分子遗传标记技术具有
高效、高准确度等优点，因此，利用单碱基多态性分子遗传标记技术进行标记可以提高标记
效率，且得到的单碱基多态性位点可以为后续的DNA指纹图谱提供可靠的数据基础；然后将
所述N个核心位点输入到预设的遗传算法模型中构建出所述目标物种的DNA指纹图谱；遗传
算法可以同时处理获取到的多个信息，处理效率较高，并且具有自适应性和自学习性，因
此，利用遗传算法不仅可以进一步提高构建DNA指纹图谱的效率，还可以提高方法的自适应
性。通过上述方法，有效提高了DNA指纹图谱的创建效率，同时有效提高了创建方法的自适
应性，保证了构建出的DNA指纹图谱的准确性。

附图说明

[0043] 为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些
实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些
附图获得其他的附图。

[0044] 图1是本申请一实施例提供的DNA指纹图谱的构建系统的示意图；

[0045] 图2是本申请一实施例提供的DNA指纹图谱的构建方法的流程示意图；

[0046] 图3是本申请一实施例提供的品种鉴定方法的流程示意图；

[0047] 图4是本申请实施例提供的DNA指纹图谱的构建装置的结构框图；

[0048] 图5是本申请一实施例提供的终端设备的结构示意图。

具体实施方式

[0049] 以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体
细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电
路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

[0050] 应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、
步骤、操作、元素、组件和/或其集合的存在或添加。

[0051] 如在本申请说明书和所附权利要求书中所使用的那样，术语“若”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。

[0052] 另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

[0053] 在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书
中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、
“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是
所有的实施例”，除非是以其他方式另外特别强调。

[0054] 先介绍本申请实施例提供的DNA指纹图谱的构建方法的一个应用场景。参见图1，为本申请实施例提供的DNA指纹图谱的构建系统的示意图。如图1所示，构建系统可以包括：
数据库11和处理器12。其中，数据库和处理器通信连接。

[0055] 在构建DNA指纹图谱之前，可以先利用单碱基多态性(single nucleotide polymorphism，SNP)的分子遗传标记技术对各个物种的DNA分子进行标记，得到每个物种的
多个单碱基多态性位点。其中，SNP是指在基因组水平上由当个碱基变异所引起的DNA序列
多态性，这种变异通常包括转换(如C变异为T，或A变异为G等)、颠换(如A变异为C或T，或C变
异为A或G等)、缺失或插入等。SNP是一种二等位基因标记，适于快速、规模化的标记。可以将
各个物种的单碱基多态性分别存储为VCF格式的文件(即一个物种对应一个VCF格式的文
件)，然后将多个VCF格式的文件存储在数据库中。

[0056] 在需要构建目标物种的DNA指纹图谱时，处理器从数据库中获取目标物种的VCF格式的文件，对该文件进行解析，得到目标物种的多个单碱基多态性位点，然后利用本申请中
的DNA指纹图谱的构建方法构建目标物种的DNA指纹图谱。

[0057] 图2示出了本申请一实施例提供的DNA指纹图谱的构建方法的流程示意图，作为示例而非限定，所述方法可以包括以下步骤：

[0058] S201，获取目标物种的M个单碱基多态性位点以及每个单碱基多态性位点上的碱基信息。

[0059] 实际应用中，先获取目标物种的VCF格式的文件。VCF格式的文件通常有两部分，一部分为注释信息(通常以##开头)，另一部分为基因型信息(即变异信息)。需要去除文件中
的所有注释信息，只留下基因型信息，这样就可以得到目标物种的单碱基多态性位点及每
个单碱基多态性位点上的碱基信息。

[0060] 可以从VCF格式的文件中获取目标物种对应的所有单碱基多态性位点，也可以只获取部分高质量的单碱基多态性位点。其中M等于最终获取到的单碱基多态性位点的个数。

[0061] 示例性的，假设目标物种对应的所有单碱基多态性位点的个数为10万。只获取其中20000个高质量的单碱基多态性位点，相应的，M＝20000。

[0062] 只获取部分高质量的单碱基多态性位点，可以提高构建出的DNA指纹图谱的准确性。

[0063] S202，根据所述每个单碱基多态性位点上的碱基信息，从所述M个单碱基多态性位点中筛选出N个核心位点。

[0064] 其中，N小于或等于M。

[0065] 实际应用中，VCF格式的文件中包括每个单碱基多态性位点对应的基因型信息，可以将基因型信息作为碱基信息。通常基因型信息包括0/0、0/1和1/1。其中，0/0表示目标物
种的某个样本中该位点纯合，即与参考基因组中该位点一致；0/1表示样本中该位点杂合，
即与参考基因组中该位点部分一致；1/1表示样本中该位点变异，即与参考基因组中该位点
完全不同。

[0066] 可以直接根据VCF格式的文件中的基因型信息确定各个单碱基多态性位点的变异标签。例如：0/0对应第一标签，1/1对应第二标签。

[0067] 当然，碱基信息也可以为A、G、C或T等嘌呤信息。在一个实施例中，步骤S202中根据所述每个单碱基多态性位点上的碱基信息，从所述M个单碱基多态性位点中筛选出N个核心
位点，包括：

[0068] S11，获取所述目标物种的参考基因组。

[0069] 实际应用中，预先设置目标物种的参考基因组。参考基因组中包括目标物种在非变异情况下的基因信息。

[0070] S12，分别将所述每个单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息进行比对，并根据比对结果分别确定每个单碱基多态性位点对应
的变异标签。

[0071] 比对结果包括以下几种情况：

[0072] 单碱基多态性位点上的碱基信息与参考基因组中对应的基因位点上的碱基基因完全相同(该位点上的等位基因均未发生突变)、部分相同(该位点上只有一个等位基因发
生突变)、完全不同(该位点上两个等位基因均发生突变)，或者单碱基多态性位点上缺失碱
基信息。

[0073] 可选的，步骤S12可以包括：

[0074] I、对于每个单碱基多态性位点，若所述单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息相同，则确定所述单碱基多态性位点对应的变异
标签为第一标签。

[0075] II、若所述单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息不同，则确定所述单碱基多态性位点对应的变异标签为第二标签。

[0076] 这里的不同是指完全不同，即两个等位基因均发生突变。

[0077] III、若所述单碱基多态性位点上缺失碱基信息，则确定所述单碱基多态性位对应的变异标签为第三标签。

[0078] S13，根据预设的筛选条件和所述每个单碱基多态性位点对应的变异标签，从M个单碱基多态性位点中选取N个核心位点。

[0079] 其中，筛选条件可根据实际需要进行调整。

[0080] 可选的，所述N个核心位点中包括至少一个所述第一标签对应的单碱基多态性位点、至少一个所述第二标签对应的单碱基多态性位点和至少一个第三标签对应的单碱基多
态性位点。

[0081] 步骤S13中筛选条件包括：

[0082] 在所述N个核心位点中，所述第三标签对应的单碱基多态性位点的个数与所述N的比值小于第一预设值，并且和分别小于第二预设值。

[0083] 其中，a为所述N个核心位点中所述第一标签对应的单碱基多态性位点的个数，b为所述N个核心位点中所述第二标签对应的单碱基多态性位点的个数。

[0084] 示例性的，可以将第一预设值设置为0.1，将第二预设值设置为0.83。假设从20000个单碱基多态性位点中根据上述筛选条件挑选出80个核心位点，那么这80个核心位点中第
三标签(即缺失碱基信息的位点)对应的单碱基多态性位点的个数小于8个，且和分
别小于66.4。

[0085] S203，将所述N个核心位点输入到预设的遗传算法模型中构建出所述目标物种的DNA指纹图谱。

[0086] 可选的，步骤S203中根据遗传算法和所述N个核心位点构建所述目标物种的DNA指纹图谱，包括：

[0087] S21，获取预设的迭代次数和位点条数，其中，所述位点条数小于或等于所述N。

[0088] 其中，位点条数是指一个组合中包含的单碱基变异性位点的个数。

[0089] S22，将所述迭代次数和所述位点条数作为所述遗传算法的参数，并基于所述参数、根据所述遗传算法和所述N个核心位点构建所述目标物种的DNA指纹图谱。

[0090] 其中，所述目标物种的DNA指纹图谱中包括所述目标物种的多个品种的DNA指纹，每个品种的DNA指纹中包括该品种对应的所有位点组合，每个位点组合中包括L个核心位点
以及每个核心位点对应的变异标签，L为所述位点条数。

[0091] 在遗传算法中，需要设定初始种群，在本申请实施例中，初始种群即为N个核心位点。在第一次迭代过程中，从初始种群中随机挑选长度为L的个体进行繁殖，得到第一批后
代；之后计算第一批后代的适应度，并保留适应度高的第一批后代；然后利用第一批后代进
行第二次迭代过程。以此类推，直到达到预设的迭代次数。

[0092] 示例性的，假设共有N＝5个核心位点，对应的变异标签为abbaa。假设L＝3，那么从初始种群中可以挑选出abb、bba、baa这三个个体。使这三个个体两两交叉进行繁殖(随机选
择一个交叉点，然后将交叉点前后的部分进行的交叉对调)，例如，将abb和bba进行交叉繁
殖得到两个后代bbb和aba，将abb和baa进行交叉繁殖得到两个后代bbb和aaa，将bba和baa
进行交叉繁殖得到两个后代bba和baa。将适应度较高的后代保留，作为下一次迭代的父代。

[0093] 本申请实施例通过获取目标物种的M个单碱基多态性位点以及每个单碱基多态性位点上的碱基信息；根据所述每个单碱基多态性位点上的碱基信息，从所述M个单碱基多态
性位点中筛选出N个核心位点，其中，N小于或等于M；单碱基多态性分子遗传标记技术具有
高效、高准确度等优点，因此，利用单碱基多态性分子遗传标记技术进行标记可以提高标记
效率，且得到的单碱基多态性位点可以为后续的DNA指纹图谱提供可靠的数据基础；然后将
所述N个核心位点输入到预设的遗传算法模型中构建出所述目标物种的DNA指纹图谱；遗传
算法可以同时处理获取到的多个信息，处理效率较高，并且具有自适应性和自学习性，因
此，利用遗传算法构建DNA指纹图谱不仅可以提高效率，还可以提高方法的自适应性。通过
上述方法，有效提高了DNA指纹图谱的创建效率，同时有效提高了创建方法的自适应性，保
证了构建出的DNA指纹图谱的准确性。

[0094] 图3示出了本申请一实施例提供的品种鉴定方法的流程示意图，作为示例而非限定，所述方法可以包括以下步骤：

[0095] S301，获取预设的目标物种的DNA指纹图谱。

[0096] 这里预设的目标物种的DNA指纹图谱为图2实施例中构建出的DNA指纹图谱。

[0097] S302，获取属于所述目标物种的待鉴定样品，并获取所述待鉴定样品的所述N个核心位点上的碱基信息，为目标信息。

[0098] 待鉴定样品属于目标物种，但是不知道待鉴定样品属于哪个品种。

[0099] S303，分别将每个目标信息与所述参考基因组中对应的基因位点上的碱基信息进行比对，并根据比对结果确定所述待鉴定样品的DNA指纹。

[0100] S304，将所述目标物种的DNA指纹图谱中目标指纹对应的品种确定为所述待鉴定样品的品种。

[0101] 其中，所述目标指纹为与所述待鉴定样品的DNA指纹匹配的DNA指纹。

[0102] 这里的匹配可以指所有的位点组合都相同，也可以指相同的位点组合所占的比例大于某个预设值。

[0103] 本申请实施例中通过确定待鉴定样品的DNA指纹，并在构建好的DNA指纹图谱中确定与未知品种的待鉴定样品的DNA指纹匹配的目标指纹，将目标指纹对应的品种确定为待
鉴定样品的品种鉴定。通过上述方法，能够实现品种的快速鉴定，提高了品种鉴定的效率。

[0104] 应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限
定。

[0105] 对应于上文实施例所述的DNA指纹图谱的构建方法，图4示出了本申请实施例提供的DNA指纹图谱的构建装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部
分。

[0106] 参照图4，该装置包括：

[0107] 获取单元41，用于获取目标物种的M个单碱基多态性位点以及每个单碱基多态性位点上的碱基信息。

[0108] 筛选单元42，用于根据所述每个单碱基多态性位点上的碱基信息，从所述M个单碱基多态性位点中筛选出N个核心位点，其中，N小于或等于M。

[0109] 构建单元43，用于将所述N个核心位点输入到预设的遗传算法模型中构建出所述目标物种的DNA指纹图谱。

[0110] 可选的，筛选单元42包括：

[0111] 获取模块，用于获取所述目标物种的参考基因组。

[0112] 比对模块，用于分别将所述每个单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息进行比对，并根据比对结果分别确定每个单碱基多态性
位点对应的变异标签。

[0113] 筛选模块，用于根据预设的筛选条件和所述每个单碱基多态性位点对应的变异标签，从M个单碱基多态性位点中选取N个核心位点。

[0114] 可选的，比对模块还用于：

[0115] 对于每个单碱基多态性位点，若所述单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息相同，则确定所述单碱基多态性位点对应的变异标
签为第一标签。

[0116] 若所述单碱基多态性位点上的碱基信息与所述参考基因组中对应的基因位点上的碱基信息不同，则确定所述单碱基多态性位点对应的变异标签为第二标签。

[0117] 若所述单碱基多态性位点上缺失碱基信息，则确定所述单碱基多态性位对应的变异标签为第三标签。

[0118] 可选的，所述N个核心位点中包括至少一个所述第一标签对应的单碱基多态性位点、至少一个所述第二标签对应的单碱基多态性位点和至少一个第三标签对应的单碱基多
态性位点。

[0119] 可选的，所述筛选条件包括：

[0120] 在所述N个核心位点中，所述第三标签对应的单碱基多态性位点的个数与所述N的比值小于第一预设值，并且和分别小于第二预设值；

[0121] 其中，a为所述N个核心位点中所述第一标签对应的单碱基多态性位点的个数，b为所述N个核心位点中所述第二标签对应的单碱基多态性位点的个数。

[0122] 可选的，构建单元43包括：

[0123] 参数获取模块，用于获取预设的迭代次数和位点条数，其中，所述位点条数小于或等于所述N。

[0124] 构建模块，用于将所述迭代次数和所述位点条数作为所述遗传算法的参数，并基于所述参数、根据所述遗传算法和所述N个核心位点构建所述目标物种的DNA指纹图谱。

[0125] 其中，所述目标物种的DNA指纹图谱中包括所述目标物种的多个品种的DNA指纹，每个品种的DNA指纹中包括该品种对应的所有位点组合，每个位点组合中包括L个核心位点
以及每个核心位点对应的变异标签，L为所述位点条数。

[0126] 可选的，装置4还包括：

[0127] 信息获取单元，还用于在将所述N个核心位点输入到预设的遗传算法模型中构建出所述目标物种的DNA指纹图谱之后，获取属于所述目标物种的待鉴定样品，并获取所述待
鉴定样品的所述N个核心位点上的碱基信息，为目标信息。

[0128] 比对单元，用于分别将每个目标信息与所述参考基因组中对应的基因位点上的碱基信息进行比对，并根据比对结果确定所述待鉴定样品的DNA指纹。

[0129] 鉴定单元，用于将所述目标物种的DNA指纹图谱中目标指纹对应的品种确定为所述待鉴定样品的品种，其中，所述目标指纹为与所述待鉴定样品的DNA指纹匹配的DNA指纹。

[0130] 需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此
处不再赘述。

[0131] 另外，图4所示的DNA指纹图谱的构建装置可以是内置于现有的终端设备内的软件单元、硬件单元、或软硬结合的单元，也可以作为独立的挂件集成到所述终端设备中，还可
以作为独立的终端设备存在。

[0132] 所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的
功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上
描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可
以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的
单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单
元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统
中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

[0133] 图5为本申请一实施例提供的终端设备的结构示意图。如图5所示，该实施例的终端设备5包括：至少一个处理器50(图5中仅示出一个)处理器、存储器51以及存储在所述存
储器51中并可在所述至少一个处理器50上运行的计算机程序52，所述处理器50执行所述计
算机程序52时实现上述任意各个DNA指纹图谱的构建方法实施例中的步骤。

[0134] 所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图5仅仅是终
端设备5的举例，并不构成对终端设备5的限定，可以包括比图示更多或更少的部件，或者组
合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

[0135] 所称处理器50可以是中央处理单元(Central Processing Unit，CPU)，该处理器50还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集
成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field‑
Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、
分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器
等。

[0136] 所述存储器51在一些实施例中可以是所述终端设备5的内部存储单元，例如终端设备5的硬盘或内存。所述存储器51在另一些实施例中也可以是所述终端设备5的外部存储
设备，例如所述终端设备5上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安
全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以
既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储操作
系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序
的程序代码等。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

[0137] 本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步
骤。

[0138] 本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

[0139] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方
法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程
序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个
方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以
为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可
以包括：能够将计算机程序代码携带到终端设备的任何实体或装置、记录介质、计算机存储
器、只读存储器(ROM，Read‑Only Memory)、随机存取存储器(RAM，Random Access Memory)、
电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司
法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

[0140] 在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

[0141] 本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟
以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员
可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出
本申请的范围。

[0142] 在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所
述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如
多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另
一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置
或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

[0143] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个
网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。

[0144] 以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各
实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改
或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应
包含在本申请的保护范围之内。

DNA指纹图谱的构建方法、构建装置及终端设备转让专利

申请号 : CN202010102817.5

文献号 : CN111883212B

文献日 : 2021-11-26

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 邹枚伶 , 王文泉 , 江思容 , 夏志强 , 张辰笈 , 孙倩

申请人 : 中国热带农业科学院热带生物技术研究所

摘要 :

权利要求 :

说明书 :