潜在毒力因子的确定方法、装置、计算机设备及存储介质转让专利

申请号 : CN202211309849.8

文献号 : CN115547414B

文献日 : 2023-04-14

本发明实施例公开了一种潜在毒力因子的确定方法、装置、计算机设备及存储介质，其中方法包括：将待筛查基因序列输入第一特征提取单元提取特征，得到第一特征；第二特征是将目标毒力因子对应的毒力因子拼接数据输入第二特征提取单元提取得到的特征，目标毒力因子是毒力因子库中的任一个毒力因子，毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据；根据第一特征和第二特征判断目标毒力因子是否为候选毒力因子；根据预设的比对方法和各个候选毒力因子各自对应的基因序列，确定待筛查基因序列对应的各个潜在毒力因子。从而加快了确定潜在毒力因子的运算速度，基于候选毒力因子的比对有利于提高确定的潜在毒力因子的准确性。

1.一种潜在毒力因子的确定方法，所述方法包括：

将获取的待筛查基因序列输入预设的第一特征提取单元提取特征，得到第一特征；

获取第二特征，其中，所述第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述目标毒力因子是毒力因子库中的任一个毒力因子，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据；

根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子，包括：采用预设的相关度提取单元，对所述第一特征和所述第二特征进行单因子相关度特征图提取；

采用预设的分类预测层，对所述单因子相关度特征图进行分类预测，得到单因子分类预测向量，包括：将所述待筛查基因序列输入预设的分类预测模型进行毒力因子预测，得到多因子分类预测向量；从所述多因子分类预测向量中提取与所述目标毒力因子对应的向量元素值，作为待处理概率值；对所述待处理概率值和所述单因子相关度特征图进行融合处理，得到处理后特征图；采用所述分类预测层，对所述处理后特征图进行包含所述目标毒力因子的概率的分类预测，得到所述单因子分类预测向量；

若所述单因子分类预测向量中的存在向量元素的值大于预设的第一概率阈值，则将所述目标毒力因子作为所述候选毒力因子；

根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子。

2.根据权利要求1所述的潜在毒力因子的确定方法，其特征在于，所述第一特征提取单元依次包括：第一深度神经网络层和第一深层特征提取层；

所述第二特征提取单元依次包括：第二深度神经网络层和第二深层特征提取层；

所述第一深度神经网络层和所述第二深度神经网络层均是基于深度神经网络得到的网络层，并且所述第一深度神经网络层的网络参数和所述第二深度神经网络层的网络参数不共享；

所述第一深层特征提取层包括：卷积层；

所述第二深层特征提取层依次包括：卷积网络层和池化层。

3.根据权利要求2所述的潜在毒力因子的确定方法，其特征在于，所述采用预设的相关度提取单元，对所述第一特征和所述第二特征进行单因子相关度特征图提取的步骤，包括：对所述第二特征进行平铺复制，得到第三特征，其中，所述第三特征的尺寸与所述第一特征的尺寸相同；

采用基于卷积网络训练得到的所述相关度提取单元，对所述第一特征和所述第三特征进行所述单因子相关度特征图提取。

4.根据权利要求2所述的潜在毒力因子的确定方法，其特征在于，所述将获取的待筛查基因序列输入预设的第一特征提取单元提取特征，得到第一特征的步骤之前，还包括：获取各个基因序列样本；

根据所述基因序列样本获取与每个所述毒力因子拼接数据对应的单因子标签；

将任一个所述基因序列样本作为正向序列样本；

对所述正向序列样本进行反转处理，得到反向序列样本；

将各个所述毒力因子拼接数据中的任一个所述毒力因子拼接数据作为目标拼接数据；

将所述正向序列样本、所述目标拼接数据和与所述目标拼接数据对应的所述单因子标签，作为第一训练样本；

将所述反向序列样本、所述目标拼接数据和与所述目标拼接数据对应的所述单因子标签，作为第二训练样本；

将各个所述第一训练样本和各个所述第二训练样本作为训练样本集；

采用所述训练样本集对预设的初始模型进行训练，将训练结束的所述初始模型作为目标模型，其中，所述目标模型包括：所述第一特征提取单元、所述第二特征提取单元、所述相关度提取单元和所述分类预测层。

5.根据权利要求1所述的潜在毒力因子的确定方法，其特征在于，所述根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子的步骤，包括：将各个所述候选毒力因子中的任一个所述候选毒力因子作为待分析毒力因子；

从所述待分析毒力因子对应的基因序列中提取基因片段；

根据各个所述基因片段，对所述待筛查基因序列进行比对，得到所述待分析毒力因子的序列覆盖率和保守片段覆盖率；

判断所述序列覆盖率是否大于预设的第一覆盖率阈值，并且，所述保守片段覆盖率是否大于预设的第二覆盖率阈值；

若均为是，则将所述待分析毒力因子作为所述待筛查基因序列对应的所述潜在毒力因子。

6.一种潜在毒力因子的确定装置，其特征在于，所述装置包括：

第一特征确定模块，用于将获取的待筛查基因序列输入预设的第一特征提取单元提取特征，得到第一特征；

第二特征确定模块，用于获取第二特征，其中，所述第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述目标毒力因子是毒力因子库中的任一个毒力因子，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据；

候选毒力因子确定模块，用于根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子,包括：采用预设的相关度提取单元，对所述第一特征和所述第二特征进行单因子相关度特征图提取；采用预设的分类预测层，对所述单因子相关度特征图进行分类预测，得到单因子分类预测向量，包括：将所述待筛查基因序列输入预设的分类预测模型进行毒力因子预测，得到多因子分类预测向量；从所述多因子分类预测向量中提取与所述目标毒力因子对应的向量元素值，作为待处理概率值；对所述待处理概率值和所述单因子相关度特征图进行融合处理，得到处理后特征图；采用所述分类预测层，对所述处理后特征图进行包含所述目标毒力因子的概率的分类预测，得到所述单因子分类预测向量；若所述单因子分类预测向量中的存在向量元素的值大于预设的第一概率阈值，则将所述目标毒力因子作为所述候选毒力因子；

潜在毒力因子确定模块，用于根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子。

7.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。

潜在毒力因子的确定方法、装置、计算机设备及存储介质

技术领域

[0001] 本发明涉及生物信息技术领域，尤其涉及一种潜在毒力因子的确定方法、装置、计算机设备及存储介质。

背景技术

[0002] 毒力因子是病原微生物产生的导致宿主发生疾病的一类分子，其在疾病发生过程中发挥着多种功能，包括攻击宿主的防御机制、向宿主迁移、免疫抑制等，毒力因子的研究是微生物基因的研究中最具应用价值及实际意义的一项研究。传统的微生物基因的研究通常依赖实验室细菌分离和培养，近几年随着高通量测序技术的快速发展，研究者很容易就能获取到细菌病原体组装成的基因组，在基因组层面寻找毒力因子可了解微生物与宿主之间的致病机制。现有的潜在毒力因子的确定方法，直接采用比对方法确定待筛查基因序列中包含的潜在毒力因子。因待筛查基因序列通常有从几十Mb到几十个Gb、毒力因子数量较多、毒力因子的基因序列的长度在1也比较大、比对时涉及正比对及反比对，导致确定待筛查基因序列中包含的潜在毒力因子的运算速度较慢；而且比对方法是计算序列覆盖率，将序列覆盖率高于覆盖率阈值的毒力因子作为潜在毒力因子，序列覆盖率未达到100％，直接采用比对方法导致确定的潜在毒力因子的准确性不高。

发明内容

[0003] 基于此，有必要针对现有技术直接采用比对方法确定待筛查基因序列中包含的潜在毒力因子，存在运算速度较慢、确定的潜在毒力因子的准确性不高的技术问题，提出了一种潜在毒力因子的确定方法、装置、计算机设备及存储介质。

[0004] 一种潜在毒力因子的确定方法，所述方法包括：

[0005] 将获取的待筛查基因序列输入预设的第一特征提取单元提取特征，得到第一特征；

[0006] 获取第二特征，其中，所述第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述目标毒力因子是毒力因子库中的任一个毒力因子，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据；

[0007] 根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子；

[0008] 根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子。

[0009] 进一步地，所述第一特征提取单元依次包括：第一深度神经网络层和第一深层特征提取层；

[0010] 所述第二特征提取单元依次包括：第二深度神经网络层和第二深层特征提取层；

[0011] 所述第一深度神经网络层和所述第二深度神经网络层均是基于深度神经网络得到的网络层，并且所述第一深度神经网络层的网络参数和所述第二深度神经网络层的网络参数不共享；

[0012] 所述第一深层特征提取层包括：卷积层；

[0013] 所述第二深层特征提取层依次包括：卷积网络层和池化层。

[0014] 进一步地，所述根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子的步骤，包括：

[0015] 采用预设的相关度提取单元，对所述第一特征和所述第二特征进行单因子相关度特征图提取；

[0016] 采用预设的分类预测层，对所述单因子相关度特征图进行分类预测，得到单因子分类预测向量；

[0017] 若所述单因子分类预测向量中的存在向量元素的值大于预设的第一概率阈值，则将所述目标毒力因子作为所述候选毒力因子。

[0018] 进一步地，所述采用预设的相关度提取单元，对所述第一特征和所述第二特征进行单因子相关度特征图提取的步骤，包括：

[0019] 对所述第二特征进行平铺复制，得到第三特征，其中，所述第三特征的尺寸与所述第一特征的尺寸相同；

[0020] 采用基于卷积网络训练得到的所述相关度提取单元，对所述第一特征和所述第三特征进行所述单因子相关度特征图提取。

[0021] 进一步地，所述采用预设的分类预测层，对所述单因子相关度特征图进行分类预测，得到单因子分类预测向量的步骤，包括：

[0022] 将所述待筛查基因序列输入预设的分类预测模型进行毒力因子预测，得到多因子分类预测向量；

[0023] 从所述多因子分类预测向量中提取与所述目标毒力因子对应的向量元素值，作为待处理概率值；

[0024] 对所述待处理概率值和所述单因子相关度特征图进行融合处理，得到处理后特征图；

[0025] 采用所述分类预测层，对所述处理后特征图进行包含所述目标毒力因子的概率的分类预测，得到所述单因子分类预测向量。

[0026] 进一步地，所述将获取的待筛查基因序列输入预设的第一特征提取单元提取特征，得到第一特征的步骤之前，还包括：

[0027] 获取各个基因序列样本；

[0028] 根据所述基因序列样本获取与每个所述毒力因子拼接数据对应的单因子标签；

[0029] 将任一个所述基因序列样本作为正向序列样本；

[0030] 对所述正向序列样本进行反转处理，得到反向序列样本；

[0031] 将各个所述毒力因子拼接数据中的任一个所述毒力因子拼接数据作为目标拼接数据；

[0032] 将所述正向序列样本、所述目标拼接数据和与所述目标拼接数据对应的所述单因子标签，作为第一训练样本；

[0033] 将所述反向序列样本、所述目标拼接数据和与所述目标拼接数据对应的所述单因子标签，作为第二训练样本；

[0034] 将各个所述第一训练样本和各个所述第二训练样本作为训练样本集；

[0035] 采用所述训练样本集对预设的初始模型进行训练，将训练结束的所述初始模型作为目标模型，其中，所述目标模型包括：所述第一特征提取单元、所述第二特征提取单元、所述相关度提取单元和所述分类预测层。

[0036] 进一步地，所述根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子的步骤，包括：

[0037] 将各个所述候选毒力因子中的任一个所述候选毒力因子作为待分析毒力因子；

[0038] 从所述待分析毒力因子对应的基因序列中提取基因片段；

[0039] 根据各个所述基因片段，对所述待筛查基因序列进行比对，得到所述待分析毒力因子的序列覆盖率和保守片段覆盖率；

[0040] 判断所述序列覆盖率是否大于预设的第一覆盖率阈值，并且，所述保守片段覆盖率是否大于预设的第二覆盖率阈值；

[0041] 若均为是，则将所述待分析毒力因子作为所述待筛查基因序列对应的所述潜在毒力因子。

[0042] 一种潜在毒力因子的确定装置，所述装置包括：

[0043] 第一特征确定模块，用于将获取的待筛查基因序列输入预设的第一特征提取单元提取特征，得到第一特征；

[0044] 第二特征确定模块，用于获取第二特征，其中，所述第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述目标毒力因子是毒力因子库中的任一个毒力因子，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据；

[0045] 候选毒力因子确定模块，用于根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子；

[0046] 潜在毒力因子确定模块，用于根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子。

[0047] 一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

[0048] 将获取的待筛查基因序列输入预设的第一特征提取单元提取特征，得到第一特征；

[0049] 获取第二特征，其中，所述第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述目标毒力因子是毒力因子库中的任一个毒力因子，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据；

[0050] 根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子；

[0051] 根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子。

[0052] 一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

[0053] 将获取的待筛查基因序列输入预设的第一特征提取单元提取特征，得到第一特征；

[0054] 获取第二特征，其中，所述第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述目标毒力因子是毒力因子库中的任一个毒力因子，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据；

[0055] 根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子；

[0056] 根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子。

[0057] 本申请的潜在毒力因子的确定方法，通过首先确定候选毒力因子，然后根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子，减少了需要比对的毒力因子，加快了确定潜在毒力因子的运算速度，而且基于候选毒力因子的比对有利于提高确定的潜在毒力因子的准确性；另外，第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据，因保守片段更能体现具体毒力因子的特性，从而使提取的第二特征更能表征目标毒力因子的特性，有利于提高根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子的准确性，进一步提高了确定的潜在毒力因子的准确性。

附图说明

[0058] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0059] 其中：

[0060] 图1为一个实施例中潜在毒力因子的确定方法的流程图；

[0061] 图2为一个实施例中潜在毒力因子的确定方法的全流程示意图；

[0062] 图3为一个实施例中潜在毒力因子的确定装置的结构框图；

[0063] 图4为一个实施例中计算机设备的结构框图。

具体实施方式

[0064] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0065] 如图1所示，在一个实施例中，提供了一种潜在毒力因子的确定方法。该方法既可以应用于终端，也可以应用于服务器，本实施例以应用于终端举例说明。该潜在毒力因子的确定方法具体包括如下步骤：

[0066] S1：将获取的待筛查基因序列输入预设的第一特征提取单元提取特征，得到第一特征；

[0067] 具体而言，可以获取用户输入的待筛查基因序列，也可以从数据库中获取待筛查基因序列，还可以从第三方应用中获取待筛查基因序列；将待筛查基因序列输入第一特征提取单元提取特征，将提取的特征作为第一特征。

[0068] 第一特征提取单元，是基于深度神经网络得到的网络单元。第一特征提取单元用于提取待筛查基因序列中的表征毒力因子的特征。

[0069] 待筛查基因序列，是需要确定潜在毒力因子的长序列基因组或者长序列拼接基因组。

[0070] S2：获取第二特征，其中，所述第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述目标毒力因子是毒力因子库中的任一个毒力因子，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据；

[0071] 具体而言，可以获取用户输入的第二特征，也可以从数据库中获取第二特征还可以从第三方应用中获取第二特征，还可以是实时生成的第二特征。

[0072] 第二特征提取单元，是基于深度神经网络得到的网络单元。第二特征提取单元用于提取毒力因子拼接数据中的表征具体毒力因子特性的特征。

[0073] 可选的，采用预设的连接符，对同一个毒力因子对应的基因序列及保守片段进行依次拼接，将拼接得到的数据作为所述毒力因子拼接数据。比如，毒力因子Y的基因序列为ATC(A是一个碱基，T是一个碱基，C是一个碱基)，毒力因子Y的保守片段为AT，预设的连接符为&，则毒力因子Y对应的所述毒力因子拼接数据为“ATC&AT”，在此举例不做具体限定。因目标毒力因子对应的保守片段能更好的表征目标毒力因子的特性，因此，通过将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，有利于针对目标毒力因子的特性提取特征，从而使第二特征能更好的表征目标毒力因子的特性，为准确的判断所述目标毒力因子是否为候选毒力因子提供了基础。

[0074] 毒力因子库包括至少一个毒力因子。

[0075] S3：根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子；

[0076] 具体而言，根据所述第一特征和所述第二特征之间的相似性，判断所述目标毒力因子是否为候选毒力因子，其中，若所述第一特征和所述第二特征之间的相似性达到预设要求，则将所述目标毒力因子作为候选毒力因子，若所述第一特征和所述第二特征之间的相似性未达到预设要求，则不将所述目标毒力因子作为候选毒力因子。

[0077] 可以理解的是，通过重复执行步骤S2至步骤S5，即可从毒力因子库中确定待筛查基因序列对应的各个所述候选毒力因子。

[0078] S4：根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子。

[0079] 具体而言，采用预设的比对方法，对所述待筛查基因序列，确定每个所述候选毒力因子对应的所述基因序列的序列覆盖率，将所述序列覆盖率大于预设的覆盖率阈值的每个所述候选毒力因子作为所述待筛查基因序列对应的一个所述潜在毒力因子。

[0080] 本实施例通过首先确定候选毒力因子，然后根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子，减少了需要比对的毒力因子，加快了确定潜在毒力因子的运算速度，而且基于候选毒力因子的比对有利于提高确定的潜在毒力因子的准确性；另外，第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据，因保守片段更能体现具体毒力因子的特性，从而使提取的第二特征更能表征目标毒力因子的特性，有利于提高根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子的准确性，进一步提高了确定的潜在毒力因子的准确性；当每识别出一个毒力因子的基因序列及保守片段，就可以对毒力因子的基因序列及保守片段进行拼接，采用第二特征提取单元对拼接的得到的数据进行特征提取，将提取的特征存储在预设的存储空间，每次对待筛查基因序列确定潜在毒力因子时，不需要采用第二特征提取单元提取特征，只需要从预设的存储空间中获取每个毒力因子的特征进行是否为候选毒力因子的判断，从而减少了确定候选毒力因子的计算量，进一步加快了确定潜在毒力因子的运算速度；因第一特征表征的是待筛查基因序列中的毒力因子的特征，第二特征表述的是具体毒力因子的特性的特征，从而提高根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子的准确性。

[0081] 在一个实施例中，上述第一特征提取单元依次包括：第一深度神经网络层和第一深层特征提取层；

[0082] 所述第二特征提取单元依次包括：第二深度神经网络层和第二深层特征提取层；

[0083] 所述第一深度神经网络层和所述第二深度神经网络层均是基于深度神经网络得到的网络层，并且所述第一深度神经网络层的网络参数和所述第二深度神经网络层的网络参数不共享；

[0084] 所述第一深层特征提取层包括：卷积层；

[0085] 所述第二深层特征提取层依次包括：卷积网络层和池化层。

[0086] 具体而言，所述第一深度神经网络层用于从待筛查基因序列提取深度神经网络特征。

[0087] 所述第二深度神经网络层用于从毒力因子拼接数据提取深度神经网络特征。

[0088] 所述第一深层特征提取层的卷积层，用于对从待筛查基因序列提取深度神经网络特征进一步提取毒力因子特征。

[0089] 所述第二深层特征提取层，用于对从毒力因子拼接数据提取深度神经网络特征进一步提取能表征单个毒力因子的特征。所述第二深层特征提取层的卷积网络层用于对从毒力因子拼接数据提取深度神经网络特征进行变换，池化层用于将变换后的特征的空间维度变成1*1。其中，卷积网络层，是采用卷积网络进行卷积的网络层。

[0090] 在本申请的另一个实施例中，所述第一深度神经网络层的网络参数和所述第二深度神经网络层的网络参数共享。相对所述第一深度神经网络层的网络参数和所述第二深度神经网络层的网络参数共享，在所述第一深度神经网络层的网络参数和所述第二深度神经网络层的网络参数不共享的情况下能更好的从包含碱基噪音的基因序列中提取毒力因子的特征，在所述第一深度神经网络层的网络参数和所述第二深度神经网络层的网络参数不共享的情况下能更好的提取表征具体毒力因子的特性的特征。

[0091] 因待筛查基因序列可能存在毒力因子的碱基片段，也可能不存在毒力因子的碱基片段，待筛查基因序列含有不属于毒力因子的碱基噪音，因此，从毒力因子拼接数据提取深度神经网络特征的方法和从毒力因子拼接数据提取深度神经网络特征的方法需要不同，才能从目标毒力因子对应的毒力因子拼接数据提取表征具体毒力因子的特性的特征，以及从包含碱基噪音的待筛查基因序列提取表征毒力因子的特征，为了实现该目的，本申请所述第一深度神经网络层的网络参数和所述第二深度神经网络层的网络参数不共享，从而进一步提高了确定的潜在毒力因子的准确性。

[0092] 如图2所示，在一个实施例中，上述根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子的步骤，包括：

[0093] S31：采用预设的相关度提取单元，对所述第一特征和所述第二特征进行单因子相关度特征图提取；

[0094] 具体而言，将所述第一特征和所述第二特征进行尺寸对齐、串联，然后将串联后的特征输入相关度提取单元提取相关度特征图，将提取的相关度特征图作为单因子相关度特征图。

[0095] 可选的，相关度提取单元，采用动态卷积或相关度滤波的方法计算所述第一特征和所述第二特征之间的相关度。

[0096] S32：采用预设的分类预测层，对所述单因子相关度特征图进行分类预测，得到单因子分类预测向量；

[0097] 具体而言，将所述单因子相关度特征图输入分类预测层进行分类预测，将预测得到的数据作为单因子分类预测向量。

[0098] 单因子分类预测向量包含标签为存在的向量元素，将该向量元素称为存在向量元素。存在向量元素的值是指待筛查基因序列包含目标毒力因子的概率。

[0099] 可选的，分类预测层是采用softmax激活函数的全连接层。softmax激活函数，是归一化指数函数。

[0100] S33：若所述单因子分类预测向量中的存在向量元素的值大于预设的第一概率阈值，则将所述目标毒力因子作为所述候选毒力因子。

[0101] 具体而言，若所述单因子分类预测向量中的存在向量元素的值大于预设的第一概率阈值，此时意味着待筛查基因序列包含目标毒力因子的可能性较大，因此，将所述目标毒力因子作为所述候选毒力因子。

[0102] 本实施例通过首先对所述第一特征和所述第二特征进行单因子相关度特征图提取，然后对所述单因子相关度特征图进行分类预测，从而实现基于相关度预测待筛查基因序列包含目标毒力因子的可能性，提高了筛选出的候选毒力因子的准确性。

[0103] 在一个实施例中，上述采用预设的相关度提取单元，对所述第一特征和所述第二特征进行单因子相关度特征图提取的步骤，包括：

[0104] S311：对所述第二特征进行平铺复制，得到第三特征，其中，所述第三特征的尺寸与所述第一特征的尺寸相同；

[0105] S312：采用基于卷积网络训练得到的所述相关度提取单元，对所述第一特征和所述第三特征进行所述单因子相关度特征图提取。

[0106] 具体而言，将所述第一特征和所述第三特征进行串联，将串联后的特征输入基于卷积网络训练得到的所述相关度提取单元提取相关度特征图，将提取的相关度特征图作为单因子相关度特征图。

[0107] 相对采用动态卷积或相关度滤波的方法计算所述第一特征和所述第二特征之间的相关度，本实施例采用基于卷积网络训练得到的所述相关度提取单元计算所述第一特征和所述第三特征之间的相关度，基于特征级联，充分利用了卷积网络的学习能力，从而有利于提高单因子相关度特征图的准确性。

[0108] 如图2所示，在一个实施例中，上述采用预设的分类预测层，对所述单因子相关度特征图进行分类预测，得到单因子分类预测向量的步骤，包括：

[0109] S321：将所述待筛查基因序列输入预设的分类预测模型进行毒力因子预测，得到多因子分类预测向量；

[0110] 具体而言，将所述待筛查基因序列输入预设的分类预测模型进行包含各个毒力因子的概率预测，将预测得到的数据作为多因子分类预测向量。

[0111] 多因子分类预测向量中包含多个向量元素。多因子分类预测向量中的每个向量元素对应一个毒力因子。多因子分类预测向量中的向量元素的值是所述待筛查基因序列包含该向量元素对应的毒力因子的概率。

[0112] 分类预测模型是基于多分类器训练得到的模型。分类预测模型的训练方法和模型结构，本领域技术人员可以从现有技术中选择，在此不做赘述。

[0113] S322：从所述多因子分类预测向量中提取与所述目标毒力因子对应的向量元素值，作为待处理概率值；

[0114] 具体而言，从所述多因子分类预测向量中提取与所述目标毒力因子对应的向量元素值，将提取的向量元素值作为待处理概率值。

[0115] S323：对所述待处理概率值和所述单因子相关度特征图进行融合处理，得到处理后特征图；

[0116] 可选的，将所述待处理概率值与所述单因子相关度特征图进行相乘，将相乘得到的数据作为处理后特征图。

[0117] 可选的，判断所述待处理概率值是否大于预设的第二概率阈值，若否，则将所述待处理概率值与所述单因子相关度特征图进行相乘，将相乘得到的数据作为处理后特征图。

[0118] S324：采用所述分类预测层，对所述处理后特征图进行包含所述目标毒力因子的概率的分类预测，得到所述单因子分类预测向量。

[0119] 具体而言，将所述处理后特征图输入所述分类预测层进行包含所述目标毒力因子的概率的分类预测，将预测得到的数据作为所述单因子分类预测向量。

[0120] 本实施例对所述待处理概率值和所述单因子相关度特征图进行融合处理得到的特征图输入所述分类预测层进行包含所述目标毒力因子的概率的分类预测，从而提高了确定的所述单因子分类预测向量的准确性。

[0121] 在一个实施例中，上述将获取的待筛查基因序列输入预设的第一特征提取单元提取特征，得到第一特征的步骤之前，还包括：

[0122] S11：获取各个基因序列样本；

[0123] 具体而言，可以获取用户输入的各个基因序列样本，也可以从数据库中获取各个基因序列样本，还可以从第三方应用中获取各个基因序列样本。

[0124] 基因序列样本，也就是可能包含毒力因子的长序列基因组或者长序列拼接基因组。

[0125] S12：根据所述基因序列样本获取与每个所述毒力因子拼接数据对应的单因子标签；

[0126] 具体而言，可以根据所述基因序列样本获取用户输入的与每个所述毒力因子拼接数据对应的单因子标签，也可以根据所述基因序列样本从数据库中获取与每个所述毒力因子拼接数据对应的单因子标签，其中，单因子标签是所述基因序列样本中包含所述毒力因子拼接数据对应的毒力因子的标签。

[0127] S13：将任一个所述基因序列样本作为正向序列样本；

[0128] S14：对所述正向序列样本进行反转处理，得到反向序列样本；

[0129] 具体而言，对所述正向序列样本进行反转处理，将反转处理得到的序列作为得到反向序列样本。比如，所述正向序列样本为ATC，则反向序列样本为CTA，在此举例不做具体显得。

[0130] S15：将各个所述毒力因子拼接数据中的任一个所述毒力因子拼接数据作为目标拼接数据；

[0131] S16：将所述正向序列样本、所述目标拼接数据和与所述目标拼接数据对应的所述单因子标签，作为第一训练样本；

[0132] S17：将所述反向序列样本、所述目标拼接数据和与所述目标拼接数据对应的所述单因子标签，作为第二训练样本；

[0133] 可以理解的是，重复步骤S15至步骤S17，即可确定一个所述基因序列样本对应的第一训练样本及第二训练样本。

[0134] 可以理解的是，重复步骤S13至步骤S17，即可确定所有所述基因序列样本各自对应的第一训练样本及第二训练样本。

[0135] S18：将各个所述第一训练样本和各个所述第二训练样本作为训练样本集；

[0136] S19：采用所述训练样本集对预设的初始模型进行训练，将训练结束的所述初始模型作为目标模型，其中，所述目标模型包括：所述第一特征提取单元、所述第二特征提取单元、所述相关度提取单元和所述分类预测层。

[0137] 具体而言，采用所述训练样本集对预设的初始模型进行训练，直至达到预设的训练结束条件，将达到训练结束条件的所述初始模型作为目标模型。

[0138] 可选的，训练结束条件为初始模型的损失值收敛于预设数值。

[0139] 本实施例将所述正向序列样本、所述目标拼接数据和与所述目标拼接数据对应的所述单因子标签，作为第一训练样本、将所述反向序列样本、所述目标拼接数据和与所述目标拼接数据对应的所述单因子标签，作为第二训练样本，从而符合比对方法中包含正比对和反比对的特点，丰富了训练样本集，有利于提高训练得到的目标模型的准确性。

[0140] 在一个实施例中，上述根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子的步骤，包括：

[0141] S41：将各个所述候选毒力因子中的任一个所述候选毒力因子作为待分析毒力因子；

[0142] S42：从所述待分析毒力因子对应的基因序列中提取基因片段；

[0143] 所述待分析毒力因子对应的基因序列，是基于质控方式从所述待分析毒力因子对应的原始测序数据中提取的高质量测序数据。

[0144] 基因片段可以是正链，也可以负链。

[0145] S43：根据各个所述基因片段，对所述待筛查基因序列进行比对，得到所述待分析毒力因子的序列覆盖率和保守片段覆盖率；

[0146] 具体而言，采用各个所述基因片段对所述待筛查基因序列进行比对以实现正比对；采用各个所述基因片段对应的反向序列对所述待筛查基因序列进行比对以实现反比对，根据比对得到的数据计算所述待分析毒力因子的序列覆盖率。

[0147] S44：判断所述序列覆盖率是否大于预设的第一覆盖率阈值，并且，所述保守片段覆盖率是否大于预设的第二覆盖率阈值；

[0148] S45：若均为是，则将所述待分析毒力因子作为所述待筛查基因序列对应的所述潜在毒力因子。

[0149] 具体而言，若均为是，也就是所述序列覆盖率大于预设的第一覆盖率阈值，并且，所述保守片段覆盖率大于预设的第二覆盖率阈值，此时意味着所述待筛查基因序列中包含所述待分析毒力因子，因此，将所述待分析毒力因子作为所述待筛查基因序列对应的所述潜在毒力因子。

[0150] 可以理解的是，重复执行步骤S41至步骤S45，即可判断每个所述候选毒力因子是否为所述待筛查基因序列对应的所述潜在毒力因子。

[0151] 本实施例实现了基于正比对和反比对的数据计算序列覆盖率和保守片段覆盖率，提高了确定的序列覆盖率和保守片段覆盖率的准确性，进一步提高了确定的潜在毒力因子的准确性。

[0152] 如图3所示，在一个实施例中，提供了一种潜在毒力因子的确定装置，所述装置包括：

[0153] 第一特征确定模块801，用于将获取的待筛查基因序列输入预设的第一特征提取单元提取特征，得到第一特征；

[0154] 第二特征确定模块802，用于获取第二特征，其中，所述第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述目标毒力因子是毒力因子库中的任一个毒力因子，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据；

[0155] 候选毒力因子确定模块803，用于根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子；

[0156] 潜在毒力因子确定模块804，用于根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子。

[0157] 本实施例通过首先确定候选毒力因子，然后根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子，减少了需要比对的毒力因子，加快了确定潜在毒力因子的运算速度，而且基于候选毒力因子的比对有利于提高确定的潜在毒力因子的准确性；另外，第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据，因保守片段更能体现具体毒力因子的特性，从而使提取的第二特征更能表征目标毒力因子的特性，有利于提高根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子的准确性，进一步提高了确定的潜在毒力因子的准确性；当每识别出一个毒力因子的基因序列及保守片段，就可以对毒力因子的基因序列及保守片段进行拼接，采用第二特征提取单元对拼接的得到的数据进行特征提取，将提取的特征存储在预设的存储空间，每次对待筛查基因序列确定潜在毒力因子时，不需要采用第二特征提取单元提取特征，只需要从预设的存储空间中获取每个毒力因子的特征进行是否为候选毒力因子的判断，从而减少了确定候选毒力因子的计算量，进一步加快了确定潜在毒力因子的运算速度；因第一特征表征的是待筛查基因序列中的毒力因子的特征，第二特征表述的是具体毒力因子的特性的特征，从而提高根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子的准确性。

[0158] 图4示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器。如图4所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现潜在毒力因子的确定方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行潜在毒力因子的确定方法。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

[0159] 在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

[0160] 将获取的待筛查基因序列输入预设的第一特征提取单元提取特征，得到第一特征；

[0161] 获取第二特征，其中，所述第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述目标毒力因子是毒力因子库中的任一个毒力因子，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据；

[0162] 根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子；

[0163] 根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子。

[0164] 本实施例通过首先确定候选毒力因子，然后根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子，减少了需要比对的毒力因子，加快了确定潜在毒力因子的运算速度，而且基于候选毒力因子的比对有利于提高确定的潜在毒力因子的准确性；另外，第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据，因保守片段更能体现具体毒力因子的特性，从而使提取的第二特征更能表征目标毒力因子的特性，有利于提高根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子的准确性，进一步提高了确定的潜在毒力因子的准确性；当每识别出一个毒力因子的基因序列及保守片段，就可以对毒力因子的基因序列及保守片段进行拼接，采用第二特征提取单元对拼接的得到的数据进行特征提取，将提取的特征存储在预设的存储空间，每次对待筛查基因序列确定潜在毒力因子时，不需要采用第二特征提取单元提取特征，只需要从预设的存储空间中获取每个毒力因子的特征进行是否为候选毒力因子的判断，从而减少了确定候选毒力因子的计算量，进一步加快了确定潜在毒力因子的运算速度；因第一特征表征的是待筛查基因序列中的毒力因子的特征，第二特征表述的是具体毒力因子的特性的特征，从而提高根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子的准确性。

[0165] 在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

[0166] 将获取的待筛查基因序列输入预设的第一特征提取单元提取特征，得到第一特征；

[0167] 获取第二特征，其中，所述第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述目标毒力因子是毒力因子库中的任一个毒力因子，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据；

[0168] 根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子；

[0169] 根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子。

[0170] 本实施例通过首先确定候选毒力因子，然后根据预设的比对方法和各个所述候选毒力因子各自对应的所述基因序列，确定所述待筛查基因序列对应的各个潜在毒力因子，减少了需要比对的毒力因子，加快了确定潜在毒力因子的运算速度，而且基于候选毒力因子的比对有利于提高确定的潜在毒力因子的准确性；另外，第二特征是将目标毒力因子对应的毒力因子拼接数据输入预设的第二特征提取单元提取得到的特征，所述毒力因子拼接数据是对毒力因子对应的基因序列及保守片段进行拼接得到的数据，因保守片段更能体现具体毒力因子的特性，从而使提取的第二特征更能表征目标毒力因子的特性，有利于提高根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子的准确性，进一步提高了确定的潜在毒力因子的准确性；当每识别出一个毒力因子的基因序列及保守片段，就可以对毒力因子的基因序列及保守片段进行拼接，采用第二特征提取单元对拼接的得到的数据进行特征提取，将提取的特征存储在预设的存储空间，每次对待筛查基因序列确定潜在毒力因子时，不需要采用第二特征提取单元提取特征，只需要从预设的存储空间中获取每个毒力因子的特征进行是否为候选毒力因子的判断，从而减少了确定候选毒力因子的计算量，进一步加快了确定潜在毒力因子的运算速度；因第一特征表征的是待筛查基因序列中的毒力因子的特征，第二特征表述的是具体毒力因子的特性的特征，从而提高根据所述第一特征和所述第二特征判断所述目标毒力因子是否为候选毒力因子的准确性。

[0171] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

[0172] 以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

[0173] 以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

潜在毒力因子的确定方法、装置、计算机设备及存储介质转让专利

申请号 : CN202211309849.8

文献号 : CN115547414B

文献日 : 2023-04-14

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 刘娟 , 孙明明 , 段学成 , 张鹏博 , 张俊涛 , 祖爽 , 张贵英 , 吴丽 , 马丽娜

申请人 : 黑龙江金域医学检验实验室有限公司

摘要 :

权利要求 :

说明书 :