正交化低秩适应矩阵的语音检测模型的训练方法及装置转让专利

申请号 : CN202410063975.2

文献号 : CN117577117B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 陶建华

申请人 : 清华大学

摘要 :

本发明提供了一种正交化低秩适应矩阵的语音检测模型的训练方法及装置,具体涉及语音识别技术领域,通过获取新训练数据集;加载预训练语音大模型并冻结其参数,引入第一低秩适应矩阵和第二低秩适应矩阵,得到待训练语音检测模型;将新训练数据集输入至待训练语音检测模型中,通过正交优化第一低秩适应矩阵和第二低秩适应矩阵的参数,结束训练,得到语音检测模型。针对实际获取的新数据集,使用上述训练方法对语音检测模型进行训练,引入低秩适应矩阵,对模型进行微调,不仅可以显著降低训练成本,还可以极大的提高模型对新数据集下生成音频的检测能力,同时几乎不影响模型对先前已学习的语音算法的检测能力。

权利要求 :

1.一种正交化低秩适应矩阵的语音检测模型的训练方法,其特征在于,所述训练方法包括:获取新训练数据集,所述新训练数据集包括采用预训练语音大模型未知的生成算法生成的多个语音;

加载所述预训练语音大模型并冻结其参数,引入第一低秩适应矩阵和第二低秩适应矩阵,得到待训练语音检测模型;

将所述新训练数据集输入至所述待训练语音检测模型中,通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数,结束训练,得到所述语音检测模型,其中,所述正交优化是指:在训练所述待训练语音检测模型的过程中,所述第一低秩适应矩阵和所述第二低秩适应矩阵在每一个数据集上的训练是相互独立的,不会遗忘从已学习的训练数据集中学到的知识。

2.根据权利要求1所述的正交化低秩适应矩阵的语音检测模型的训练方法,其特征在于,所述预训练语音大模型的训练过程如下所示:获取旧训练数据集;

采用所述旧训练数据集对语音大模型进行预训练,得到所述预训练语音大模型,所述预训练语音大模型能够识别所述旧训练数据集中的语音的生成算法。

3.根据权利要求2所述的正交化低秩适应矩阵的语音检测模型的训练方法,其特征在于,所述通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数,包括:在训练所述待训练语音检测模型的过程中,所述新训练数据集被划分为多个批次的子数据集进行训练,第i个批次的子数据集对应的权重更新方向正交于第i‑1个批次的子数据集的权重更新方向,以使每个子数据集的权重更新不影响其他批次的子数据集的权重更新。

4.根据权利要求3所述的训练方法,其特征在于,所述正交优化的公式如下所示:,

其中, ,i表示训练所述语音检测模型时

的子数据集所属批次,j表示训练所述语音检测模型时输入的所述子数据集所在的训练数据集为第j个训练数据集,x表示输入的所述新训练数据集中的语音,α表示预先设置的常数,T表示转置, 表示对输入的所述新训练数据集中的语音求平均值。

5.根据权利要求1所述的正交化低秩适应矩阵的语音检测模型的训练方法,其特征在于,在得到所述语音检测模型之后,所述训练方法还包括:获取待检测语音;

将所述待检测语音输入至所述语音检测模型中,输出检测结果,其中,当所述待检测语音的算法属于所述预训练语音大模型已学习的生成语音的情况下,将所述预训练语音大模型针对所述待检测语音的输出作为所述检测结果;

当所述待检测语音的算法属于所述预训练语音大模型未学习的生成语音的情况下,将所述预训练语音大模型、所述第一低秩适应矩阵和所述第二低秩适应矩阵的输出总和作为所述检测结果。

6.根据权利要求5所述的正交化低秩适应矩阵的语音检测模型的训练方法,其特征在于,所述检测结果的公式如下所示:,

其中,hmodel是所述语音检测模型输出的所述检测结果,x是输入的所述待检测语音,WSOM是所述预训练语音大模型,AA是所述第一低秩适应矩阵,BB是所述第二低秩适应矩阵。

7.一种正交化低秩适应矩阵的语音检测模型的训练装置,其特征在于,所述训练装置包括:新训练数据集获取模块,用于获取新训练数据集,所述新训练数据集包括采用预训练语音大模型未知的生成算法生成的多个语音;

待训练语音检测模型获取模块,用于加载所述预训练语音大模型并冻结其参数,引入第一低秩适应矩阵和第二低秩适应矩阵,得到待训练语音检测模型;

语音检测模型获取模块,用于将所述新训练数据集输入至所述待训练语音检测模型中,通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数,结束训练,得到所述语音检测模型,其中,所述正交优化是指:在训练所述待训练语音检测模型的过程中,所述第一低秩适应矩阵和所述第二低秩适应矩阵在每一个数据集上的训练是相互独立的,不会遗忘从已学习的训练数据集中学到的知识。

8.根据权利要求7所述的正交化低秩适应矩阵的语音检测模型的训练装置,其特征在于,所述待训练语音检测模型获取模块还包括第一训练子模块,所述第一训练子模块包括:获取单元,用于获取旧训练数据集;

预训练单元,用于采用所述旧训练数据集对语音大模型进行预训练,得到所述预训练语音大模型,所述预训练语音大模型能够识别所述旧训练数据集中的语音的生成算法。

9.一种电子设备,其特征在于,包括:

存储器,用于存储一个或多个程序;

处理器;

当所述一个或多个程序被所述处理器执行时,实现如权利要求1‑6中任一项所述的正交化低秩适应矩阵的语音检测模型的训练方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1‑6中任一项所述的正交化低秩适应矩阵的语音检测模型的训练方法。

说明书 :

正交化低秩适应矩阵的语音检测模型的训练方法及装置

技术领域

[0001] 本发明涉及语音识别技术领域,特别是涉及一种正交化低秩适应矩阵的语音检测模型的训练方法及装置。

背景技术

[0002] 由于深度学习的快速发展,语音转换和语音合成技术日趋成熟,深度学习模型生成的语音广泛应用于人机交互场景中。但生成语音的滥用也给人民和社会带来了危害,与之对应的语音真假鉴别技术也受到大家的广泛关注。基于语音检测模型的生成语音检测在大部分数据集上表现优异,但在面对新算法和未知算法生成的生成语音场景下,检测准确率会大幅的降低。
[0003] 目前采用新算法和未知算法生成的生成语音对语音检测模型进行训练,不仅会使模型“遗忘”学习过的已知算法,还需要消耗大量的计算资源和训练时间,导致其实际应用成本较高。
[0004] 基于此,本发明提出一种基于正交化低秩适应矩阵的语音检测模型的训练方法以解决上述问题。

发明内容

[0005] 本发明提供一种正交化低秩适应矩阵的语音检测模型的训练方法及装置,以解决上述问题。
[0006] 在本发明实施例第一方面提出一种正交化低秩适应矩阵的语音检测模型的训练方法,所述训练方法包括:
[0007] 获取新训练数据集,所述新训练数据集包括采用预训练语音大模型未知的生成算法生成的多个语音;
[0008] 加载所述预训练语音大模型并冻结其参数,引入第一低秩适应矩阵和第二低秩适应矩阵,得到待训练语音检测模型;
[0009] 将所述新训练数据集输入至所述待训练语音检测模型中,通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数,结束训练,得到所述语音检测模型,其中,所述正交优化是指:在训练所述待训练语音检测模型的过程中,所述第一低秩适应矩阵和所述第二低秩适应矩阵在每一个数据集上的训练是相互独立的,不会遗忘从已学习的训练数据集中学到的知识。
[0010] 在本发明可选地一实施例中,所述预训练语音大模型的训练过程如下所示:
[0011] 获取旧训练数据集;
[0012] 采用所述旧训练数据集对语音大模型进行预训练,得到所述预训练语音大模型,所述预训练语音大模型能够识别所述旧训练数据集中的语音的生成算法。
[0013] 在本发明可选地一实施例中,所述通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数,包括:
[0014] 在训练所述待训练语音检测模型的过程中,所述新训练数据集被划分为多个批次的子数据集进行训练,第i个批次的子数据集对应的权重更新方向正交于第i‑1个批次的子数据集的权重更新方向,以使每个子数据集的权重更新不影响其他批次的子数据集的权重更新。
[0015] 在本发明可选地一实施例中,所述正交优化的公式如下所示:
[0016] ,
[0017] 其中, ,i表示训练所述语音检测模型时的子数据集所属批次,j表示训练所述语音检测模型时输入的所述子数据集所在的训练数据集为第j个训练数据集,x表示输入的所述新训练数据集中的语音,α表示预先设置的常数,T表示转置, 表示对输入的所述新训练数据集中的语音求平均值。
[0018] 在本发明可选地一实施例中,在得到所述语音检测模型之后,所述训练方法还包括:
[0019] 获取待检测语音;
[0020] 将所述待检测语音输入至所述语音检测模型中,输出检测结果,其中,当所述待检测语音的算法属于所述预训练语音大模型已学习的生成语音的情况下,将所述预训练语音大模型针对所述待检测语音的输出作为所述检测结果;
[0021] 当所述待检测语音的算法属于所述预训练语音大模型未学习的生成语音的情况下,将所述预训练语音大模型、所述第一低秩适应矩阵和所述第二低秩适应矩阵的输出总和作为所述检测结果。
[0022] 在本发明可选地一实施例中,所述检测结果的公式如下所示:
[0023] ,
[0024] 其中,hmodel是所述语音检测模型输出的所述检测结果,x是输入的所述待检测语音,WSOM是所述预训练语音大模型,AA是所述第一低秩适应矩阵,BB是所述第二低秩适应矩阵。
[0025] 在本发明实施例第二方面提出一种连续学习语音鉴别模型的训练装置,所述训练装置包括:
[0026] 新训练数据集获取模块,用于获取新训练数据集,所述新训练数据集包括采用预训练语音大模型未知的生成算法生成的多个语音;
[0027] 待训练语音检测模型获取模块,用于加载所述预训练语音大模型并冻结其参数,引入第一低秩适应矩阵和第二低秩适应矩阵,得到待训练语音检测模型;
[0028] 语音检测模型获取模块,用于将所述新训练数据集输入至所述待训练语音检测模型中,通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数,结束训练,得到所述语音检测模型,其中,所述正交优化是指:在训练所述待训练语音检测模型的过程中,所述第一低秩适应矩阵和所述第二低秩适应矩阵在每一个数据集上的训练是相互独立的,不会遗忘从已学习的训练数据集中学到的知识。
[0029] 在本发明可选地一实施例中,所述待训练语音检测模型获取模块还包括第一训练子模块,所述第一训练子模块包括:
[0030] 获取单元,用于获取旧训练数据集;
[0031] 预训练单元,用于采用所述旧训练数据集对语音大模型进行预训练,得到所述预训练语音大模型,所述预训练语音大模型能够识别所述旧训练数据集中的语音的生成算法。
[0032] 在本发明可选地一实施例中,所述语音检测模型获取模块还包括:
[0033] 正交优化子模块,用于在训练所述待训练语音检测模型的过程中,所述新训练数据集被划分为多个批次的子数据集进行训练,第i个批次的子数据集对应的权重更新方向正交于第i‑1个批次的子数据集的权重更新方向,以使每个子数据集的权重更新不影响其他批次的子数据集的权重更新。
[0034] 在本发明可选地一实施例中,所述正交优化子模块中的正交优化公式如下所示:
[0035] ,
[0036] 其中, ,i表示训练所述语音检测模型时的子数据集所属批次,j表示训练所述语音检测模型时输入的所述子数据集所在的训练数据集为第j个训练数据集,x表示输入的所述新训练数据集中的语音,α表示预先设置的常数,T表示转置, 表示对输入的所述新训练数据集中的语音求平均值。
[0037] 在本发明可选地一实施例中,在得到所述语音检测模型之后,所述训练装置还包括:
[0038] 待检测语音获取模块,用于获取待检测语音;
[0039] 检测结果获取模块,用于将所述待检测语音输入至所述语音检测模型中,输出检测结果,其中,当所述待检测语音的算法属于所述预训练语音大模型已学习的生成语音的情况下,将所述预训练语音大模型针对所述待检测语音的输出作为所述检测结果;当所述待检测语音的算法属于所述预训练语音大模型未学习的生成语音的情况下,将所述预训练语音大模型、所述第一低秩适应矩阵和所述第二低秩适应矩阵的输出总和作为所述检测结果。
[0040] 在本发明可选地一实施例中,所述检测结果获取模块中所述检测结果的公式如下所示:
[0041] ,
[0042] 其中,hmodel是所述语音检测模型输出的所述检测结果,x是输入的所述待检测语音,WSOM是所述预训练语音大模型,AA是所述第一低秩适应矩阵,BB是所述第二低秩适应矩阵。
[0043] 在本发明实施例第三方面提出一种电子设备,包括:存储器,用于存储一个或多个程序;处理器;当所述一个或多个程序被所述处理器执行时,实现如上述第一方面中任一项所述的正交化低秩适应矩阵的语音检测模型的训练方法。
[0044] 在本发明实施例第四方面提出一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项所述的正交化低秩适应矩阵的语音检测模型的训练方法。
[0045] 本发明包括以下优点:本发明实施例提供一种正交化低秩适应矩阵的语音检测模型的训练方法及装置,通过获取新训练数据集,所述新训练数据集包括采用预训练语音大模型未知的生成算法生成的多个语音;加载所述预训练语音大模型并冻结其参数,引入第一低秩适应矩阵和第二低秩适应矩阵,得到待训练语音检测模型;将所述新训练数据集输入至所述待训练语音检测模型中,通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数,结束训练,得到所述语音检测模型,其中,所述正交优化是指:在训练所述待训练语音检测模型的过程中,所述第一低秩适应矩阵和所述第二低秩适应矩阵在每一个数据集上的训练是相互独立的,不会遗忘从已学习的训练数据集中学到的知识。针对实际获取的新数据集,使用上述训练方法对语音检测模型进行训练,引入低秩适应矩阵,对模型进行微调,不仅可以显著降低训练成本,还可以极大的提高模型对新数据集下生成音频的检测能力,同时几乎不影响模型对先前已学习的语音算法的检测能力。

附图说明

[0046] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0047] 图1是本发明实施例提供的一种正交化低秩适应矩阵的语音检测模型的训练方法的步骤流程示意图;
[0048] 图2是本发明实施例提供的一种正交化低秩适应矩阵的语音检测模型的训练装置架构图;
[0049] 图3是本发明实施例提供的一种电子设备的示意图。

具体实施方式

[0050] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051] 由于深度学习的快速发展,语音转换和语音合成技术日趋成熟,深度学习模型生成的语音广泛应用于人机交互场景中,例如,智能家居、娱乐、教育等场景。但生成语音的滥用也给人民和社会带来了危害,与之对应的语音真假鉴别技术也受到大家的广泛关注。基于语音检测模型的生成语音检测在大部分数据集上表现优异,但在面对新算法和未知算法生成的生成语音场景下,检测准确率会大幅的降低。
[0052] 目前采用新算法和未知算法生成的生成语音对语音检测模型进行训练,不仅会使模型“遗忘”学习过的已知算法,还需要消耗大量的计算资源和训练时间,导致其实际应用成本较高。
[0053] 基于此,本发明提出一种基于低秩适应矩阵的语音检测模型的训练方法,使生成语音检测模型可以额外引入低秩适应矩阵学习未知生成算法生成的语音,同时不降低语音检查模型对已知生成算法生成的语音的检测准确率。
[0054] 在本发明实施例第一发明提出一种正交化低秩适应矩阵的语音检测模型的训练方法,参阅图1,图1为本发明实施例提供的一种连续学习语音鉴别模型的训练方法的步骤流程示意图,所述训练方法包括以下步骤:
[0055] 步骤101:获取新训练数据集,所述新训练数据集包括采用预训练语音大模型未知的生成算法生成的多个语音;
[0056] 步骤102:加载所述预训练语音大模型并冻结其参数,引入第一低秩适应矩阵和第二低秩适应矩阵,得到待训练语音检测模型;
[0057] 步骤103:将所述新训练数据集输入至所述待训练语音检测模型中,通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数,结束训练,得到所述语音检测模型,其中,所述正交优化是指:在训练所述待训练语音检测模型的过程中,所述第一低秩适应矩阵和所述第二低秩适应矩阵在每一个数据集上的训练是相互独立的,不会遗忘从已学习的训练数据集中学到的知识。
[0058] 为了能够使得语音检测模型在面对新算法和未知算法生成的生成语音也有较高的检测准确性,本发明采用基于微调的方法,在新算法和未知算法生成的生成语音上微调语音检测模型的参数。首先在预训练语音大模型的基础上,引入低秩适应矩阵组合成待训练语音检测模型,然后采用新训练数据集训练待训练语音检测模型,通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数,得到所述语音检测模型,具体实现步骤如下所述。
[0059] 具体实施步骤101时,上述新训练数据集为预训练语音大模型未学习过的生成算法生成的多个语音,获取预训练语音大模型未学习过的生成算法,并生成多个语音组成上述新训练数据集,用于后续对待训练语音检测模型进行训练。其中,语音大模型是指一类神经网络参数较多,可以学习较多复杂表示的模型。
[0060] 具体实施步骤102时,加载已经在旧训练数据集上经过预训练处理的预训练语音大模型,由于后续在对新训练数据集进行训练时,仅需针对低秩适应矩阵进行训练,因此,需要将所述预训练语音大模型的参数冻结。然后引入第一低秩适应矩阵和第二低秩适应矩阵,将上述预训练语音大模型、第一低秩适应矩阵和第二低秩适应矩阵组合得到待训练语音检测模型。
[0061] 其中,上述预训练语音大模型是指已经在旧训练数据集上经过预训练处理的预训练语音大模型(SOM),因此,预训练语音大模型已经可以识别旧训练数据集中已知生成算法的生成语音类型。具体地,所述预训练语音大模型的训练过程为,首先获取旧训练数据集,上述旧训练数据集中包含多个生成算法生成的语音;然后,采用上述旧训练数据集对上述语音大模型进行预训练,得到所述预训练语音大模型,经过上述预训练,所述预训练语音大模型可以识别所述旧训练数据集中的语音的生成算法。例如,当旧训练数据集中包含生成算法1、生成算法2和生成算法3生成的多个语音的情况下,采用该旧训练数据集对语音大模型进行预训练,得到的预训练语音大模型就可以识别旧训练数据集中的生成算法1、生成算法2和生成算法3。
[0062] 具体实施步骤103时,将所述训练数据集输入至步骤102中得到的待训练语音检测模型中,在训练过程中,只有第一低秩适应矩阵和第二低秩适应矩阵的参数会被优化,以学习新训练数据集中语音的新算法,并优化语音检测模型在上述新算法上的检测性能。通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数,即,在训练所述待训练语音检测模型的过程中,针对每一个数据集的训练,通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的训练是相互独立的,且经过正交优化处理后,训练得到的语音检测模型不会遗忘从已学习的训练数据集中学到的知识。其中,已学习的训练数据集包括所述预训练语音大模型中学习过的旧训练数据集,但不仅仅局限于旧训练数据集。
[0063] 在本发明可选地一实施例中,所述通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数具体包括,在训练所述待训练语音检测模型的过程中,首先将所述新训练数据集划分为多个批次的子数据集进行训练,其中,批次是指训练时的训练批次,第i个批次的子数据集对应的权重更新方向正交于第i‑1个批次的子数据集的权重更新方向,以使每个子数据集的权重更新不影响其他批次的子数据集的权重更新。由于每个批次的子数据集的权重更新方向均呈正交,那么新训练数据集的权重更新方向和旧训练数据集的权重更新方向也成正交。
[0064] 具体地,所述正交优化的公式如下所示:
[0065] ,
[0066] 其中, ,i表示训练所述语音检测模型时的子数据集所属批次,j表示训练所述语音检测模型时输入的所述子数据集所在的训练数据集为第j个训练数据集,i和j均为人工对其进行标注的编号,x表示输入的所述新训练数据集中的语音,α表示预先设置的常数,T表示转置, 表示对输入的所述新训练数据集中的语音求平均值。
[0067] 对所述待训练语音检测模型进行训练时,所述新训练数据集同时输入至冻结参数的预训练语音大模型以及第一低秩适应矩阵和第二低秩适应矩阵中,通过正交优化第一低秩适应矩阵和第二低秩适应矩阵的参数,当所述待训练语音检测模型输出的检测结果与所述新训练数据集中的语音的类型相同时,结束训练。由于在训练待训练语音检测模型的过程中,将预训练语音大模型的参数进行冻结,即,预训练语音大模型的参数针对新训练数据集的训练过程中并不会被修改,从而不会降低预训练语音大模型对已学习过的生成算法生成的语音的检测准确性。同时,在新训练数据集上的训练仅仅训练低秩适应矩阵(第一低秩适应矩阵和第二低秩适应矩阵)的参数,极大降低了训练所述语音检测模型所需的计算资源和训练时间,降低了训练成本。
[0068] 此时得到的语音检测模型不仅对旧训练数据集中的语音具有较高的检测准确性,对新训练数据集中的语音也具有较高的检测准确性。例如,当旧训练数据集中包含生成算法1、生成算法2和生成算法3生成的多个语音,新训练数据集包含生成算法4、生成算法5和生成算法6生成的多个语音的情况下,所述预训练语音大模型可以准确检测出生成算法1、生成算法2和生成算法3,引入的低秩适应矩阵(第一低秩适应矩阵和第二低秩适应矩阵)经过训练后,可以准确检测出生成算法4、生成算法5和生成算法6。因此,所述语音检测模型可以准确检测出旧训练数据集中的生成算法(生成算法1、生成算法2和生成算法3)以及新训练数据集中的生成算法(生成算法4、生成算法5和生成算法6)。在训练时,额外引入低秩适应矩阵对新训练数据集进行训练,而不是对整个语音检测模型的参数进行调整,显著降低了训练过程中的训练资源消耗和训练时间。
[0069] 在本发明可选地一实施例中,在得到所述语音检测模型之后,所述训练方法还包括将所述语音检测模型用于对未知语音的检测,具体地,首先获取待检测语音,该待检测语音可以为包含多种情况的任意语音,例如,待检测语音可以是用户输入的语音,也可以是交互过程中机器设备所输出的语音,也可以是在语音验证过程中,通过语音采集流程以及语音验证流程获取的。
[0070] 然后,将所述待检测语音输入至所述语音检测模型中,输出对应的检测结果。所述检测结果包括以下几种情况:当所述待检测语音的算法属于所述预训练语音大模型已学习的生成语音的情况下,将所述预训练语音大模型针对所述待检测语音的输出作为所述检测结果,此时,该待检测语音为预训练语音大模型已学习过的生成语音,即,该待检测语音为假。当所述待检测语音的算法属于所述预训练语音大模型未学习的生成语音的情况下,将所述预训练语音大模型、所述第一低秩适应矩阵和所述第二低秩适应矩阵的输出总和作为所述检测结果,此时,该待检测语音为预训练语音大模型未学习过的生成语音,但是为所述第一低秩适应矩阵和所述第二低秩适应矩阵学习过的生成语音,即,该待检测语音为假。当所述语音检测模型无法识别所述待检测语音的生成算法的情况下,即,该待检测语音不是生成算法生成的,该待检测语音为真。
[0071] 具体的,所述检测结果的公式如下所示:
[0072] ,
[0073] 其中,hmodel是所述语音检测模型输出的所述检测结果,x是输入的所述待检测语音,WSOM是所述预训练语音大模型,AA是所述第一低秩适应矩阵,BB是所述第二低秩适应矩阵。
[0074] 本发明实施例提供一种正交化低秩适应矩阵的语音检测模型的训练方法,通过获取新训练数据集,所述新训练数据集包括采用预训练语音大模型未知的生成算法生成的多个语音;加载所述预训练语音大模型并冻结其参数,引入第一低秩适应矩阵和第二低秩适应矩阵,得到待训练语音检测模型;将所述新训练数据集输入至所述待训练语音检测模型中,通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数,结束训练,得到所述语音检测模型,其中,所述正交优化是指:在训练所述待训练语音检测模型的过程中,所述第一低秩适应矩阵和所述第二低秩适应矩阵在每一个数据集上的训练是相互独立的,不会遗忘从已学习的训练数据集中学到的知识。针对实际获取的新数据集,使用上述训练方法对语音检测模型进行训练,引入低秩适应矩阵,对模型进行微调,不仅可以显著降低训练成本,还可以极大的提高模型对新数据集下生成音频的检测能力,同时几乎不影响模型对先前已学习的语音算法的检测能力。
[0075] 在本发明实施例第二方面提出一种正交化低秩适应矩阵的语音检测模型的训练装置,参阅图2,图2为本发明实施例提出的一种正交化低秩适应矩阵的语音检测模型的训练装置架构图,所述训练装置包括:
[0076] 新训练数据集获取模块201,用于获取新训练数据集,所述新训练数据集包括采用预训练语音大模型未知的生成算法生成的多个语音;
[0077] 待训练语音检测模型获取模块202,用于加载所述预训练语音大模型并冻结其参数,引入第一低秩适应矩阵和第二低秩适应矩阵,得到待训练语音检测模型;
[0078] 语音检测模型获取模块203,用于将所述新训练数据集输入至所述待训练语音检测模型中,通过正交优化所述第一低秩适应矩阵和所述第二低秩适应矩阵的参数,结束训练,得到所述语音检测模型,其中,所述正交优化是指:在训练所述待训练语音检测模型的过程中,所述第一低秩适应矩阵和所述第二低秩适应矩阵在每一个数据集上的训练是相互独立的,不会遗忘从已学习的训练数据集中学到的知识。
[0079] 其中,所述待训练语音检测模型获取模块还包括第一训练子模块,所述第一训练子模块包括:
[0080] 获取单元,用于获取旧训练数据集;
[0081] 预训练单元,用于采用所述旧训练数据集对语音大模型进行预训练,得到所述预训练语音大模型,所述预训练语音大模型能够识别所述旧训练数据集中的语音的生成算法。
[0082] 其中,所述语音检测模型获取模块还包括:
[0083] 正交优化子模块,用于在训练所述待训练语音检测模型的过程中,所述新训练数据集被划分为多个批次的子数据集进行训练,第i个批次的子数据集对应的权重更新方向正交于第i‑1个批次的子数据集的权重更新方向,以使每个子数据集的权重更新不影响其他批次的子数据集的权重更新。
[0084] 其中,所述正交优化子模块中的正交优化公式如下所示:
[0085] ,
[0086] 其中, ,i表示训练所述语音检测模型时的子数据集所属批次,j表示训练所述语音检测模型时输入的所述子数据集所在的训练数据集为第j个训练数据集,x表示输入的所述新训练数据集中的语音,α表示预先设置的常数,T表示转置, 表示对输入的所述新训练数据集中的语音求平均值。
[0087] 其中,在得到所述语音检测模型之后,所述训练装置还包括:
[0088] 待检测语音获取模块,用于获取待检测语音;
[0089] 检测结果获取模块,用于将所述待检测语音输入至所述语音检测模型中,输出检测结果,其中,当所述待检测语音的算法属于所述预训练语音大模型已学习的生成语音的情况下,将所述预训练语音大模型针对所述待检测语音的输出作为所述检测结果;当所述待检测语音的算法属于所述预训练语音大模型未学习的生成语音的情况下,将所述预训练语音大模型、所述第一低秩适应矩阵和所述第二低秩适应矩阵的输出总和作为所述检测结果。
[0090] 其中,所述检测结果获取模块中所述检测结果的公式如下所示:
[0091] ,
[0092] 其中,hmodel是所述语音检测模型输出的所述检测结果,x是输入的所述待检测语音,WSOM是所述预训练语音大模型,AA是所述第一低秩适应矩阵,BB是所述第二低秩适应矩阵。
[0093] 基于同一发明构思,本发明实施例公开了一种电子设备,图3示出了本发明实施例公开的一种电子设备示意图,如图3所示,电子设备100包括:存储器110和处理器120,所述电子设备的存储器不少于12G,处理器主频不低于2.4GHz,存储器110与处理器120之间通过总线通信连接,存储器110中存储有计算机程序,该计算机程序可在处理器120上运行,以实现本发明实施例公开的一种正交化低秩适应矩阵的语音检测模型的训练方法。
[0094] 基于同一发明构思,本发明实施例公开了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现本发明实施例公开的一种正交化低秩适应矩阵的语音检测模型的训练方法。
[0095] 本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0096] 本发明实施例是参照根据本发明实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0097] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0098] 这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0099] 尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0100] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0101] 以上对本发明所提供的一种正交化低秩适应矩阵的语音检测模型的训练方法及装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。