注册音频的有效性的检测方法、检测装置和电子设备转让专利

申请号 : CN202011081502.3

文献号 : CN111933152B

文献日 : 2021-01-08

相似专利: 请登录后查看

本申请提供了一种注册音频的有效性的检测方法、检测装置和电子设备，该检测方法包括：获取N段注册音频，各段注册音频的时长大于预定时长；选择N段注册音频中的M段注册音频，得到多个建模组，根据建模组一一对应建立第一声纹识别模型，其中，1

1.一种注册音频的有效性的检测方法，其特征在于，包括：获取N段注册音频，各段所述注册音频的时长大于预定时长；

选择N段所述注册音频中的M段所述注册音频，得到多个建模组，根据所述建模组一一对应建立第一声纹识别模型，其中，1

将检测组中的每个检测音频分别与对应的所述第一声纹识别模型进行相似度匹配，其中，所述检测组为N段所述注册音频中除所述建模组之外的所述注册音频形成的，且所述检测组中的所述注册音频为所述检测音频；

在与对应的所述第一声纹识别模型相似度不匹配的所述检测音频的数量大于或者等于预定数量的情况下，确定所述注册音频无效。

2.根据权利要求1所述的方法，其特征在于，N/2≤M≤N/2+1。

3.根据权利要求2所述的方法，其特征在于，

选择N段所述注册音频中的M段所述注册音频，得到多个建模组，根据所述建模组一一对应建立声纹识别模型，包括：选择N段所述注册音频中的M段所述注册音频，得到个建模组，根据个建模组一一对应建立个声纹识别模型，将检测组中的每个检测音频分别与对应的所述第一声纹识别模型进行相似度匹配，包括：将检测组中的每个检测音频分别与对应的所述第一声纹识别模型进行相似度匹配，个所述建模组共匹配次。

4.根据权利要求1所述的方法，其特征在于，将检测组中的每个检测音频分别与对应的所述第一声纹识别模型进行相似度匹配，包括：根据所述检测组中的每个所述检测音频建立第二声纹识别模型；

将所述第二声纹识别模型与所述第一声纹识别模型进行相似度匹配；

在所述第二声纹识别模型与所述第一声纹识别模型的相似度大于或者等于预定阈值的情况下，确定所述第二声纹识别模型与所述第一声纹识别模型的相似度匹配；

在所述第二声纹识别模型与所述第一声纹识别模型的相似度小于预定阈值的情况下，确定所述第二声纹识别模型与所述第一声纹识别模型的相似度不匹配。

5.根据权利要求1所述的方法，其特征在于，在与对应的所述第一声纹识别模型相似度不匹配的所述检测音频的数量大于或者等于预定数量的情况下，确定所述注册音频无效，包括：在与对应的所述第一声纹识别模型相似度不匹配的所述检测音频的数量大于或者等于1的情况下，确定所述注册音频无效。

6.根据权利要求1至5中任一项所述的方法，其特征在于，获取N段注册音频，包括：获取一条语音音频；

提取所述语音音频的有效语音；

对所述有效语音进行切割分片，得到N段所述注册音频。

7.一种注册音频的有效性的检测装置，其特征在于，包括：获取单元，用于获取N段注册音频，各段所述注册音频的时长大于预定时长；

建模单元，用于选择N段所述注册音频中的M段所述注册音频，得到多个建模组，根据所述建模组一一对应建立第一声纹识别模型，其中，1

匹配单元，用于将检测组中的每个检测音频分别与对应的所述第一声纹识别模型进行相似度匹配，其中，所述检测组为N段所述注册音频中除所述建模组之外的所述注册音频形成的，且所述检测组中的所述注册音频为所述检测音频；

确定单元，用于在与对应的所述第一声纹识别模型相似度不匹配的所述检测音频的数量大于或者等于预定数量的情况下，确定所述注册音频无效。

8.一种计算机可读存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至6中任意一项所述的方法。

9.一种注册音频的有效性的检测处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的方法。

10.一种注册音频的有效性的检测电子设备，其特征在于，包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1至6中任意一项所述的方法。

注册音频的有效性的检测方法、检测装置和电子设备

技术领域

[0001] 本申请涉及声纹识别领域，具体而言，涉及一种注册音频的有效性的检测方法、检测装置、计算机可读存储介质、处理器和电子设备。

背景技术

[0002] 声纹识别包括声纹注册和声纹验证两个步骤，声纹注册是指将注册音频中的声纹特征提取出来并建立相应的声纹用户模型，声纹验证是指将待验证音频中的声纹特征提取出来建立相应的特征模型并与声纹用户模型进行比对，验证相似度。

[0003] 然而，如果在注册的过程中混入了除声纹人本人以外的其他人的声音，注册的声纹用户模型中就会同时包含本人及其他人的声纹特征。此时，除了声纹人本人以外，参与声纹注册的其他人也可以通过声纹系统的身份验证。也就是说声纹验证系统本身的安全性就会无法保证。为了避免这种情况，我们需要对声纹的注册音频进行一次有效性验证，避免不合规的注册音频进行声纹注册。

[0004] 现有技术一般会对声纹注册音频进行有效性验证的方法。此方法具体为：获取用户注册语音时的有效语音；将有效语音平均分割成整数份；分别提取每份语音中的声纹特征；将每份语音的声纹特征进行两两比对验证。但是，因为每段音频时长过短，提取的特征很难覆盖一个声纹人的全部声纹特征。因此，简单的使用两两比对的方法进行注册音频有效性验证具有很高的错误拒绝率。

[0005] 在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解，因此，背景技术中可能包含某些信息，这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

发明内容

[0006] 本申请的主要目的在于提供一种注册音频的有效性的检测方法、检测装置、计算机可读存储介质、处理器和电子设备，以解决现有技术中对声纹注册音频进行有效性验证的方案的错误拒绝率较高的问题。

[0007] 根据本发明实施例的一个方面，提供了一种注册音频的有效性的检测方法，包括：获取N段注册音频，各段所述注册音频的时长大于预定时长；选择N段所述注册音频中的M段所述注册音频，得到多个建模组，根据所述建模组一一对应建立第一声纹识别模型，其中，1

[0008] 可选地，N/2≤M≤N/2+1。

[0009] 可选地，选择N段所述注册音频中的M段所述注册音频，得到多个建模组，根据所述建模组一一对应建立声纹识别模型，包括：选择N段所述注册音频中的M段所述注册音频，得到个建模组，根据个建模组一一对应建立个声纹识别模型，将检测组中的每个检测音频分别与对应的所述第一声纹识别模型进行相似度匹配，包括：将检测组中的每个检测音频分别与对应的所述第一声纹识别模型进行相似度匹配，个所述建模组共匹配次。

[0010] 可选地，将检测组中的每个检测音频分别与对应的所述第一声纹识别模型进行相似度匹配，包括：根据所述检测组中的每个所述检测音频建立第二声纹识别模型；将所述第二声纹识别模型与所述第一声纹识别模型进行相似度匹配；在所述第二声纹识别模型与所述第一声纹识别模型的相似度大于或者等于预定阈值的情况下，确定所述第二声纹识别模型与所述第一声纹识别模型的相似度匹配；在所述第二声纹识别模型与所述第一声纹识别模型的相似度小于预定阈值的情况下，确定所述第二声纹识别模型与所述第一声纹识别模型的相似度不匹配。

[0011] 可选地，在与对应的所述第一声纹识别模型相似度不匹配的所述检测音频的数量大于或者等于预定数量的情况下，确定所述注册音频无效，包括：在与对应的所述第一声纹识别模型相似度不匹配的所述检测音频的数量大于或者等于1的情况下，确定所述注册音频无效。

[0012] 可选地，获取N段注册音频，包括：获取一条语音音频；提取所述语音音频的有效语音；对所述有效语音进行切割分片，得到N段所述注册音频。

[0013] 根据本发明实施例的另一方面，还提供了一种注册音频的有效性的检测装置，包括获取单元、建模单元、匹配单元和确定单元，获取单元用于获取N段注册音频，各段所述注册音频的时长大于预定时长；建模单元用于选择N段所述注册音频中的M段所述注册音频，得到多个建模组，根据所述建模组一一对应建立第一声纹识别模型，其中，1

[0014] 根据本发明实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质包括存储的程序，其中，所述程序执行任一种所述的方法。

[0015] 根据本发明实施例的再一方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一种所述的方法。

[0016] 根据本发明实施例的另一方面，还提供了一种电子设备，包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行任一种所述的方法。

[0017] 在本发明实施例中，所述注册音频的有效性的检测方法通过将N段所述注册音频分成两部分，得到所述建模组和所述检测组，其中，所述建模组包括M段所述注册音频，即至少包括两个所述注册音频，且所述建模组的M段所述注册音频用来形成所述第一声纹识别模型，所述检测组的每个检测音频分别与对应的第一声纹识别模型中的注册音频进行相似度匹配，确定所述注册音频是否有效，该方案较好地改善了现有的简单的两两验证时是本人却被判断为不是本人的情况，即改善了错误拒绝率高的问题，使得用户体验感较好。

附图说明

[0018] 构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

[0019] 图1示出了根据本申请实施例的注册音频的有效性的检测方法生成的流程示意图；以及

[0020] 图2示出了根据本申请实施例的注册音频的有效性的检测装置的组成示意图。

[0021] 其中，上述附图包括以下附图标记：

[0022] 10、获取单元；20、建模单元；30、匹配单元；40、确定单元。

具体实施方式

[0023] 需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

[0024] 为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

[0025] 需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

[0026] 应该理解的是，当元件（诸如层、膜、区域、或衬底）描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。

[0027] 为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

[0028] 错误接受率（FAR）：和安全性相关，FAR越低系统安全性越好，指不是本人却被识别为本人的情况的比例；

[0029] 错误拒绝率（FRR）：和用户体验相关，FRR越低用户体验越好，指是本人却被系统判断为不是本人的情况的比例。

[0030] 正如背景技术中所说的，现有技术中对声纹注册音频进行有效性验证的方案的错误拒绝率较高，为了解决上述问题，本申请的一种典型的实施方式中，提供了一种注册音频的有效性的检测方法、装置、计算机可读存储介质、处理器和电子设备。

[0031] 根据本申请的实施例，提供了一种注册音频的有效性的检测方法。

[0032] 图1是根据本申请实施例的注册音频的有效性的检测方法生成的流程图。如图1所示，上述方法包括以下步骤：

[0033] 步骤S101，获取N段注册音频，各段上述注册音频的时长大于预定时长；

[0034] 步骤S102，选择N段上述注册音频中的M段上述注册音频，得到多个建模组，根据上述建模组一一对应建立第一声纹识别模型，其中，1

[0035] 步骤S103，将检测组中的每个检测音频分别与对应的上述第一声纹识别模型进行相似度匹配，其中，上述检测组为N段上述注册音频中除上述建模组之外的上述注册音频形成的，且上述检测组中的上述注册音频为上述检测音频；

[0036] 步骤S104，在与对应的上述第一声纹识别模型相似度不匹配的上述检测音频的数量大于或者等于预定数量的情况下，确定上述注册音频无效。

[0037] 上述注册音频的有效性的检测方法通过将N段上述注册音频分成两部分，得到上述建模组和上述检测组，其中，上述建模组包括M段上述注册音频，即至少包括两个上述注册音频，且上述建模组的M段上述注册音频用来形成上述第一声纹识别模型，上述检测组的每个检测音频分别与对应的上述第一声纹识别模型中的上述注册音频进行相似度匹配，确定上述注册音频是否有效，该方案较好地改善了现有的简单的两两验证时是本人却被判断为不是本人的情况，即改善了错误拒绝率高的问题，使得用户体验感较好。

[0038] 具体地，上述注册音频的有效性的检测方法可以应用于数字串模式，也可以应用于文本模式。

[0039] 本申请的一种典型的实施例中，N/2≤M≤N/2+1，当N较大时，对应地M的值更大，即用来建立上述第一声纹识别模型的注册音频的段数更多，从而使得上述第一声纹识别模型更加准确，进而可以降低错误接受率和错误拒绝率，保证了声纹识别过程的安全性与用户体验感。并且，该方案中，各段所述注册音频的时长大于预定时长保证了当所述注册音频中包含多个说话人时，可以存在一种或者一种以上的情况使得所述检测组中完全不包含所述非注册说话人的语音，即存在一种或者一种以上的情况可以使所述检测音频不通过所述相似度匹配，进一步地保证了声纹识别的安全性。

[0040] 根据本申请的另一种典型的实施例，选择N段上述注册音频中的M段上述注册音频，得到多个建模组，根据上述建模组一一对应建立声纹识别模型，包括：选择N段上述注册音频中的M段上述注册音频，得到个建模组，根据个建模组一一对应建立个声纹识别模型，将检测组中的每个检测音频分别与对应的上述第一声纹识别模型进行相似度匹配，包括：将检测组中的每个检测音频分别与对应的上述第一声纹识别模型进行相似度匹配，个上述建模组共匹配次。上述方法通过建立多个上述声纹识别模型，保证了上述第一声纹识别模型更加准确，将上述检测组中的每个检测音频分别与对应的上述第一声纹识别模型进行相似度匹配，保证了上述注册音频全部经过匹配，进一步地保证了错误接受率低和错误拒绝率低，进而保证了声纹识别的安全性和用户体验感。并且上述声纹识别模型的建立以及上述相似度匹配的过程均可以使用典型的ivector方法实现，省时省力，可实施性高。

[0041] 根据本申请的再一种典型的实施例，将检测组中的每个检测音频分别与对应的上述第一声纹识别模型进行相似度匹配，包括：根据上述检测组中的每个上述检测音频建立第二声纹识别模型；将上述第二声纹识别模型与上述第一声纹识别模型进行相似度匹配；在上述第二声纹识别模型与上述第一声纹识别模型的相似度大于或者等于预定阈值的情况下，确定上述第二声纹识别模型与上述第一声纹识别模型的相似度匹配；在上述第二声纹识别模型与上述第一声纹识别模型的相似度小于预定阈值的情况下，确定上述第二声纹识别模型与上述第一声纹识别模型的相似度不匹配。上述方法通过将上述第二声纹识别模型与上述第一声纹识别模型进行相似度匹配，并将上述相似度与上述预定阈值进行比对，确定上述第二声纹识别模型与上述第一声纹识别模型相似度是否匹配，进一步地避免了出现不是本人却被识别为本人以及是本人却被判断为不是本人的情况的比例高，即兼顾保证了错误接受率低和错误拒绝率低，进而保证了声纹识别过程的安全性较高和用户体验感较好。

[0042] 根据本申请的一种具体的实施例，在与对应的上述第一声纹识别模型相似度不匹配的上述检测音频的数量大于或者等于预定数量的情况下，确定上述注册音频无效，包括：在与对应的上述第一声纹识别模型相似度不匹配的上述检测音频的数量大于或者等于1的情况下，确定上述注册音频无效。这样进一步地减小了不是本人却被识别为本人的几率，进而保证了声纹识别过程中的安全性，当然，上述预定数量可以根据不同场景对声纹识别的安全性需求进行不同的设置。

[0043] 根据本申请的又一种具体的实施例，获取N段注册音频，包括：获取一条语音音频；提取上述语音音频的有效语音；对上述有效语音进行切割分片，得到N段上述注册音频。上述方法通过获取一条上述语音音频并提取出上述有效语音，对上述有效语音进行切割分片，得到N段上述注册音频，保证每个上述注册音频中包含足够的声纹特征，进而保证了上述方法检测时的安全与用户体验感。

[0044] 当然，实际的应用过程中，当获取的注册音频时长较短时，还可以采用拼接的方式形成一段注册音频。

[0045] 需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

[0046] 本申请实施例还提供了一种注册音频的有效性的检测装置，需要说明的是，本申请实施例的注册音频的有效性的检测装置可以用于执行本申请实施例所提供的用于注册音频的有效性的检测方法。以下对本申请实施例提供的注册音频的有效性的检测装置进行介绍。

[0047] 图2是本申请实施例的注册音频的有效性的检测装置的结构示意图。如图2所示，该装置包括：获取单元10、建模单元20、匹配单元30和确定单元40，其中，获取单元10用于获取N段注册音频，各段上述注册音频的时长大于预定时长；建模单元20用于选择N段上述注册音频中的M段上述注册音频，得到多个建模组，根据上述建模组一一对应建立第一声纹识别模型，其中，1

[0048] 上述注册音频的有效性的检测装置，通过获取单元获取N段时长大于上述预定时长的上述注册音频，然后通过上述建模单元选择M段上述注册音频，建立上述第一声纹识别模型，再由上述匹配单元将上述检测组中的每个上述检测音频与上述第一声纹识别模型中的上述注册音频进行相似度匹配，最后上述确定单元根据匹配情况确定上述注册音频是否有效。通过将上述检测组的每个上述检测音频分别与对应的上述第一声纹识别模型中的注册音频进行相似度匹配，确定上述注册音频是否有效，保证了不是本人却被识别为本人的比例较低，也保证了是本人却被判断为不是本人的比例较低，即保证了较低的错误接受率与较低的错误拒绝率，进而兼顾了声纹识别过程的安全性与用户体验感。

[0049] 具体地，上述注册音频的有效性的检测装置可以应用于数字串模式，也可以应用于文本模式。

[0050] 本申请的一种典型的实施例中，N/2≤M≤N/2+1，当N较大时，对应地M的值更大，即用来建立上述第一声纹识别模型的注册音频的段数更多，从而使得上述第一声纹识别模型更加准确，进而可以降低错误接受率和错误拒绝率，保证了声纹识别过程的安全性与用户体验感。

[0051] 根据本申请的另一种典型的实施例，上述建模单元20包括建模模块，上述建模模块用于选择N段上述注册音频中的M段上述注册音频，得到个建模组，根据个建模组一一对应建立个声纹识别模型。上述匹配单元30包括匹配模块，上述匹配模块用于将检测组中的每个检测音频分别与对应的上述第一声纹识别模型进行相似度匹配，个上述建模组共匹配次。上述装置通过建立多个上述声纹识别模型，保证了上述第一声纹识别模型更加准确，将上述检测组中的每个检测音频分别与对应的上述第一声纹识别模型进行相似度匹配，保证了上述注册音频全部经过匹配，进一步地保证了错误接受率低和错误拒绝率低，进而保证了声纹识别的安全性和用户体验感。并且上述声纹识别模型的建立以及上述相似度匹配的过程均可以使用典型的ivector方法实现，省时省力，可实施性高。

[0052] 根据本申请的又一种典型的实施例，上述匹配模块包括：建立子模块、匹配子模块、第一确定子模块和第二子确定模块，其中，上述建立子模块用于根据上述检测组中的每个上述检测音频建立第二声纹识别模型；上述匹配子模块用于将上述第二声纹识别模型与上述第一声纹识别模型进行相似度匹配；上述第一确定子模块用于在上述第二声纹识别模型与上述第一声纹识别模型的相似度大于或者等于预定阈值的情况下，确定上述第二声纹识别模型与上述第一声纹识别模型的相似度匹配；；上述第二确定子模块用于在上述第二声纹识别模型与上述第一声纹识别模型的相似度小于预定阈值的情况下，确定上述第二声纹识别模型与上述第一声纹识别模型的相似度不匹配。上述装置通过将上述第二声纹识别模型与上述第一声纹识别模型进行相似度匹配，并将上述相似度与上述预定阈值进行比对，确定上述第二声纹识别模型与上述第一声纹识别模型相似度是否匹配，进一步地避免了出现不是本人却被识别为本人以及是本人却被判断为不是本人的情况的比例高，即兼顾保证了错误接受率低和错误拒绝率低，进而保证了声纹识别过程的安全性较高和用户体验感较好。

[0053] 本申请的一种具体的实施例中，上述确定单元40包括确定模块，上述确定模块用于在与对应的上述第一声纹识别模型相似度不匹配的上述检测音频的数量大于或者等于1的情况下，确定上述注册音频无效。这样进一步地减小了不是本人却被识别为本人的几率，进而保证了声纹识别过程中的安全性，当然，上述预定数量可以根据不同场景对声纹识别的安全性需求进行不同的设置。

[0054] 本申请的再一种具体的实施例中，上述获取单元10包括：获取模块、提取模块和切割模块，上述获取模块用于获取一条语音音频；上述提取模块用于提取上述语音音频的有效语音；上述切割模块用于对上述有效语音进行切割分片，得到N段上述注册音频。上述装置通过获取一条上述语音音频并提取出上述有效语音，对上述有效语音进行切割分片，得到N段上述注册音频，保证每个上述注册音频中包含足够的声纹特征，进而保证了上述方法检测时的安全与用户体验感。

[0055] 当然，实际的应用过程中，当获取的注册音频时长较短时，还可以采用拼接的方式形成一段注册音频。

[0056] 上述注册音频的有效性的检测装置包括处理器和存储器，上述获取单元10、建模单元20、匹配单元30和确定单元40等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

[0057] 处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中对声纹注册音频进行有效性验证的方案的错误拒绝率较高的问题。

[0058] 存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

[0059] 本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现上述注册音频的有效性的检测方法。

[0060] 本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述注册音频的有效性的检测方法。

[0061] 本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：

[0062] 步骤S101，获取N段注册音频，各段上述注册音频的时长大于预定时长；

[0063] 步骤S102，选择N段上述注册音频中的M段上述注册音频，得到多个建模组，根据上述建模组一一对应建立第一声纹识别模型，其中，1

[0064] 步骤S103，将检测组中的每个检测音频分别与对应的上述第一声纹识别模型进行相似度匹配，其中，上述检测组为N段上述注册音频中除上述建模组之外的上述注册音频形成的，且上述检测组中的上述注册音频为上述检测音频；

[0065] 步骤S104，在与对应的上述第一声纹识别模型相似度不匹配的上述检测音频的数量大于或者等于预定数量的情况下，确定上述注册音频无效。

[0066] 本文中的设备可以是服务器、PC、PAD、手机等。

[0067] 本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：

[0068] 步骤S101，获取N段注册音频，各段上述注册音频的时长大于预定时长；

[0069] 步骤S102，选择N段上述注册音频中的M段上述注册音频，得到多个建模组，根据上述建模组一一对应建立第一声纹识别模型，其中，1

[0070] 步骤S103，将检测组中的每个检测音频分别与对应的上述第一声纹识别模型进行相似度匹配，其中，上述检测组为N段上述注册音频中除上述建模组之外的上述注册音频形成的，且上述检测组中的上述注册音频为上述检测音频；

[0071] 步骤S104，在与对应的上述第一声纹识别模型相似度不匹配的上述检测音频的数量大于或者等于预定数量的情况下，确定上述注册音频无效。

[0072] 在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

[0073] 在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

[0074] 上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0075] 另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

[0076] 上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

[0077] 为了使得本领域技术人员能够更加清楚地了解本申请的技术方案，以下将结合具体的实施例来说明。

[0078] 实施例1

[0079] 根据本申请的上述注册音频的有效性的检测方法进行文本模式的注册音频的有效性的检测：

[0080] 首先对原始语音音频进行有效语音提取；

[0081] 然后对上述有效语音进行切割分片，得到N段上述注册音频；

[0082] 然后使用上述注册音频的有效性的检测方法对上述注册音频进行有效性检测，确定上述注册音频是否有效。

[0083] 其中，上述有效语音的提取可以使用端点检测、语义分句等方法，也可以在此基础上进一步使用语音聚类等说话人分离的方法，还可以采用其他提取方法；上述切割分片可以切成2s的上述注册音频，以保证每个上述注册音频中包含足够的声纹特征，当然还可以切成其他时间段的注册音频。

[0084] 实施例2

[0085] 根据本申请的上述注册音频的有效性的检测方法进行测试，其中分为了3个测试集，每个测试集中包含50组注册音频，其中测试集1里的每组注册音频全部来自同一个声纹人；测试集2里的每组注册音频中有4段来自同一个人，有1段来自另一个人；测试集3里的每组注册音频中有3段来自同一个人，有2段来自另一个人。采用三种不同的方案，得到如下表格中的检测结果，其中，表格中的单元格内的数字是被误判的人数。

[0086] 方案一：第一声纹识别模型中只有1段注册音频，使用4段检测音频形成的四个第二声纹识别模型分别与第一声纹识别模型进行相似度匹配，在与对应的第一声纹识别模型中的上述注册音频的相似度不匹配的上述检测音频的数量大于等于1时，确定为无效。检测结果如表1所示：

[0087] 表1

[0088]

[0089] 方案二：第一声纹识别模型中有4段注册音频，使用1段检测音频形成的一个第二声纹识别模型分别与第一声纹识别模型进行相似度匹配，在与对应的第一声纹识别模型中的上述注册音频的相似度不匹配的上述检测音频的数量大于等于1时，确定为无效。检测结果如表2所示：

[0090] 表2

[0091]

[0092] 方案三：第一声纹识别模型中有3段注册音频，使用2段检测音频形成的两个第二声纹识别模型分别与第一声纹识别模型进行相似度匹配，在与对应的第一声纹识别模型中的上述注册音频的相似度不匹配的上述检测音频的数量大于等于1时，确定为无效。检测结果如表3所示：

[0093] 表3

[0094]

[0095] 方案一和方案二的测试结果不理想，原因是方案一的注册音频的时长太短，导致效果不好；方案二是因为在2段音频为另一人的情况下，注册音频中总是会包含检测音频的声纹人，导致无法进行有效地检测。方案三规避了这些情况，在低阈值的时候可以同时兼顾安全性和用户体验。

[0096] 从以上的描述中，可以看出，本申请上述的实施例实现了如下技术效果：

[0097] 1）、本申请提供了一种注册音频的有效性的检测方法，通过将N段上述注册音频分成两部分，得到上述建模组和上述检测组，其中，上述建模组包括M段上述注册音频，即至少包括两个上述注册音频，且上述建模组的M段上述注册音频用来形成上述第一声纹识别模型，上述检测组的每个检测音频分别与对应的上述第一声纹识别模型中的上述注册音频进行相似度匹配，确定上述注册音频是否有效，该方案较好地改善了现有的简单的两两验证时是本人却被判断为不是本人的情况，即改善了错误拒绝率高的问题，使得用户体验感较好。

[0098] 2）、本申请提供了一种注册音频的有效性的检测装置，通过获取单元获取N段时长大于上述预定时长的上述注册音频，然后通过上述建模单元选择M段上述注册音频，建立上述第一声纹识别模型，再由上述匹配单元将上述检测组中的每个上述检测音频与上述第一声纹识别模型中的上述注册音频进行相似度匹配，最后上述确定单元根据匹配情况确定上述注册音频是否有效。通过将上述检测组的每个上述检测音频分别与对应的上述第一声纹识别模型中的注册音频进行相似度匹配，确定上述注册音频是否有效，保证了不是本人却被识别为本人的比例较低，也保证了是本人却被判断为不是本人的比例较低，即保证了较低的错误接受率与较低的错误拒绝率，进而兼顾了声纹识别过程的安全性与用户体验感。

[0099] 以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

注册音频的有效性的检测方法、检测装置和电子设备转让专利

申请号 : CN202011081502.3

文献号 : CN111933152B

文献日 : 2021-01-08

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 李健 , 邢启洲 , 武卫东 , 陈明

申请人 : 北京捷通华声科技股份有限公司

摘要 :

权利要求 :

说明书 :