音频的识别方法和装置、存储介质及电子设备转让专利

申请号 : CN202010793241.1

文献号 : CN111739518B

文献日 : 2020-12-01

相似专利: 请登录后查看

本发明公开了一种音频的识别方法和装置、存储介质及电子设备。其中，该方法包括：获取待识别音频的第一特征向量；将第一特征向量输入至目标网络模型，使用目标网络模型对所述第一特征向量进行处理，得到待识别音频在第一标准条件下的第一识别结果。本发明解决了口语识别准确率较低的技术问题。

1.一种音频的识别方法，其特征在于，包括：

获取待识别音频的第一特征向量，其中，所述第一特征向量包括：第一音素特征向量、第一词语特征向量和第一句子特征向量；

将所述第一特征向量输入至目标网络模型，使用所述目标网络模型对所述第一特征向量进行处理，得到所述待识别音频在第一标准条件下的第一识别结果，其中，所述目标网络模型用于在不同标准条件下对音频进行识别，所述第一标准条件是所述不同标准条件中的一个标准条件，所述目标网络模型包括音素层、单词层和句子层，所述第一识别结果是根据所述音素层输出的音素识别结果、所述单词层输出的词语识别结果和所述句子层输出的句子识别结果得到的，所述第一识别结果用于表示所述待识别音频是否满足所述第一标准条件。

2.根据权利要求1所述的方法，其特征在于，所述使用所述目标网络模型对所述第一特征向量进行处理，包括：将所述第一音素特征向量输入至所述目标网络模型的所述音素层，得到所述音素层输出的所述待识别音频在所述第一标准条件下的第一音素识别结果；

将所述第一音素识别结果和所述第一词语特征向量输入至所述目标网络模型的所述单词层，得到所述单词层输出的在所述第一标准条件下的第一词语识别结果；

将所述第一词语识别结果和所述第一句子特征向量输入至所述目标网络模型的所述句子层，得到所述句子层输出的所述待识别音频在所述第一标准条件下的所述第一句子识别结果，其中，所述第一识别结果为所述第一句子识别结果。

3.根据权利要求1所述的方法，其特征在于，所述使用所述目标网络模型对所述第一特征向量进行处理，包括：确定在所述第一标准条件下的第一缩放参数和第一偏移参数，其中，所述第一缩放参数和所述第一偏移参数是在训练得到所述目标网络模型时得到的参数；

使用所述第一缩放参数和所述第一偏移参数对所述目标网络模型的所述音素层输出的所述音素识别结果、所述单词层输出的所述词语识别结果、以及所述句子层输出的句子识别结果进行调整，得到所述目标网络模型输出的所述待识别音频在所述第一标准条件下的所述第一识别结果。

4.根据权利要求3所述的方法，其特征在于，所述使用所述第一缩放参数和所述第一偏移参数对所述目标网络模型的所述音素层输出的所述音素识别结果、所述单词层输出的所述词语识别结果、以及所述句子层输出的句子识别结果进行调整，得到所述目标网络模型输出的所述待识别音频在所述第一标准条件下的所述第一识别结果，包括：将所述第一音素特征向量输入至所述目标网络模型的所述音素层，得到所述音素层输出的所述待识别音频在所述第一标准条件下的第二音素识别结果；

使用第一音素缩放参数和第一音素偏移参数对所述第二音素识别结果进行调整，得到所述待识别音频在所述第一标准条件下的第三音素识别结果；

其中，所述第一缩放参数包括第一音素缩放参数，所述第一偏移参数包括第一音素偏移参数。

5.根据权利要求4所述的方法，其特征在于，在所述得到所述待识别音频在所述第一标准条件下的第三音素识别结果之后，所述方法还包括：将所述第三音素识别结果和所述第一词语特征向量输入至所述单词层，得到所述单词层输出的所述待识别音频的第二词语识别结果；

使用第一词语缩放参数和第一词语偏移参数对所述第二词语识别结果进行调整，得到所述待识别音频在所述第一标准条件下的第三词语识别结果；

其中，所述第一缩放参数包括所述第一词语缩放参数，所述第一偏移参数包括所述第一词语偏移参数。

6.根据权利要求5所述的方法，其特征在于，在所述得到所述待识别音频在所述第一标准条件下的第三词语识别结果之后，所述方法还包括：将所述第三词语识别结果和所述第一句子特征向量输入至所述目标网络模型的句子层，得到所述句子层输出的所述待识别音频的第二句子识别结果；

使用第一句子缩放参数和第一句子偏移参数对所述第二句子识别结果进行调整，得到所述待识别音频在所述第一标准条件下的第三句子识别结果，其中，所述第一识别结果为所述第三句子识别结果；

其中，所述第一缩放参数包括所述第一句子缩放参数，所述第一偏移参数包括第一句子偏移参数。

7.根据权利要求1所述的方法，其特征在于，在所述将所述特征向量输入至目标网络模型之前，所述方法包括：提取训练音频的第二特征向量，其中，所述第二特征向量包括：第二音素特征向量、第二词语特征向量和第二句子特征向量；

使用所述第二特征向量和所述训练音频在不同标准条件下的已知识别结果对初始网络模型进行训练，得到所述目标网络模型，其中，所述目标网络模型输出的所述训练音频在所述不同标准条件中每个标准条件下的预估识别结果与所述训练音频在对应标准条件下的已知识别结果之间的损失函数满足目标收敛条件，所述目标收敛条件用于指示所述损失函数的输出值在预定范围内，所述损失函数由音素损失函数、句子损失函数和不同标准中每个标准条件下的缩放偏移损失函数构成。

8.根据权利要求1所述的方法，其特征在于，在所述获取待识别音频的第一特征向量之前，所述方法包括：通过目标应用获取所述待识别音频；

在所述目标应用的第一显示界面获取第一交互指令，其中，所述第一交互指令用于在多个所述不同标准条件中选择所述第一标准条件；

响应所述第一交互指令，在所述不同标准条件中选择所述第一标准条件。

9.根据权利要求1所述的方法，其特征在于，在所述得到所述待识别音频在第一标准条件下的第一识别结果之后，所述方法包括：在目标应用的第二显示界面获取第二交互指令，其中，所述第二交互指令用于将所述第一标准条件切换为第二标准条件；

将所述第一特征向量输入至所述目标网络模型，使用所述目标网络模型对所述第一特征向量进行处理，得到所述待识别音频在所述第二标准条件下的第二识别结果；

在所述目标应用的第三显示界面显示所述第二识别结果。

10.一种音频的识别装置，其特征在于，包括：

获取模块，用于获取待识别音频的第一特征向量，其中，所述第一特征向量包括：第一音素特征向量、第一词语特征向量和第一句子特征向量；

输入模块，用于将所述第一特征向量输入至目标网络模型，使用所述目标网络模型对所述第一特征向量进行处理，得到所述待识别音频在第一标准条件下的第一识别结果，其中，所述目标网络模型用于在不同标准条件下对音频进行识别，所述第一标准条件是所述不同标准条件中的一个标准条件，所述目标网络模型包括音素层、单词层和句子层，所述第一识别结果是根据所述音素层输出的音素识别结果、所述单词层输出的词语识别结果和所述句子层输出的句子识别结果得到的，所述第一识别结果用于表示所述待识别音频是否满足所述第一标准条件。

11.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序可被终端设备或计算机运行时执行所述权利要求1至9任一项中所述的方法。

12.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至9任一项中所述的方法。

音频的识别方法和装置、存储介质及电子设备

技术领域

[0001] 本发明涉及计算机领域，具体而言，涉及一种音频的识别方法和装置、存储介质及电子设备。

背景技术

[0002] 随着人工智能领域的发展，使用机器学习模型实现口语测评是目前的发展趋势。模型对口语识别的准确度对口语测评结果具有极大的影响。

[0003] 现有技术中一般是给定统一的标准，通过人工智能模型直接得到在统一标准下的口语识别结果。但实际场景中影响口语水平的因素有多种，例如：音素、词语和语句等，在不同的影响音素下的识别结果是不同的。例如，有些口语音素发音很标准而语句断句不标准，有些音素发音不标准但是词语和语句都很标准。而不同应用场景对口语的要求是不同的，在统一标准下识别结果不能区分出口语在不同影响因素下的发音情况，导致识别结果的准确性较低。

[0004] 针对相关技术中，口语识别准确率较低的技术问题，目前尚未存在有效解决方案。

发明内容

[0005] 本发明实施例提供了一种音频的识别方法和装置、存储介质及电子设备，以至少解决语识别准确率较的技术问题。

[0006] 根据本发明实施例的一个方面，提供了一种音频的识别方法，包括：获取待识别音频的第一特征向量，其中，所述第一特征向量包括：第一音素特征向量、第一词语特征向量和第一句子特征向量；将所述第一特征向量输入至目标网络模型，使用所述目标网络模型对所述第一特征向量进行处理，得到所述待识别音频在第一标准条件下的第一识别结果，其中，所述目标网络模型用于在不同标准条件下对音频进行识别，所述第一标准条件是所述不同标准条件中的一个标准条件，所述目标网络模型包括音素层、单词层和句子层，所述第一识别结果是根据所述音素层输出的音素识别结果、所述单词层输出的词语识别结果和所述句子层输出的句子识别结果得到的，所述第一识别结果用于表示所述待识别音频是否满足所述第一标准条件。

[0007] 可选地，所述使用所述目标网络模型对所述第一特征向量进行处理，包括：将所述第一音素特征向量输入至所述目标网络模型的所述音素层，得到所述音素层输出的所述待识别音频在所述第一标准条件下的第一音素识别结果；将所述第一音素识别结果和所述第一词语特征向量输入至所述目标网络模型的所述单词层，得到所述单词层输出的在所述第一标准条件下的第一词语识别结果；将所述第一词语识别结果和所述第一句子特征向量输入至所述目标网络模型的所述句子层，得到所述句子层输出的所述待识别音频在所述第一标准条件下的所述第一句子识别结果，其中，所述第一识别结果为所述第一句子识别结果。

[0008] 可选地，所述使用所述目标网络模型对所述第一特征向量进行处理，包括：确定在所述第一标准条件下的第一缩放参数和第一偏移参数，其中，所述第一缩放参数和所述第一偏移参数是在训练得到所述目标网络模型时得到的参数；使用所述第一缩放参数和所述第一偏移参数对所述目标网络模型的所述音素层输出的所述音素识别结果、所述单词层输出的所述词语识别结果、以及所述句子层输出的句子识别结果进行调整，得到所述目标网络模型输出的所述待识别音频在所述第一标准条件下的所述第一识别结果。

[0009] 可选地，所述使用所述第一缩放参数和所述第一偏移参数对所述目标网络模型的所述音素层输出的所述音素识别结果、所述单词层输出的所述词语识别结果、以及所述句子层输出的句子识别结果进行调整，得到所述目标网络模型输出的所述待识别音频在所述第一标准条件下的所述第一识别结果，包括：将所述第一音素特征向量输入至所述目标网络模型的所述音素层，得到所述音素层输出的所述待识别音频在所述第一标准条件下的第二音素识别结果；使用第一音素缩放参数和第一音素偏移参数对所述第二音素识别结果进行调整，得到所述待识别音频在所述第一标准条件下的第三音素识别结果。

[0010] 可选地，在所述得到所述待识别音频在所述第一标准条件下的第三音素识别结果之后，所述方法还包括：将所述第三音素识别结果和所述第一词语特征向量输入至所述单词层，得到所述单词层输出的所述待识别音频的第二词语识别结果；使用第一词语缩放参数和第一词语偏移参数对所述第二词语识别结果进行调整，得到所述待识别音频在所述第一标准条件下的第三词语识别结果。

[0011] 可选地，在所述得到所述待识别音频在所述第一标准条件下的第三词语识别结果之后，所述方法还包括：将所述第三词语识别结果和所述第一句子特征向量输入至所述目标网络模型的句子层，得到所述句子层输出的所述待识别音频的第二句子识别结果；使用第一句子缩放参数和第一句子偏移参数对所述第二句子识别结果进行调整，得到所述待识别音频在所述第一标准条件下的第三句子识别结果，其中，所述第一识别结果为所述第三句子识别结果；其中，所述第一缩放参数包括：所述第一音素缩放参数、所述第一词语缩放参数和所述第一句子缩放参数，所述第一偏移参数包括：所述第一音素偏移参数、所述第一词语偏移参数和所述第一句子偏移参数。

[0012] 可选地，在所述将所述特征向量输入至目标网络模型之前，所述方法包括：提取训练音频的第二特征向量，其中，所述第二特征向量包括：第二音素特征向量、第二词语特征向量和第二句子特征向量；使用所述第二特征向量和所述训练音频在不同标准条件下的已知识别结果对初始网络模型进行训练，得到所述目标网络模型，其中，所述目标网络模型输出的所述训练音频在所述不同标准条件中每个标准条件下的预估识别结果与所述训练音频在对应标准条件下的已知识别结果之间的损失函数满足目标收敛条件，所述目标收敛条件用于指示所述损失函数的输出值在预定范围内，所述损失函数由音素损失函数、句子损失函数和不同标准中每个标准条件下的缩放偏移损失函数构成。

[0013] 可选地，在所述获取待识别音频的第一特征向量之前，所述方法包括：通过目标应用获取所述待识别音频；在所述目标应用的第一显示界面获取第一交互指令，其中，所述第一交互指令用于在多个所述不同标准条件中选择所述第一标准条件；响应所述第一交互指令，在所述不同标准条件中选择所述第一标准条件。

[0014] 可选地，在所述得到所述待识别音频在第一标准条件下的第一识别结果之后，所述方法包括：在所述目标应用的第二显示界面获取第二交互指令，其中，所述第二交互指令用于将所述第一标准条件切换为第二标准条件；将所述第一特征向量输入至所述目标网络模型，使用所述目标网络模型对所述第一特征向量进行处理，得到所述待识别音频在所述第二标准条件下的第二识别结果；在所述目标应用的第三显示界面显示所述第二识别结果。

[0015] 根据本发明实施例的另一方面，还提供了一种音频的识别装置，包括：获取模块，用于获取待识别音频的第一特征向量，其中，所述第一特征向量包括：第一音素特征向量、第一词语特征向量和第一句子特征向量；输入模块，用于将所述第一特征向量输入至目标网络模型，使用所述目标网络模型对所述第一特征向量进行处理，得到所述待识别音频在第一标准条件下的第一识别结果，其中，所述目标网络模型用于在不同标准条件下对音频进行识别，所述第一标准条件是所述不同标准条件中的一个标准条件，所述目标网络模型包括音素层、单词层和句子层，所述第一识别结果是根据所述音素层输出的音素识别结果、所述单词层输出的词语识别结果和所述句子层输出的句子识别结果得到的，所述第一识别结果用于表示所述待识别音频是否满足所述第一标准条件。

[0016] 根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述音频的识别方法。

[0017] 根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过所述计算机程序执行上述的音频的识别方法。

[0018] 在本发明实施例中，通过获取待识别音频的第一特征向量，第一特征向量包括：第一音素特征向量、第一词语特征向量和第一句子特征向量；将第一特征向量输入至目标网络模型，使用所述目标网络模型对所述第一特征向量进行处理，得到所述待识别音频在第一标准条件下的第一识别结果。达到了根据待识别音频的音素特征、词语特征和句子特征，得到待识别音频在多个不同标准条件中的一个条件下的识别结果的目的，从而实现了提高口语识别结果准确率的技术效果，进而解决了口语识别准确率较低的技术问题。

附图说明

[0019] 此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

[0020] 图1是根据本发明实施例的音频的识别方法的硬件环境的示意图；

[0021] 图2是根据本发明实施例的音频的识别方法的流程图；

[0022] 图3是根据本发明一个可选实施例的自适应不同标准的口语识别模型结构示意图；

[0023] 图4是根据本发明一个可选实施例的自适应不同标准的口语识别引擎数据流示意图；

[0024] 图5是根据本发明一个可选实施例的训练目标网络模型的学习过程示意图；

[0025] 图6是根据本发明一个可选实施例的指定标准的口语识别过程示意图；

[0026] 图7是根据本发明实施例的音频的识别装置的结构框图；

[0027] 图8是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

[0028] 为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

[0029] 需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

[0030] 根据本发明实施例的一个方面，提供了一种音频的识别方法，可选地，作为一种可选的实施方式，上述音频的识别方法可以但不限于应用于如图1所示的环境中。

[0031] 可选地，在本实施例中，上述用户设备102可以是配置有目标应用客户端的终端设备，可以包括但不限于以下至少之一：手机（如Android手机、iOS手机等）、笔记本电脑、平板电脑、掌上电脑、MID（Mobile Internet Devices，移动互联网设备）、PAD、台式电脑、智能电视等。目标应用客户端可以是音视频客户端、即时通信客户端、浏览器客户端、游戏客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器112可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。
上述仅是一种示例，本实施例中对此不作任何限定。

[0032] 可选地，作为一种可选的实施方式，如图2所示，上述音频的识别方法包括：

[0033] 步骤S202，获取待识别音频的第一特征向量，其中，所述第一特征向量包括：第一音素特征向量、第一词语特征向量和第一句子特征向量；

[0034] 步骤S204，将所述第一特征向量输入至目标网络模型，使用所述目标网络模型对所述第一特征向量进行处理，得到所述待识别音频在第一标准条件下的第一识别结果，其中，所述目标网络模型用于在不同标准条件下对音频进行识别，所述第一标准条件是所述不同标准条件中的一个标准条件，所述目标网络模型包括音素层、单词层和句子层，所述第一识别结果是根据所述音素层输出的音素识别结果、所述单词层输出的词语识别结果和所述句子层输出的句子识别结果得到的，所述第一识别结果用于表示所述待识别音频是否满足所述第一标准条件；

[0035] 其中，所述音素层用于根据所述第一音素特征向量，确定所述待识别音频在所述第一标准条件下的音素识别结果，所述单词层用于根据所述音素识别结果和所述第一词语特征向量，确定所述待识别音频的词语在所述第一标准条件下的词语识别结果；所述句子层用于根据所述词语识别结果和所述第一句子特征向量，确定所述待识别音频在所述第一标准条件下的句子识别结果，所述第一识别结果是根据所述句子识别结果确定得到的结果。

[0036] 作为一个可选的实施方式，上述待识别音频可以是用户发出的多条发音音频，提取出待识别音频中的音素特征、词语特征和句子特征。使用训练好的目标网络模型对待识别音频的音素特征、句子特征和句子特征进行分析处理，可以得到待识别音频在不同标准条件下的得分。

[0037] 对于口语评测中不同粒度的评判，如朗读音素或声韵母对与错，朗读单词的合格度以及句子的打分，标准也是完全不一致的。本实施例中的不同标准条件是仅基于上述三个特征某一个或几个的特征的标准，例如，仅基于音素特征的标准，仅基于词语特征的标准，或者综合音素特征、句子特征和句子特征的标准。多个不同标准也可以是不同专家制定的标准。

[0038] 本实施例基于构建的目标网络模型，可以从口语评测的不同细粒度建模不同标注者的偏差，最终可以输出不同标准条件下对应的识别结果，可以得到每个标准条件下的偏差向量。同时，基于该模型结构，输入某个标准条件下的识别结果对模型的偏差向量进行训练微调，可以让模型快速适应多个标准条件中的某个标准，输出基于该标准条件下的识别结果。

[0039] 通过上述步骤，通过获取待识别音频的第一特征向量，第一特征向量包括：第一音素特征向量、第一词语特征向量和第一句子特征向量；将第一特征向量输入至目标网络模型，使用所述目标网络模型对所述第一特征向量进行处理，得到所述待识别音频在第一标准条件下的第一识别结果。达到了根据待识别音频的音素特征、词语特征和句子特征，得到待识别音频在多个不同标准条件中的一个条件下的识别结果的目的，从而实现了提高口语识别结果准确率的技术效果，进而解决了语识别准确率较的技术问题。

[0040] 可选地，所述使用所述目标网络模型对所述第一特征向量进行处理，包括：将所述第一音素特征向量输入至所述目标网络模型的所述音素层，得到所述音素层输出的所述待识别音频在所述第一标准条件下的第一音素识别结果；将所述第一音素识别结果和所述第一词语特征向量输入至所述目标网络模型的所述单词层，得到所述单词层输出的在所述第一标准条件下的第一词语识别结果；将所述第一词语识别结果和所述第一句子特征向量输入至所述目标网络模型的所述句子层，得到所述句子层输出的所述待识别音频在所述第一标准条件下的所述第一句子识别结果，其中，所述第一识别结果为所述第一句子识别结果。

[0041] 作为一个可选的实施方式，目标网络模型包括三层，分别为音素层、单词层、句子层。图3是根据本发明一个可选实施例的自适应不同标准的口语识别模型结构示意图。音素层输入音素特征，包括音素音频特征，音素元辅音特征等，结合专家音素特征，输出音素识别结果。单词层输入单词特征，包括单词音频特征，单词属性特征等，以及音素识别结果，结合专家单词特征，输出单词识别结果。句子层输入单词识别结果以及句子特征，包括句子音频特征，结合专家句子特征，输出句子识别结果。

[0042] 作为一个可选的实施方案，图4是根据本发明一个可选实施例的自适应不同标准的口语识别引擎数据流示意图。图4是通过目标网络模型对口语“I am Happy”测评过程中的数据流示意图。具体地，将音素级别的音频特征输入到模型中（例如图4中“AY”的音素向量为“[0.01,0.03..]”），结合专家音素特征向量（例如图4中“AY”的专家特征“[0,1,0.5..]”），输出每个音素的识别结果（例如图4中“AY”的识别结果为“0.6”）；将音素识别结果与词语级别的音频特征输入到词语层模型中（例如图4中将“AY”的音素识别结果“0.6”和：“I单词”的单词特征[0.2,0.4..]输入到单词特征层），结合专家词语特征向量（例如图4中“I单词”的专家特征[0,1,0.4,0.5]），输出每个单词的识别结果（例如图4中单词特征层输出的“I单词”的识别结果未0.6）；将单词识别结果（例如图4中分别将“I单词”、“AM单词”、“happy单词”的识别结果“0.6、0.8、0.85”输入到句子特征层）与句子级别的音频特征（例如图4中句子特征[0.01,0.03..]）输入到句子层模型中，结合专家句子的特征向量（例如图4中专家特征[0.2,0.3,0.4]），输出每个句子的识别结果（例如图4中句子特征层输出的“I am Happy”的句子识别结果0.8）。

[0043] 可选地，所述使用所述目标网络模型对所述第一特征向量进行处理，包括：确定在所述第一标准条件下的第一缩放参数和第一偏移参数，其中，所述第一缩放参数和所述第一偏移参数是在训练得到所述目标网络模型时得到的参数；使用所述第一缩放参数和所述第一偏移参数对所述目标网络模型的所述音素层输出的所述音素识别结果、所述单词层输出的所述词语识别结果、以及所述句子层输出的句子识别结果进行调整，得到所述目标网络模型输出的所述待识别音频在所述第一标准条件下的所述第一识别结果。

[0044] 作为一个可选的实施方式，由于影响口语测评结果的影响因素包括音素、单词、句子，对于不同粒度（如音素、单词、句子）的打分标准可能不完全相同，对于不同发音错误程度的打分标准也不完全相同。基于该思路，将不同标准因素融合到打分模型中。不同的标准条件对应有不同的缩放参数和偏移参数，通过缩放参数和偏移参数对目标网络模型中音素层、词语层和句子层输出的识别结果进行调整，以使得目标网络模型输出的识别结果可以自适应不同标准。

[0045] 可选地，所述使用所述第一缩放参数和所述第一偏移参数对所述目标网络模型的所述音素层输出的所述音素识别结果、所述单词层输出的所述词语识别结果、以及所述句子层输出的句子识别结果进行调整，得到所述目标网络模型输出的所述待识别音频在所述第一标准条件下的所述第一识别结果，包括：将所述第一音素特征向量输入至所述目标网络模型的所述音素层，得到所述音素层输出的所述待识别音频在所述第一标准条件下的第二音素识别结果；使用第一音素缩放参数和第一音素偏移参数对所述第二音素识别结果进行调整，得到所述待识别音频在所述第一标准条件下的第三音素识别结果。

[0046] 作为一个可选的实施方式，特征提取基于自动语音识别，可以通过自动语言识别技术，获得每个音素对应的发音起始段。通过帧数与时间的对应关系，获取每个音素、单词、句子对应的发音时长。基于自动语音识别技术，获得每个音素发音的置信度GOP（Goodness of pronunciation，即某段音频发音对应某个音素的概率，概率越大，说明该段发音越标准）。音素层的输入来自于每个音素的GOP，以及每个音素对应的特征向量，其中音素表可以来自于CMU字典，共39个音素，每个音素有独立的特征表示。音素层结合这些特征，如通过拼接操作，如EH这个音素的gop为0.01，EH对应的音素向量为[0.1,0.3,0.5]，将这两个特征拼接，得到[0.01,0.1,0.3,0.5]特征向量，将特征向量输入到全连接层，获得音素的得分。

[0047] 作为一个可选的实施方案，每个标准可以有两个独特的特征向量，一个是对原始分数的缩放参数，一个是对原始分数的偏移参数。例如，对于音素层，专家音素缩放向量初始化为w([1,1])，偏移参数为b([0])，音素层某个音素的输出为p(0.8)，基于专家向量对音素识别结果进行调整，通过公式可以得到最终的专家音素识别结果p'。

[0048] 当缩放向量为w([1,1])，偏移参数为b([0])时，专家音素识别结果将与原有的音素识别结果相等。

[0049] 可选地，在所述得到所述待识别音频在所述第一标准条件下的第三音素识别结果之后，所述方法还包括：将所述第三音素识别结果和所述第一词语特征向量输入至所述单词层，得到所述单词层输出的所述待识别音频的第二词语识别结果；使用第一词语缩放参数和第一词语偏移参数对所述第二词语识别结果进行调整，得到所述待识别音频在所述第一标准条件下的第三词语识别结果。

[0050] 作为一个可选的实施方案，单词层的输入来自于每个音素的识别结果，结合单词属性，如该单词是动词还是名词等属性，将该属性向量化，如一共有十种特征属性，分别为动词，名词，形容词等，则将该属性表示为十维的向量，其中如果是动词，则动词维度为1，其他维度为0，最终将词性表示为[0,1...,0]的向量。将单词分数与词语特征向量进行结合，如通过拼接操作。将拼接得到的特征向量输入到全连接层，获得单词识别结果。

[0051] 作为一个可选的实施方式，将得到的音素识别结果输入到单词层，获得单词对应的识别结果。通过公式对单词识别结果进行专家单词向量的缩放与偏移，获得某个专家对单词的识别结果。

[0052] 可选地，在所述得到所述待识别音频在所述第一标准条件下的第三词语识别结果之后，所述方法还包括：将所述第三词语识别结果和所述第一句子特征向量输入至所述目标网络模型的句子层，得到所述句子层输出的所述待识别音频的第二句子识别结果；使用第一句子缩放参数和第一句子偏移参数对所述第二句子识别结果进行调整，得到所述待识别音频在所述第一标准条件下的第三句子识别结果，其中，所述第一识别结果为所述第三句子识别结果；其中，所述第一缩放参数包括：所述第一音素缩放参数、所述第一词语缩放参数和所述第一句子缩放参数，所述第一偏移参数包括：所述第一音素偏移参数、所述第一词语偏移参数和所述第一句子偏移参数。

[0053] 作为一个可选的实施方式，句子层的输入来自于每个单词的识别结果，结合句子中单词的个数等特征，最终获得句子识别结果。将得到的单词识别结果输入到句子层，获得对应句子的识别结果。对句子的识别结果通过公式进行缩放与偏移调整，得到最终句子的得分。基于不同专家标准模型拟合对不同标准条件下句子识别，自适应调整不同标准的缩放向量与偏移参数。基于训练好的模型，可以指定某个标准条件，模型只采用某个标准条件的缩放向量与偏移参数，获得基于某个标准的识别结果。当专家缩放向量为[1,1]，且偏移参数为[0]时，得到的是综合各种标准的识别结果，不偏向于某个标准。

[0054] 可选地，在所述将所述特征向量输入至目标网络模型之前，所述方法包括：提取训练音频的第二特征向量，其中，所述第二特征向量包括：第二音素特征向量、第二词语特征向量和第二句子特征向量；使用所述第二特征向量和所述训练音频在不同标准条件下的已知识别结果对初始网络模型进行训练，得到所述目标网络模型，其中，所述目标网络模型输出的所述训练音频在所述不同标准条件中每个标准条件下的预估识别结果与所述训练音频在对应标准条件下的已知识别结果之间的损失函数满足目标收敛条件，所述目标收敛条件用于指示所述损失函数的输出值在预定范围内，所述损失函数由音素损失函数、句子损失函数和不同标准中每个标准条件下的缩放偏移损失函数构成。

[0055] 作为一个可选的实施方式，图5所示是训练目标网络模型的学习过程示意图。可以在前端显示页面输入多条口语发音音频以及每条音频对应的多个不同标准条件下的已知识别结果，将获取到的数据作为训练数据对初始网络模型进行训练，初始网络模型可以是神经网络模型。不同标准条件下的已知识别结果可以是多个不同专家对多条口语发音音频的打分数据。服务器接收音频数据及多个专家的打分数据。服务器将音频数据输入给自动语音识别模块，对音频数据进行特征提取，得到音频数据的特征向量，包括音素特征向量、词语特征向量和句子特征向量。服务器将已知识别结果输入给口语评测引擎，口语评测引擎接收音频特征，以及音频特征在各个标准条件下的已知识别结果对初始模型训练。口语评测引擎完成音频数据在不同标准条件下的识别结的学习，返回完成状态给服务器，以此完成对初始网络模型的训练，得到训练好的目标网络模型。服务器接收口语评测引擎状态，返回状态给前端页面，显示最终状态。

[0056] 作为一个可选的实施方式，在模型的训练过程中可对模型进行优化，整个模型优化由两个目标构成，包括音素检错与句子得分拟合。音素检错主要判断音素发音正确与否，句子得分拟合用于获得最终的发音句子评分。其中音素检错的目标函数为交叉熵损失。其中为基于第j个专家模型预测第i个音素是否正确的概率，为第j个专家对i个音素判断是否准确的标签。句子得分拟合为均方误差，为基于第j个专家模型预测的得分，为第j个专家对i个句子的
评分。为了预防某个专家偏移或缩放比例太大，通过对偏移和缩放向量进
行限制。其中w为所有专家的缩放向量，b为所有专家的偏移向量。w由[w1,w2...wk]构成，b由[b1,b2...bk]构成，k代表专家总数，wi代表专家i的缩放向量，bi代表专家i的偏移向量。
对三项损失进行加权求和，最终获得模型的总损失，其中权重为w1，w2，w3可以通常设定为一个常数，如公式。通过神经网络反向传递损失，优化模型参
数。

[0057] 下面通过一个具体实施例说明本申请：以8000条口语音频作为训练数据，其中每条句子由三名专家进行1到5档的评分，1代表发音不可描述，5分代表发音接近标准。其中3000条句子包含音素错误标注，由三名专家进行标注，标注0代表错误，1代表正确。测试集由1000条句子构成，包含三名专家对句子的评分，以及基于三名专家的分数进行投票并对评分异常点去除得到的相对标准的得分。采用训练集对模型进行训练，基于1000条测试集对专家评分进行评测，采用皮尔逊相关系数对模型评分与标签评分进行相关度计算。利用模型参数动态建模不同专家的偏差。对标注者偏差进行建模可以使模型提取不同专家的共同之处，输出较标准的分数。通过建模不同专家的打分标准，模型可以自适应学到不同专家的偏差，得到相对标准的分数与基于某个专家标准的得分。

[0058] 可选地，在所述获取待识别音频的第一特征向量之前，所述方法包括：通过目标应用获取所述待识别音频；在所述目标应用的第一显示界面获取第一交互指令，其中，所述第一交互指令用于在多个所述不同标准条件中选择所述第一标准条件；响应所述第一交互指令，在所述不同标准条件中选择所述第一标准条件。

[0059] 作为一个可选的实施方式，图6是根据本发明可选实施例的指定标准的口语识别过程示意图。用户可以再前端页面输入一条口语发音音频，以及指定的标准，如专家1标准，专家2标准或者多个专家融合的标准。服务器接收音频数据将音频数据输入给自动语音识别模块，对音频数据进行特征提取。服务器将不同专家的打分数据输入给口语评测引擎。口语评测引擎接收音频特征以及标准，基于某个标准对音频发音进行识别，输出符合某个标准的识别结果。服务器接收口语评测引擎的识别结果，将识别结果传给前端。前端向用户展示该条语音口语评测识别结果。

[0060] 可选地，在所述得到所述待识别音频在第一标准条件下的第一识别结果之后，所述方法包括：在所述目标应用的第二显示界面获取第二交互指令，其中，所述第二交互指令用于将所述第一标准条件切换为第二标准条件；将所述第一特征向量输入至所述目标网络模型，使用所述目标网络模型对所述第一特征向量进行处理，得到所述待识别音频在所述第二标准条件下的第二识别结果；在所述目标应用的第三显示界面显示所述第二识别结果。

[0061] 作为一个可选的实施方式，用户可以在前端页面切换标准，服务器接收到新的标准条件后，基于训练好的目标网络模型对语音数据在新的标准条件下进行识别。并将新的识别结果返回至前端页面，用户可以在显示页面查看在新的标准条件下音频数据的识别结果。在本实施例中，目标网络模型可以自适应不同标准条件下的识别结果，用户可以通过前端页面切换不同的标准，在前端页面查看不同标准条件下的识别结果。在本实施例中，采用了缩放与偏移系数方法，可以在自动口语评测过程中可以自适应不同专家标准。

[0062] 需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

[0063] 根据本发明实施例的另一个方面，还提供了一种用于实施上述音频的识别方法的音频的识别装置。如图7所示，该装置包括：获取模块72，用于获取待识别音频的第一特征向量，其中，所述第一特征向量包括：第一音素特征向量、第一词语特征向量和第一句子特征向量；输入模块74，用于将所述第一特征向量输入至目标网络模型，使用所述目标网络模型对所述第一特征向量进行处理，得到所述待识别音频在第一标准条件下的第一识别结果，其中，所述目标网络模型用于在不同标准条件下对音频进行识别，所述第一标准条件是所述不同标准条件中的一个标准条件，所述目标网络模型包括音素层、单词层和句子层，所述第一识别结果是根据所述音素层输出的音素识别结果、所述单词层输出的词语识别结果和所述句子层输出的句子识别结果得到的，所述第一识别结果用于表示所述待识别音频是否满足所述第一标准条件。

[0064] 可选地，上述输入模块用于通过如下方式实现所述使用所述目标网络模型对所述第一特征向量进行处理：将所述第一音素特征向量输入至所述目标网络模型的所述音素层，得到所述音素层输出的所述待识别音频在所述第一标准条件下的第一音素识别结果；将所述第一音素识别结果和所述第一词语特征向量输入至所述目标网络模型的所述单词层，得到所述单词层输出的在所述第一标准条件下的第一词语识别结果；将所述第一词语识别结果和所述第一句子特征向量输入至所述目标网络模型的所述句子层，得到所述句子层输出的所述待识别音频在所述第一标准条件下的所述第一句子识别结果，其中，所述第一识别结果为所述第一句子识别结果。

[0065] 可选地，上述输入模块用于通过如下方式实现所述使用所述目标网络模型对所述第一特征向量进行处理：确定在所述第一标准条件下的第一缩放参数和第一偏移参数，其中，所述第一缩放参数和所述第一偏移参数是在训练得到所述目标网络模型时得到的参数；使用所述第一缩放参数和所述第一偏移参数对所述目标网络模型的所述音素层输出的所述音素识别结果、所述单词层输出的所述词语识别结果、以及所述句子层输出的句子识别结果进行调整，得到所述目标网络模型输出的所述待识别音频在所述第一标准条件下的所述第一识别结果。

[0066] 可选地，上述装置还用于将所述第一音素特征向量输入至所述目标网络模型的所述音素层，得到所述音素层输出的所述待识别音频在所述第一标准条件下的第二音素识别结果；使用第一音素缩放参数和第一音素偏移参数对所述第二音素识别结果进行调整，得到所述待识别音频在所述第一标准条件下的第三音素识别结果；其中，所述第一缩放参数包括第一音素缩放参数，所述第一偏移参数包括第一音素偏移参数。

[0067] 可选地，上述装置还用于在所述得到所述待识别音频在所述第一标准条件下的第三音素识别结果之后，将所述第三音素识别结果和所述第一词语特征向量输入至所述单词层，得到所述单词层输出的所述待识别音频的第二词语识别结果；使用第一词语缩放参数和第一词语偏移参数对所述第二词语识别结果进行调整，得到所述待识别音频在所述第一标准条件下的第三词语识别结果；其中，所述第一缩放参数包括所述第一词语缩放参数，所述第一偏移参数包括所述第一词语偏移参数。

[0068] 可选地，上述装置还用于在所述得到所述待识别音频在所述第一标准条件下的第三词语识别结果之后，将所述第三词语识别结果和所述第一句子特征向量输入至所述目标网络模型的句子层，得到所述句子层输出的所述待识别音频的第二句子识别结果；使用第一句子缩放参数和第一句子偏移参数对所述第二句子识别结果进行调整，得到所述待识别音频在所述第一标准条件下的第三句子识别结果，其中，所述第一识别结果为所述第三句子识别结果；其中，所述第一缩放参数包括所述第一句子缩放参数，所述第一偏移参数包括第一句子偏移参数。

[0069] 可选地，上述装置还用于在所述将所述特征向量输入至目标网络模型之前，提取训练音频的第二特征向量，其中，所述第二特征向量包括：第二音素特征向量、第二词语特征向量和第二句子特征向量；使用所述第二特征向量和所述训练音频在不同标准条件下的已知识别结果对初始网络模型进行训练，得到所述目标网络模型，其中，所述目标网络模型输出的所述训练音频在所述不同标准条件中每个标准条件下的预估识别结果与所述训练音频在对应标准条件下的已知识别结果之间的损失函数满足目标收敛条件，所述目标收敛条件用于指示所述损失函数的输出值在预定范围内，所述损失函数由音素损失函数、句子损失函数和不同标准中每个标准条件下的缩放偏移损失函数构成。

[0070] 可选地，上述装置还用于在所述获取待识别音频的第一特征向量之前，通过目标应用获取所述待识别音频；在所述目标应用的第一显示界面获取第一交互指令，其中，所述第一交互指令用于在多个所述不同标准条件中选择所述第一标准条件；响应所述第一交互指令，在所述不同标准条件中选择所述第一标准条件。

[0071] 可选地，上述装置还用于在所述得到所述待识别音频在第一标准条件下的第一识别结果之后，在所述目标应用的第二显示界面获取第二交互指令，其中，所述第二交互指令用于将所述第一标准条件切换为第二标准条件；将所述第一特征向量输入至所述目标网络模型，使用所述目标网络模型对所述第一特征向量进行处理，得到所述待识别音频在所述第二标准条件下的第二识别结果；在所述目标应用的第三显示界面显示所述第二识别结果。

[0072] 根据本发明实施例的又一个方面，还提供了一种用于实施上述音频的识别方法的电子设备，该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端为例来说明。如图8所示，该电子设备包括存储器802和处理器804，该存储器802中存储有计算机程序，该处理器804被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

[0073] 可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

[0074] 可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

[0075] S1，获取待识别音频的第一特征向量，其中，所述第一特征向量包括：第一音素特征向量、第一词语特征向量和第一句子特征向量；

[0076] S2，将所述第一特征向量输入至目标网络模型，使用所述目标网络模型对所述第一特征向量进行处理，得到所述待识别音频在第一标准条件下的第一识别结果，其中，所述目标网络模型用于在不同标准条件下对音频进行识别，所述第一标准条件是所述不同标准条件中的一个标准条件，所述目标网络模型包括音素层、单词层和句子层，所述第一识别结果是根据所述音素层输出的音素识别结果、所述单词层输出的词语识别结果和所述句子层输出的句子识别结果得到的，所述第一识别结果用于表示所述待识别音频是否满足所述第一标准条件。

[0077] 可选地，本领域普通技术人员可以理解，图8所示的结构仅为示意，电子装置电子设备也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌上电脑以及移动互联网设备（Mobile Internet Devices，MID）、PAD等终端设备。图8其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图8中所示更多或者更少的组件（如网络接口等），或者具有与图8所示不同的配置。

[0078] 其中，存储器802可用于存储软件程序以及模块，如本发明实施例中的音频的识别方法和装置对应的程序指令/模块，处理器804通过运行存储在存储器802内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音频的识别方法。存储器802可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器802可进一步包括相对于处理器804远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器802具体可以但不限于用于存储物品的样本特征与目标虚拟资源账号等信息。作为一种示例，如图8所示，上述存储器802中可以但不限于包括上述音频的识别装置中的获取模块72、输入模块74。此外，还可以包括但不限于上述音频的识别装置中的其他模块单元，本示例中不再赘述。

[0079] 可选地，上述的传输装置806用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置806包括一个网络适配器（Network Interface Controller，NIC），其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置806为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

[0080] 此外，上述电子设备还包括：显示器808，用于显示上述第一识别结果、第二识别结果；和连接总线810，用于连接上述电子设备中的各个模块部件。

[0081] 在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点（P2P，Peer To Peer）网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

[0082] 根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

[0083] 可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

[0084] S1，获取待识别音频的第一特征向量，其中，所述第一特征向量包括：第一音素特征向量、第一词语特征向量和第一句子特征向量

[0085] S2，将所述第一特征向量输入至目标网络模型，使用所述目标网络模型对所述第一特征向量进行处理，得到所述待识别音频在第一标准条件下的第一识别结果，其中，所述目标网络模型用于在不同标准条件下对音频进行识别，所述第一标准条件是所述不同标准条件中的一个标准条件，所述目标网络模型包括音素层、单词层和句子层，所述第一识别结果是根据所述音素层输出的音素识别结果、所述单词层输出的词语识别结果和所述句子层输出的句子识别结果得到的，所述第一识别结果用于表示所述待识别音频是否满足所述第一标准条件。

[0086] 可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

[0087] 上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

[0088] 上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。

[0089] 在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

[0090] 在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

[0091] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0092] 另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

[0093] 以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

音频的识别方法和装置、存储介质及电子设备转让专利

申请号 : CN202010793241.1

文献号 : CN111739518B

文献日 : 2020-12-01

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 林炳怀 , 王丽园

申请人 : 腾讯科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :