一种语音识别方法、装置、电子设备和存储介质转让专利

申请号 : CN202111352684.8

文献号 : CN113823262B

文献日 : 2022-02-11

本申请涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、电子设备和存储介质，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景，用以高效准确地实现多方言目标语言的语音识别。其中，方法包括：获取目标语言的待识别语音数据；提取待识别语音数据中各帧语音数据各自对应的语音声学特征；通过对语音声学特征进行深度特征提取，获取对应的方言嵌入特征；通过对语音声学特征进行编码，获得对应的声学编码特征；基于方言嵌入特征，声学编码特征，对待识别语音数据进行方言语音识别，获得待识别语音数据对应的目标文本信息与目标方言类别。本申请结合方言嵌入特征和声学编码特征综合学习，可以高效准确地实现识别多种方言的语音识别。

1.一种语音识别方法，其特征在于，该方法包括：获取目标语言的待识别语音数据，所述目标语言包含多种方言；

将所述待识别语音数据进行分帧处理后，提取所述待识别语音数据中各帧语音数据各自对应的语音声学特征；

通过对所述语音声学特征进行深度特征提取，获取所述待识别语音数据对应的方言嵌入特征；以及，通过对所述语音声学特征进行编码，获得所述待识别语音数据对应的声学编码特征，所述方言嵌入特征用于表示所述待识别语音数据所属方言的方言信息；

经由已训练的多方言语音识别模型中的前馈神经网络，对所述方言嵌入特征进行高维特征提取，获得所述待识别语音数据对应的方言深度特征；基于所述多方言语音识别模型中的语音识别网络，将所述方言深度特征与所述声学编码特征进行组合拼接，获得所述待识别语音数据对应的拼接特征；基于所述拼接特征进行预测，获得所述待识别语音数据对应的目标文本信息，以及目标方言类别。

2.如权利要求1所述的方法，其特征在于，所述通过对所述语音声学特征进行深度特征提取，获取所述待识别语音数据对应的方言嵌入特征，包括：基于所述多方言语音识别模型中的方言识别网络，对所述语音声学特征进行深度特征提取，获取所述待识别语音数据对应的方言嵌入特征；

所述通过对所述语音声学特征进行编码，获得所述待识别语音数据对应的声学编码特征，包括：

基于所述语音识别网络，对所述语音声学特征进行升维编码，获得所述待识别语音数据对应的声学编码特征。

3.如权利要求1所述的方法，其特征在于，所述语音识别网络包括主干分类子网络和辅助分类子网络；所述基于所述拼接特征进行预测，获得所述待识别语音数据对应的目标文本信息，以及所述目标方言类别，包括：将所述拼接特征分别输入所述主干分类子网络和所述辅助分类子网络进行解码，获得所述主干分类子网络和所述辅助分类子网络各自输出的候选结果，每个候选结果包括针对所述待识别语音数据的候选文本信息和候选方言类别；

从多个候选结果中选择一个，并将所选候选结果所包含的候选文本信息和候选方言类别，分别作为所述待识别语音数据对应的目标文本信息和目标方言类别。

4.如权利要求1所述的方法，其特征在于，所述语音识别网络包括主干分类子网络和辅助分类子网络；所述基于所述拼接特征进行预测，获得所述待识别语音数据对应的目标文本信息，以及所述目标方言类别，包括：将所述拼接特征输入所述辅助分类子网络进行解码，获得所述辅助分类子网络输出的多个候选结果，每个候选结果包括针对所述待识别语音数据的候选文本信息和候选方言类别；

分别将各个候选结果输入所述主干分类子网络进行解码，获得所述待识别语音数据对应的目标文本信息和目标方言类别。

5.如权利要求4所述的方法，其特征在于，所述分别将各个候选结果输入所述主干分类子网络进行解码，获得所述待识别语音数据对应的目标文本信息和目标方言类别，包括：分别将各个候选结果输入所述主干分类子网络进行解码，获得所述各个候选结果的评估值；

基于各个评估值，从多个候选结果中选择一个，并将所选候选结果所包含的候选文本信息和候选方言类别，分别作为所述待识别语音数据对应的目标文本信息和目标方言类别。

6.如权利要求2所述的方法，其特征在于，所述方言识别网络包括深度特征提取子网络，时序池化子网络和方言分类子网络；

所述基于已训练的多方言语音识别模型中的方言识别网络，对所述语音声学特征进行深度特征提取，获取所述待识别语音数据对应的方言嵌入特征，包括：分别将各帧语音数据的语音声学特征输入所述深度特征提取子网络，获取各帧语音数据各自对应的帧级别深度特征；

通过所述时序池化子网络对时序相关的各个帧级别深度特征进行整合，获得所述待识别语音数据对应的固定维度的句级别特征向量；

基于所述方言分类子网络，将所述句级别特征向量进行降维处理，得到所述方言嵌入特征。

7.如权利要求1 6任一项所述的方法，其特征在于，所述多方言语音识别模型是通过下~

列方式训练得到的：

根据训练样本数据集中的训练样本，对所述多方言语音识别模型执行循环迭代训练，在训练完毕时，输出训练完毕的所述多方言语音识别模型，所述训练样本数据集包括所述目标语言包含的多种方言各自对应的训练样本；其中，在一次循环迭代训练过程中执行以下操作：

从所述训练样本数据集中选取训练样本，将选取的所述训练样本输入所述多方言语音识别模型，获取所述多方言语音识别模型输出的预测方言类别和预测文本信息；

基于所述预测方言类别与所述预测文本信息与真实文本信息，对所述多方言语音识别模型进行参数调整。

8.如权利要求7所述的方法，其特征在于，所述语音识别网络包括主干分类子网络和辅助分类子网络；所述获取所述多方言语音识别模型输出的预测方言类别和预测文本信息，包括：

获取方言识别网络输出的第一预测方言类别；以及获取所述主干分类子网络和所述辅助分类子网络各自输出的第二预测方言类别和预测文本信息。

9.如权利要求8所述的方法，其特征在于，每个训练样本包括一个样本语音数据，以及所述样本语音数据对应的真实方言类别和真实文本信息；

所述基于所述预测方言类别与所述预测文本信息与真实文本信息，对所述多方言语音识别模型进行参数调整，包括：

基于所述训练样本中的样本语音数据的真实方言类别与所述第一预测方言类别之间的差异，对所述方言识别网络进行参数调整；以及基于所述真实方言类别与各个第二预测方言类别之间的差异，以及所述训练样本中的样本语音数据的真实文本信息与各个预测文本信息之间的差异，对所述语音识别网络进行参数调整。

10.如权利要求9所述的方法，其特征在于，所述基于所述真实方言类别与各个第二预测方言类别之间的差异，以及所述训练样本中的样本语音数据的真实文本信息与各个预测文本信息之间的差异，对所述语音识别网络进行参数调整，包括：基于所述主干分类子网络输出的第二预测方言类别与所述真实方言类别之间的差异，以及所述预测文本信息与所述真实文本信息之间的差异，确定所述主干分类子网络对应的第一损失函数；以及

基于所述辅助分类子网络输出的第二预测方言类别与所述真实方言类别之间的差异，以及所述预测文本信息与所述真实文本信息之间的差异，确定所述辅助分类子网络对应的第二损失函数；

基于所述第一损失函数与所述第二损失函数，对语音识别网络进行参数调整。

11.如权利要求1 6、8 10中任一项所述的方法，其特征在于，所述语音识别网络的初始~ ~

网络参数是基于标准语音识别模型进行参数迁移得到的，所述标准语音识别模型是基于样本标准语音数据进行训练得到的。

12.一种语音识别装置，其特征在于，包括：语音获取单元，用于获取目标语言的待识别语音数据，所述目标语言包含多种方言；

第一提取单元，用于将所述待识别语音数据进行分帧处理后，提取所述待识别语音数据中各帧语音数据各自对应的语音声学特征；

第二提取单元，用于通过对所述语音声学特征进行深度特征提取，获取所述待识别语音数据对应的方言嵌入特征；以及，通过对所述语音声学特征进行编码，获得所述待识别语音数据对应的声学编码特征，所述方言嵌入特征用于表示所述待识别语音数据所属方言的方言信息；

语音识别单元，用于经由已训练的多方言语音识别模型中的前馈神经网络，对所述方言嵌入特征进行高维特征提取，获得所述待识别语音数据对应的方言深度特征；基于所述多方言语音识别模型中的语音识别网络，将所述方言深度特征与所述声学编码特征进行组合拼接，获得所述待识别语音数据对应的拼接特征；基于所述拼接特征进行预测，获得所述待识别语音数据对应的目标文本信息，以及目标方言类别。

13.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1 11中任一所~

述方法的步骤。

14.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述存储介质在电子设备上运行时，所述程序代码用于使所述电子设备执行权利要求1 11中任一所述方法的步~

骤。

一种语音识别方法、装置、电子设备和存储介质

技术领域

[0001] 本申请涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、电子设备和存储介质。

背景技术

[0002] 随着科学技术的飞速发展，基于语音识别技术的相关服务已经被广泛地应用在人们的日常生活和工作中，如智能音箱、车载系统等。

[0003] 在相关技术中，语音识别的研究工作主要集中在一些数据资源较为丰富的通用语言上，语音数据量慢慢突破上万甚至上十万小时。但是，针对数据资源较少的目标语言（比
如藏语）的语音识别，受数据资源和语言传播范围的局限，针对目标语言的语音识别相关研
究较少。

[0004] 传统建模方法中需要分别构建声学模型、发音字典和语言模型等模块，由于目标语言的语料资源稀缺，难以大量录制目标语言语音数据，导致语料规模小，发音字典较难构
建，且相关研究集中在单个方言之中。另外，发音现象的覆盖较低、均衡度较低，使得采用语
料训练得到声学模型的识别率也较低。

[0005] 因而，如何高效准确地实现多方言目标语言的语音识别是亟待解决的。

发明内容

[0006] 本申请实施例提供一种语音识别方法、装置、电子设备和存储介质，用以高效准确地实现多方言目标语言的语音识别。

[0007] 本申请实施例提供的一种语音识别方法，包括：

[0008] 获取目标语言的待识别语音数据，所述目标语言包含多种方言；

[0009] 将所述待识别语音数据进行分帧处理后，提取所述待识别语音数据中各帧语音数据各自对应的语音声学特征；

[0010] 通过对所述语音声学特征进行深度特征提取，获取所述待识别语音数据对应的方言嵌入特征；以及，通过对所述语音声学特征进行编码，获得所述待识别语音数据对应的声
学编码特征，所述方言嵌入特征用于表示所述待识别语音数据所属方言的方言信息；

[0011] 基于所述方言嵌入特征，以及所述声学编码特征，对所述待识别语音数据进行方言语音识别，获得所述待识别语音数据对应的目标文本信息与目标方言类别。

[0012] 本申请实施例提供的一种语音识别装置，包括：

[0013] 语音获取单元，用于获取目标语言的待识别语音数据，所述目标语言包含多种方言；

[0014] 第一提取单元，用于将所述待识别语音数据进行分帧处理后，提取所述待识别语音数据中各帧语音数据各自对应的语音声学特征；

[0015] 第二提取单元，用于通过对所述语音声学特征进行深度特征提取，获取所述待识别语音数据对应的方言嵌入特征；以及，通过对所述语音声学特征进行编码，获得所述待识
别语音数据对应的声学编码特征，所述方言嵌入特征用于表示所述待识别语音数据所属方
言的方言信息；

[0016] 语音识别单元，用于基于所述方言嵌入特征，以及所述声学编码特征，对所述待识别语音数据进行方言语音识别，获得所述待识别语音数据对应的目标文本信息与目标方言
类别。

[0017] 可选的，所述第二提取单元具体用于：

[0018] 基于已训练的多方言语音识别模型中的方言识别网络，对所述语音声学特征进行深度特征提取，获取所述待识别语音数据对应的方言嵌入特征；

[0019] 所述通过对所述语音声学特征进行编码，获得所述待识别语音数据对应的声学编码特征，包括：

[0020] 基于所述多方言语音识别模型中的语音识别网络，对所述语音声学特征进行升维编码，获得所述待识别语音数据对应的声学编码特征。

[0021] 可选的，所述语音识别单元具体用于：

[0022] 经由所述多方言语音识别模型中的前馈神经网络，对所述方言嵌入特征进行高维特征提取，获得所述待识别语音数据对应的方言深度特征；

[0023] 将所述方言深度特征输入所述语音识别网络，基于所述语音识别网络将所述方言深度特征与所述声学编码特征进行组合拼接，获得所述待识别语音数据对应的拼接特征；

[0024] 基于所述拼接特征进行预测，获得所述待识别语音数据对应的目标文本信息，以及所述目标方言类别。

[0025] 可选的，所述语音识别网络包括主干分类子网络和辅助分类子网络；所述语音识别单元具体用于：

[0026] 将所述拼接特征分别输入所述主干分类子网络和所述辅助分类子网络进行解码，获得所述主干分类子网络和所述辅助分类子网络各自输出的候选结果，每个候选结果包括
针对所述待识别语音数据的候选文本信息和候选方言类别；

[0027] 从多个候选结果中选择一个，并将所选候选结果所包含的候选文本信息和候选方言类别，分别作为所述待识别语音数据对应的目标文本信息和目标方言类别。

[0028] 可选的，所述语音识别网络包括主干分类子网络和辅助分类子网络；所述语音识别单元具体用于：

[0029] 将所述拼接特征输入所述辅助分类子网络进行解码，获得所述辅助分类子网络输出的多个候选结果，每个候选结果包括针对所述待识别语音数据的候选文本信息和候选方
言类别；

[0030] 分别将各个候选结果输入所述主干分类子网络进行解码，获得所述待识别语音数据对应的目标文本信息和目标方言类别。

[0031] 可选的，所述语音识别单元具体用于：

[0032] 分别将各个候选结果输入所述主干分类子网络进行解码，获得所述各个候选结果的评估值；

[0033] 基于各个评估值，从多个候选结果中选择一个，并将所选候选结果所包含的候选文本信息和候选方言类别，分别作为所述待识别语音数据对应的目标文本信息和目标方言
类别。

[0034] 可选的，所述方言识别网络包括深度特征提取子网络，时序池化子网络和方言分类子网络；所述第二提取单元具体用于：

[0035] 分别将各帧语音数据的语音声学特征输入所述深度特征提取子网络，获取各帧语音数据各自对应的帧级别深度特征；

[0036] 通过所述时序池化子网络对时序相关的各个帧级别深度特征进行整合，获得所述待识别语音数据对应的固定维度的句级别特征向量；

[0037] 基于所述方言分类子网络，将所述句级别特征向量进行降维处理，得到所述方言嵌入特征。

[0038] 可选的，所述装置还包括：

[0039] 模型训练单元，用于通过下列方式训练得到所述多方言语音识别模型：

[0040] 根据训练样本数据集中的训练样本，对所述多方言语音识别模型执行循环迭代训练，在训练完毕时，输出训练完毕的所述多方言语音识别模型，所述训练样本数据集包括所
述目标语言包含的多种方言各自对应的训练样本；其中，在一次循环迭代训练过程中执行
以下操作：

[0041] 从所述训练样本数据集中选取训练样本，将选取的所述训练样本输入所述多方言语音识别模型，获取所述多方言语音识别模型输出的预测方言类别和预测文本信息；

[0042] 基于所述预测方言类别与所述预测文本信息与真实文本信息，对所述多方言语音识别模型进行参数调整。

[0043] 可选的，所述语音识别网络包括主干分类子网络和辅助分类子网络；所述模型训练单元具体用于：

[0044] 获取所述方言识别网络输出的第一预测方言类别；以及

[0045] 获取所述主干分类子网络和所述辅助分类子网络各自输出的第二预测方言类别和预测文本信息。

[0046] 可选的，每个训练样本包括一个样本语音数据，以及所述样本语音数据对应的真实方言类别和真实文本信息；

[0047] 所述模型训练单元具体用于：

[0048] 基于所述训练样本中的样本语音数据的真实方言类别与所述第一预测方言类别之间的差异，对所述方言识别网络进行参数调整；以及

[0049] 基于所述真实方言类别与各个第二预测方言类别之间的差异，以及所述训练样本中的样本语音数据的真实文本信息与各个预测文本信息之间的差异，对所述语音识别网络
进行参数调整。

[0050] 可选的，所述模型训练单元具体用于：

[0051] 基于所述主干分类子网络输出的第二预测方言类别与所述真实方言类别之间的差异，以及所述预测文本信息与所述真实文本信息之间的差异，确定所述主干分类子网络
对应的第一损失函数；以及

[0052] 基于所述辅助分类子网络输出的第二预测方言类别与所述真实方言类别之间的差异，以及所述预测文本信息与所述真实文本信息之间的差异，确定所述辅助分类子网络
对应的第二损失函数；

[0053] 基于所述第一损失函数与所述第二损失函数，对语音识别网络进行参数调整。

[0054] 可选的，所述语音识别网络的初始网络参数是基于标准语音识别模型进行参数迁移得到的，所述标准语音识别模型是基于样本标准语音数据进行训练得到的。

[0055] 本申请实施例提供的一种电子设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任意一种语
音识别方法的步骤。

[0056] 本申请实施例提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理
器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设
备执行上述任意一种语音识别方法的步骤。

[0057] 本申请实施例提供一种计算机可读存储介质，其包括程序代码，当所述程序产品在电子设备上运行时，所述程序代码用于使所述电子设备执行上述任意一种语音识别方法
的步骤。

[0058] 本申请有益效果如下：

[0059] 本申请实施例提供了一种语音识别方法、装置、电子设备和存储介质。基于本申请实施例中的语音识别方法，在对待识别语音数据进行方言语音识别时，首先提取待识别语
音数据中各帧语音数据的语音声学特征，进而，再基于各帧对应的语音声学特征，进一步进
行深度学习和编码，分别获得用于表征待识别语音数据方言信息的方言嵌入特征，以及用
于表征待识别语音数据声学特征的声学编码特征，进而，基于这些特征，对待识别语音数据
进行方言语音识别，获得待识别语音数据对应的目标文本信息与目标方言类别。由于本申
请基于目标语言多方言的特性，新增了方言嵌入特征的学习，结合方言嵌入特征和声学编
码特征，利用更多的方言信息来进行方言语音识别，在将待识别语音数据转换为文本信息
的同时，也进一步输出该目标语言的待识别语音数据所属的方言类别，而非直接基于语音
声学特征来识别，因而，可以高效准确地实现识别多种方言的语音识别。

[0060] 本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明
书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

[0061] 此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

[0062] 图1为相关技术中的一种语音识别系统的一个可选的示意图；

[0063] 图2为本申请实施例中的一种应用场景的一个可选的示意图；

[0064] 图3为本申请实施例中的一种语音识别方法的实施流程图；

[0065] 图4为本申请实施例中的一种深度特征提取方法的实施流程图；

[0066] 图5为本申请实施例中的一种序列到序列端到端网络结构的示意图；

[0067] 图6为本申请实施例中的一种基于强耦合的多任务学习端到端模型结构的示意图；

[0068] 图7为本申请实施例中的一种添加方言embedding后的模型结构的示意图；

[0069] 图8为本申请实施例中的一种模型训练方法的实施流程图；

[0070] 图9为本申请实施例中的一种模型参数更新方法的实施流程图；

[0071] 图10为本申请实施例中的一种基于迁移学习的藏语多方言语音识别模型结构示意图；

[0072] 图11为本申请实施例中的一种语音识别装置的组成结构示意图；

[0073] 图12为本申请实施例中的一种电子设备的组成结构示意图；

[0074] 图13为本申请实施例中的又一种电子设备的组成结构示意图。

具体实施方式

[0075] 为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技
术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普
通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方
案保护的范围。

[0076] 下面对本申请实施例中涉及的部分概念进行介绍。

[0077] 迁移学习：指把已训练好的模型（预训练模型）参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务都是存在相关性的，所以通过迁移学习，可以将已经学到的
模型参数（也可理解为模型学到的知识）通过某种方式来分享给新模型从而加快并优化模
型的学习效率不用像大多数网络那样从零学习。

[0078] 前馈神经网络（feedforward neural network，FNN）：简称前馈网络，是人工神经网络的一种。在此种神经网络中，各神经元从输入层开始，接收前一级输入，并输入到下一
级，直至输出层。整个网络中无反馈，可用一个有向无环图表示。按照前馈神经网络的层数
不同，可以将其划分为单层前馈神经网络和多层前馈神经网络。常见的前馈神经网络有感
知机（Perceptrons）、BP（Back Propagation）网络、RBF（Radial Basis Function）网络等。

[0079] 多方言语音识别模型：该模型为本申请新提出的一种，用于对包含多种方言的目标语言的语音数据进行识别的模型，基于该模型可以对目标语言的待识别语音数据进行方
言语音识别，确定该待识别语音数据所对应的文本信息，即本文中的目标文本信息，以及该
待识别语音数据中语音所包含的方言，即本文中的目标方言类别。

[0080] 线性判别分析（linear discriminant analysis，LDA）：也称为Fisher线性判别（Fisher Linear Discriminant，FLD），是模式识别的经典算法。基本思想是将高维的模式
样本投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征空间维数的效果，投影后
保证模式样本在新的子空间有最大的类间距离和最小的类内距离，即模式在该空间中有最
佳的可分离性。

[0081] 连接时序分类（Connectionist Temporal Classification，CTC）：是一种用于序列建模的工具，其核心是定义了特殊的目标函数/优化准则。其实就是用来解决时序类数据
的分类问题。比如语音识别，光学字符识别（Optical Character Recognition，OCR）等等。

[0082] 本申请实施例涉及人工智能（Artificial Intelligence，AI）和机器学习（Machine Learning，ML）技术，基于人工智能中的计算机视觉技术和机器学习而设计。

[0083] 人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话
说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能
以人类智能相似的方式做出反应的智能机器。

[0084] 人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学
习/深度学习、自动驾驶、智慧交通等几大方向。随着人工智能技术研究和进步，人工智能在
多个领域展开研究和应用，例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营
销、无人驾驶、自动驾驶、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的
领域得到应用，并发挥越来越重要的价值。

[0085] 机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或
技能，重新组织已有的知识结构使之不断改善自身的性能。对比于数据挖掘从大数据之间
找相互特性而言，机器学习更加注重算法的设计，让计算机能够自动地从数据中“学习”规
律，并利用规律对未知数据进行预测。

[0086] 机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移
学习、归纳学习等技术。本申请实施例中的多方言语音识别模型就是采用机器学习或深度
学习技术训练得到的。基于本申请实施例中的多方言语音识别模型的语音识别方法，可以
进行文本处理、语音处理、语义理解、机器翻译、机器人问答、知识图谱等模型的参数更新。

[0087] 在本申请实施例中提出的语音识别方法主要分别模型训练和模型应用两部分。其中，模型训练部分就涉及到机器学习这一技术领域，通过机器学习这一技术训练多方言语
音识别模型，在模型训练完成后，即可使用基于本申请中的训练方法，获得的训练完毕的多
方言语音识别模型，来进行包含多种方言的目标语言的语音识别，获得待识别语音数据对
应的目标文本信息和目标方言类别，进而还可基于获得的识别结果进行后续服务，比如语
音转文字服务、语音合成服务等。

[0088] 下面对本申请实施例的设计思想进行简要介绍：

[0089] 自动语音识别（Automatic Speech Recognition，ASR）是人工智能领域中较为活跃的研究课题。语音识别目的是将语音信号转变为对应的文本表示，其基本框架如图1所
示。语音信号首先需要进行声学特征提取，将信息进行大幅度的压缩，转变为机器能更好划
分的形式，然后将特征送入解码器解码出识别结果。而解码器则需要声学模型和语言模型
以及发音字典的共同作用，才能对特征进行打分，得到最终的解码序列。

[0090] 基于语音识别技术的相关服务已经被广泛地应用在人们的日常生活和工作中（如智能音箱、车载系统等），但由于数据资源和语言传播范围的局限，有一些目标语言的语音
的识别技术的发展较为迟缓。但是，因为目标语言的使用范围较小，且缺乏研究所需的数据
支撑，所以针对目标语言的语音识别相关研究较少。

[0091] 在传统建模方法中，为实现语音识别，需要分别构建声学模型、发音字典和语言模型等模块，由于目标语言的语料资源稀缺，难以大量录制目标语言语音数据，导致语料规模
小，发音字典较难构建，且相关研究集中在单个方言之中。另外，发音现象的覆盖较低、均衡
度较低，使得采用语料训练得到声学模型的识别率也较低。

[0092] 有鉴于此，本申请实施例提出了一种语音识别方法、装置、电子设备和存储介质。基于本申请实施例中的语音识别方法，在对待识别语音数据进行方言语音识别时，首先提
取待识别语音数据中各帧语音数据的语音声学特征，进而，再基于各帧对应的语音声学特
征，进一步进行深度学习和编码，分别获得用于表征待识别语音数据方言信息的方言嵌入
特征，以及用于表征待识别语音数据声学特征的声学编码特征，进而，基于这些特征，对待
识别语音数据进行方言语音识别，获得待识别语音数据对应的目标文本信息与目标方言类
别。由于本申请基于目标语言多方言的特性，新增了方言嵌入特征的学习，结合方言嵌入特
征和声学编码特征，利用更多的方言信息来进行方言语音识别，在将待识别语音数据转换
为文本信息的同时，也进一步输出该目标语言的待识别语音数据所属的方言类别，高效准
确地实现识别多种方言的语音识别。

[0093] 以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申
请中的实施例及实施例中的特征可以相互组合。

[0094] 如图2所示，其为本申请实施例的应用场景示意图。该应用场景图中包括两个终端设备210和一个服务器220。

[0095] 该应用场景图中包括两个终端设备210和一个服务器220。本申请实施例中的终端设备210上可以安装有客户端。该客户端可以是软件（例如浏览器、即时通讯应用），也可以
是网页、小程序等，服务器220则是与软件或是网页、小程序等相对应的后台服务器，本申请
不做具体限定。

[0096] 例如，用户A可通过终端设备210登录即时通讯应用，用户B通过另一终端设备210也登录该即时通讯应用，用户A和用户B可基于该即时通讯应用发送语音消息，该场景下，即
可基于本申请实施例中给出的语音识别方法，来进行方言语音识别。比如，用户A和用户B之
间发送目标语言的语音消息时，即可基于本申请实施例中的多方言的语音识别方法，识别
用户发送的语音消息对应的方言类别，并将语音消息转换为文本消息等等。

[0097] 需要说明的是，上述只是简单举例说明，本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

[0098] 在一种可选的实施方式中，终端设备210与服务器220之间可以通过通信网络进行通信。

[0099] 在一种可选的实施方式中，通信网络是有线网络或无线网络。

[0100] 在本申请实施例中，终端设备210为用户使用的计算机设备，该计算机设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、智能语音交互设备、智能家电、车载终
端等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算
机设备。各终端设备210通过无线网络与服务器220连接，服务器220是一台服务器或若干台
服务器组成的服务器集群或云计算中心，或者是一个虚拟化平台。

[0101] 可选的，在本申请实施例中，多方言语音识别模型可以部署于终端设备210上进行训练，也可以部署于服务器220上进行训练。服务器220中可存储有大量训练样本，包含目标
语言中各种方言对应的样本语音数据，用于训练多方言语音识别模型。可选的，在基于本申
请实施例中的训练方法训练得到多方言语音识别模型之后，可直接将训练好的多方言语音
识别模型部署于服务器220或终端设备210上。一般情况下都是直接将多方言语音识别模型
部署于服务器220上，在本申请实施例中，多方言语音识别模型常用于进行方言语音识别，
获取识别到的文本信息和方言类别，进而，可进一步进行后续服务，比如语音转文字服务、
语音合成服务等。

[0102] 需要说明的是，本申请实施例中的语音识别方法可以由服务器或终端设备单独执行，也可以由服务器和终端设备共同执行。本文主要是以服务器单独执行为例进行举例说
明的，一般模型训练过程由服务器220单独执行。

[0103] 需要说明的是，图2所示只是举例说明，实际上终端设备和服务器的数量不受限制，在本申请实施例中不做具体限定。

[0104] 下面结合上述描述的应用场景，参考附图来描述本申请示例性实施方式提供的语音识别方法，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，
本申请的实施方式在此方面不受任何限制。

[0105] 参阅图3所示，为本申请实施例提供的一种语音识别方法的实施流程图，下文主要是以执行主体为服务器为例进行举例说明的，该方法的具体实施流程如下：

[0106] S31：服务器获取目标语言的待识别语音数据，目标语言包含多种方言；

[0107] 其中，目标语言是指包含有多种方言的语言，该目标语言可以是数据资源较少的语言，比如一些小语种，这些小语种语言的数据获取难度较大，资源不能和汉语这类资源丰
富的语言相比，基于此，本申请实施例提出了一种可以进行多方言语音识别的方法，对目标
语言的待识别语音数据进行方言语音识别，获得该语音对应的文本信息和方言类别。

[0108] 下文主要是以目标语言为藏语为例进行举例说明的，藏语按照主要方言区可分为卫藏方言，安多方言，康巴方言。在步骤S31中获取的待识别语音数据为藏语时，该待识别语
音数据可包含至少一种藏语方言。

[0109] S32：服务器将待识别语音数据进行分帧处理后，提取待识别语音数据中各帧语音数据各自对应的语音声学特征；

[0110] 在本申请实施例中，首先需要对待识别语音数据进行分帧处理，获得各帧语音数据，进而，通过对各帧语音数据进行声学特征的提取，获取各帧语音数据各自对应的语音声
学特征，进而，基于该步骤所提取的特征做进一步的特征处理，具体参见步骤S33。

[0111] 其中，提取各帧语音数据的声学特征的过程可以同相关技术的方法相同，该步骤主要是将语音信息进行大幅度的压缩，转变为机器能更好划分的形式。

[0112] 例如，声学特征可以由语音通过频谱分帧，时频转换，滤波等操作直接生成，常用的有梅尔倒谱系数（Mel‑Frequency Cepstral Coefficients，MFCC），Filter bank，Fbank
等特征。

[0113] 在相关技术中，提取各帧语音数据对应的语音声学特征后，是直接将该特征送入解码器解码出识别结果，如图1所示。而在本申请实施例中，并非直接将各帧语音数据的语
音声学特征送入解码器解码出识别结果，而是进一步对语音声学特征进行了方言信息和声
学信息的进一步学习，具体过程参见步骤S33。

[0114] S33：服务器通过对语音声学特征进行深度特征提取，获取待识别语音数据对应的方言嵌入特征；以及，通过对语音声学特征进行编码，获得待识别语音数据对应的声学编码
特征，方言嵌入特征用于表示待识别语音数据所属方言的方言信息；

[0115] 该步骤主要分为两个子步骤，其一：对语音声学特征进行深度特征提取；其二：对语音声学特征进行编码。这两个子步骤可基于机器学习的方式实施。本申请实施例给出了
一种基于机器学习方式训练得到的多方言语音识别模型，该模型包括方言识别网络和语音
识别网络。

[0116] 一种可选实施例为，可基于本申请实施例中的多方言语音识别模型来执行步骤S33，具体地：

[0117] 基于已训练的多方言语音识别模型中的方言识别网络，对语音声学特征进行深度特征提取，获取待识别语音数据对应的方言嵌入特征，该部分网络主要用于学习待识别语
音数据的方言信息；以及，基于多方言语音识别模型中的语音识别网络，对语音声学特征进
行升维编码，获得待识别语音数据对应的声学编码特征，该部分网络主要用于学习待识别
语音数据的声学信息，在此基础上，还可进一步进行方言信息的学习，下文将会结合附图对
该多方言语音识别模型进行详细介绍。

[0118] S34：服务器基于方言嵌入特征，以及声学编码特征，对待识别语音数据进行方言语音识别，获得待识别语音数据对应的目标文本信息与目标方言类别。

[0119] 在上述实施方式中，基于本申请实施例中的语音识别方法，在对待识别语音数据进行方言语音识别时，首先提取待识别语音数据中各帧语音数据的语音声学特征，进而，再
基于各帧对应的语音声学特征，进一步进行深度学习和编码，分别获得用于表征待识别语
音数据方言信息的方言嵌入特征，以及用于表征待识别语音数据声学特征的声学编码特
征，进而，基于这些特征，对待识别语音数据进行方言语音识别，获得待识别语音数据对应
的目标文本信息与目标方言类别。由于本申请基于目标语言多方言的特性，新增了方言嵌
入特征的学习，结合方言嵌入特征和声学编码特征，利用更多的方言信息来进行方言语音
识别，在将待识别语音数据转换为文本信息的同时，也进一步输出该目标语言的待识别语
音数据所属的方言类别，高效准确地实现识别多种方言的语音识别。

[0120] 下面将以目标语言为藏语为例，对本申请实施例中的多方言语音识别模型进行详细介绍：

[0121] 相关技术中的藏语语音识别方法，通常只针对单一方言进行建模，比如卫藏方言，同时受限于发音字典的构建，多种藏语方言混合建模的识别性能相比单一方言建模的性能
有较大损失，而藏语是一种多方言的语言，卫藏方言的模型在安多方言和康巴方言地区难
以应用，为此需要搭建三套针对不同方言的藏语语音识别模型。另一方面，由于藏语三种方
言差别较大，直接对三种方言进行混合建模，会导致不同方言的识别性能下降明显。

[0122] 本申请实施例中给出的多方言语音识别模型，是基于藏语的多方言特性提出一种基于迁移学习的藏语多方言端到端模型，可用于识别不同方言的藏语语音。

[0123] 下面，首先对本申请实施例中多方言语音识别模型的方言识别网络进行详细介绍：

[0124] 目标语言为藏语时，待识别语音数据即为藏语语音数据。本申请实施例中采用方言识别网络提取藏语方言的embedding（即方言嵌入特征）。

[0125] 可选的，本申请实施例中的方言识别网络可以是时延神经网络。在基于时延神经网络提取方言embedding时，和传统高斯混合模型（Gaussian Mixed Model，GMM）等基于统
计的方法相比，时延神经网络可以更有效地学习数据中的信息。

[0126] 在一种可选的实施方式中，本申请的藏语方言embedding提取结构主要由三个模块组成，也即本申请实施例中的方言识别网络包括三个子网络，分别为：深度特征提取子网
络，时序池化子网络和方言分类子网络。

[0127] 参阅图4所示，在基于上述介绍的方言识别网络，对语音声学特征进行深度特征提取时，具体包括以下步骤：

[0128] S41：服务器分别将各帧语音数据的语音声学特征输入深度特征提取子网络，获取各帧语音数据各自对应的帧级别深度特征；

[0129] 在本申请实施例中，深度特征提取子网络用于提取帧级别语音声学特征中更深层的信息，从而得到帧级别深度特征。

[0130] 其中，本申请实施例中使用40维MFCC特征进行方言语音识别网络的训练，和语音识别网络共享相同的特征，达到节约资源的目的。

[0131] 例如，某一待识别语音数据一共包含1000帧音频帧，即1000帧语音数据，首先，通过频谱分帧，时频转换，滤波等操作直接生成这1000帧语音数据各自对应的语音声学特征
a，该特征为40维的MFCC特征；进而，基于方言识别网络的深度特征提取子网络，对输入的
MFCC特征进行深度学习，获得各帧语音数据各自对应的帧级别深度特征b，例如该特征为
512维，则该步骤共获得100个512维的帧级别深度特征b。

[0132] S42：服务器通过时序池化子网络对时序相关的各个帧级别深度特征进行整合，获得待识别语音数据对应的固定维度的句级别特征向量；

[0133] 在本申请实施例中，由于语音信号通常是不定长的，需要进一步通过时序池化子网络对时序相关的帧级别深度特征进行整合，统计，最终输出一个固定维度的句级别特征
向量。

[0134] 其中，时序池化子网络中池化层的选择，主要有全局平均池化，最大值池化，最小值池化等，在此不做具体限定。

[0135] 仍以上述1000帧语音数据为例，该过程即将1000个512维的帧级别深度特征b整合为1个512维的句级别特征向量c。具体整合时，可将这1000个512维的帧级别深度特征b中，
同一维度的特征值进行平均，获得句级别特征向量c中该维度的向量值。

[0136] 比如，这1000个512维的帧级别深度特征b可分别表示为：b1~b1000。对于句级别特征向量c而言，该向量中的第一个维度的向量值即为b1~b1000中第一个维度特征值的平均值，该
向量中的第二个维度的向量值即为b1~b1000中第二个维度特征值的平均值，…，依此类推，即
可获得将b1~b1000整合后的512维的句级别特征向量c。

[0137] S43：服务器将句级别特征向量进行降维处理，得到方言嵌入特征。

[0138] 在本申请实施例中所使用的方言分类子网络的网络结构分类识别器为全连接层分类器，通过两层全连接网络，将输入的固定维度的句级别特征向量映射为目标识别三种
藏语方言，在经过最后激活函数之后，能够输出对应方言的后验概率，基于概率值的大小即
可确定语音数据对应的方言类别。

[0139] 在本申请实施例中，使用藏语语音数据训练藏语方言识别网络时，可将所有藏语训练数据通过方言识别网络中的倒数第二层，提取出一个维度固定的方言embedding，即句
级别特征向量，通常这个embedding维度较高，需要使用LDA等方法进行降维，增强
embedding的区分性。该embedding包含方言相关的信息，能帮助语音识别模型更好的建模
带方言的语音。

[0140] 接下来，对本申请实施例中多方言语音识别模型的语音识别网络进行详细介绍：

[0141] 本申请实施例中的多方言语音识别模型，是一种基于强耦合方言识别的藏语多方言语音识别系统。在传统语音识别框架下，对于每一种语言都需要构建其对应的发音字典，
发音字典包含了词到发音序列的映射关系，是声学模型和语言模型之间的桥梁，发音字典
通常需要大量专业人工标注，耗费大量资源，在藏语这样的低资源小语种中较难构建，且藏
语拥有三个主要方言，更加大了获取难度。而端到端语音识别系统通常直接对语音到字符
进行联合建模，将传统语音识别框架下的声学模型、语言模型和发音字典进行联合训练，省
去了复杂的发音字典构建工作，本申请使用基于序列到序列的Conformer端到端语音识别
网络。

[0142] 参阅图5所示，其为本申请实施例中提出的一种序列到序列端到端网络结构。该网络包括两个主要模块：1）编码（Encoder）模块，该模块负责将各帧语音数据的语音声学特征
组成的序列，编码成更高维度的特征（即升维编码得到声学编码特征），以对声学信息建模；
2）解码（Decoder）模块，该模块负责将Encoder的输出解码成对应的文本，对语言信息建模。
同时为了提升模型的语音识别性能，还进一步采用多任务学习的方法添加CTC语音识别分
支，以辅助模型训练。

[0143] 在本申请实施例中，由于端到端模型可以直接对字符进行建模，只需要构建建模单元对应的字典即可，藏文是一种拼音文字，但没有空格进行词与词之间的分割，而是通过
音节符对藏字进行分割，因而，本申请实施例中可以以藏字为建模单元，通过音节符分割的
方式在训练集文本中统计出对应的藏字字典。

[0144] 另外，考虑到藏语三种方言之间发音差别较大，混合三种方言数据训练的模型往往在单一方言上达不到最好的性能，还需使用单种方言的数据在混合方言模型上进行微
调，但这种方式通常会影响其他两种方言的识别性能，本申请实施例中，在图5所示的基础
上，在模型的输出层添加方言的建模单元，并强制模型在语音识别结束后输出一个方言标
签，使得模型在语音识别的训练中能够同时学习到一定的藏语方言区分信息，帮助模型同
时提升三种藏语方言的语音识别性能，具体结构如图6所示，其为本申请实施例中的一种基
于强耦合的多任务学习端到端模型结构的示意图。

[0145] 其中，图6所示的结构，与图5相比，除了输出对藏语语音数据进行方言语音识别所多得到的文本信息之外，还进一步输出了该藏语语音数据对应的方言标签，也称方言类别。

[0146] 在本申请实施例中，通过这种方言识别和语音识别强耦合的方式进行建模，需要先对训练集文本进行修改，即在每一条训练集文本的末尾标注对应的方言标签，例如：
[bou]（[bou]代表卫藏方言）。同时由于模型在进行方言
语音识别的同时可以判断句子的方言，该方言识别结果也可以提供给后续服务使用，例如
通过识别出的方言调用不同方言的语音合成系统。

[0147] 另外，为了在训练过程中利用更多的方言信息，本申请将上述过程中提取的方言embedding同时送入该网络中进行训练，从而进一步提升模型在三种方言上的语音识别性
能，具体操作为：将每一条方言的embedding通过一个前馈神经网络后和Encoder模块的输
出进行组合拼接，具体示例如图7所示，其为本申请实施例中的一种添加方言embedding后
的模型结构的示意图。

[0148] 也即，在执行步骤S34时，一种可选的实施方式为：

[0149] 首先，经由多方言语音识别模型中的前馈神经网络，对方言嵌入特征embedding进行高维特征提取，获得待识别语音数据对应的方言深度特征；进而，将方言深度特征输入语
音识别网络，基于语音识别网络将方言深度特征与声学编码特征进行组合拼接，获得待识
别语音数据对应的拼接特征；之后，基于拼接特征进行预测，获得待识别语音数据对应的目
标文本信息，以及目标方言类别。其中，前馈神经网络主要用于将embedding抽象成更高维
度的特征。

[0150] 在本申请实施例中，通过在序列到序列的端到端模型的输出层添加一个建模单元用于方言的建模，加入上述提取的方言embedding，通过一个前馈神经网络后和Encoder的
输出进行组合拼接，可以利用更多的方言信息，同时支持方言识别。

[0151] 可选的，语音识别网络又包括两个分支，分别为：主干分类子网络和辅助分类子网络；如图7所示，其中Decoder部分作为主干分类子网络，CTC部分作为辅助分类子网络。

[0152] 在基于这两个分支进行识别时，具体可分为以下两种方式：

[0153] 方式一：将拼接特征分别输入主干分类子网络和辅助分类子网络进行解码，获得主干分类子网络和辅助分类子网络各自输出的候选结果，每个候选结果包括针对待识别语
音数据的候选文本信息和候选方言类别；进而，从多个候选结果中选择一个，并将所选候选
结果所包含的候选文本信息和候选方言类别，分别作为待识别语音数据对应的目标文本信
息和目标方言类别。

[0154] 方式二：将拼接特征输入辅助分类子网络进行解码，获得辅助分类子网络输出的多个候选结果；进而，分别将各个候选结果输入主干分类子网络进行解码，获得待识别语音
数据对应的目标文本信息和目标方言类别。

[0155] 其中，基于主干分类子网络进行解码，获得最终结果时，实际上是指：分别将各个候选结果输入主干分类子网络进行解码，获得各个候选结果的评估值；进而基于各个评估
值，从多个候选结果中选择一个，并将所选候选结果所包含的候选文本信息和候选方言类
别，分别作为待识别语音数据对应的目标文本信息和目标方言类别。

[0156] 也即，该方式下，可以先用CTC分支解码出多个候选结果，再送到Decoder中进行重打分，结合二者的最后得分输出一个最优的序列作为最终结果。

[0157] 除了上述所列举的两种方式外，也可任选一个分支使用，例如只用decoder分支获取候选结果，将所选分支输出的候选结果所包含的候选文本信息和候选方言类别，分别作
为待识别语音数据对应的目标文本信息和目标方言类别。

[0158] 需要说明的是，本申请所列举的几种分支之间结合或单独使用的方式都只是举例说明，在实际应用过程中可灵活设置。CTC分支的设置，是为了在训练的时候，帮助模型训练
的更好，以获得更加准确的识别结果。

[0159] 下面对本申请实施例中多方言语音识别模型的训练过程进行详细介绍：

[0160] 可选的，多方言语音识别模型是通过下列方式训练得到的：

[0161] 首先获取目标语言包含的多种方言各自对应的训练样本所组成的训练样本数据集，进而根据训练样本数据集中的训练样本，对多方言语音识别模型执行循环迭代训练，在
训练完毕时，输出训练完毕的多方言语音识别模型；其中，在一次循环迭代训练过程中执行
以下操作，参阅图8所示：

[0162] S81：服务器从训练样本数据集中选取训练样本，将选取的训练样本输入多方言语音识别模型，获取多方言语音识别模型输出的预测方言类别和预测文本信息；

[0163] 可选的，本申请实施例中的语音识别网络可以包括：主干分类子网络和辅助分类子网络；因而，步骤S81具体包括以下两个子步骤：

[0164] S811：服务器获取方言识别网络输出的第一预测方言类别；

[0165] S812：服务器获取主干分类子网络和辅助分类子网络各自输出的第二预测方言类别和预测文本信息。

[0166] 需要说明的是，上述步骤S811和步骤S812之间不做时序上的限定，可同步执行，也可不同步执行。

[0167] 在获取各预测方言类型和预测文本信息之后，即可执行步骤S82：

[0168] S82：服务器基于预测方言类别与预测文本信息与真实文本信息，对多方言语音识别模型进行参数调整。

[0169] 可选的，每个训练样本都包括一个样本语音数据，以及样本语音数据对应的真实方言类别和真实文本信息；在上述基础上，步骤S82具体包括以下两个子步骤：

[0170] S821：服务器基于训练样本中的样本语音数据的真实方言类别与第一预测方言类别之间的差异，对方言识别网络进行参数调整；

[0171] 该步骤中，基于真实方言类别与第一预测方言类别之间的差异，构建的损失函数可以为交叉熵等适合多分类的函数，在此不做具体限定。

[0172] S822：服务器基于真实方言类别与各个第二预测方言类别之间的差异，以及训练样本中的样本语音数据的真实文本信息与各个预测文本信息之间的差异，对语音识别网络
进行参数调整。

[0173] 在该步骤中，考虑到实际包含两个分支，因而，需要结合两个分支各自输出的结果来构建损失函数。

[0174] 一种可选的实施方式为，可以按照如图9所示的流程图实施S822，包括以下步骤：

[0175] S91：服务器基于主干分类子网络输出的第二预测方言类别与真实方言类别之间的差异，以及预测文本信息与真实文本信息之间的差异，确定主干分类子网络对应的第一
损失函数；

[0176] S92：服务器基于辅助分类分支网络输出的第二预测方言类别与真实方言类别之间的差异，以及预测文本信息与真实文本信息之间的差异，确定辅助分类子网络对应的第
二损失函数；

[0177] S93：服务器基于第一损失函数与第二损失函数，对语音识别网络进行参数调整。

[0178] 具体地，基于第一损失函数与第二损失函数可构建目标损失函数，如下所示：

[0179]

[0180] 其中，为输入声学序列，为字符组成的输出序列，为基于attention的损失（loss）函数，和decoder主分支相关，也即第一损失函数，为CTC loss函数，
和CTC辅助分支相关，也即第二损失函数，用于控制两者的贡献，可根据经验设置，在此不
做具体限定。

[0181] 另外还需要说明的是，本申请实施例中的多方言语音识别模型还可以是基于迁移学习的藏语多方言语音识别系统。具体地，语音识别网络的初始网络参数是基于标准语音
识别模型进行参数迁移得到的，标准语音识别模型是基于样本标准语音数据进行训练得到
的，参阅图10所示，其为本申请实施例中的一种基于迁移学习的藏语多方言语音识别模型
结构示意图。

[0182] 其中，标准语音可以指汉语，标准语音识别模型即汉语识别模型。通过使用大量数据训练的汉语模型对藏语模型进行迁移学习，可以有效提升模型在多方言情况下的语音识
别性能。

[0183] 具体地，由于藏语属于小语种，数据获取难度较大，资源不能和汉语这类资源丰富的语言相比，本申请在添加方言识别网络和添加方言的建模单元的藏语多方言语音识别模
型的基础上，通过迁移学习中的权重迁移方法将大量数据训练的汉语模型权重迁移到藏语
模型中，替换语音识别网络中，图10所示的虚线部分，并随机初始化虚线部分外输出层和
embedding相关的前馈神经网络参数，减少训练学习率，进而再使用藏语数据进行训练，从
而达到利用汉语这类资源丰富语言的目的。

[0184] 下面以用户A、用户B和用户C进行语音聊天为例，当用户A和用户B采用不同方言的藏语时，向用户C各自发送了一条语音消息时，即可基于上述所列举的方法来识别该语音消
息，将该语音消息转换为文本信息，并标记所属方言类别，进而，还可进一步进行翻译等。

[0185] 具体过程为：首先，分别通过对两条语音消息进行分帧处理，获得多帧语音数据时；进而，通过频谱分帧，时频转换，滤波等操作，直接生成语音消息所包含的各帧语音数据
各自对应的语音声学特征；进而，基于图7所示的模型，分别对语音声学特征进行深度特征
提取和升维编码处理，获得语音消息对应的方言嵌入特征，以及声学编码特征。

[0186] 进一步地，将获得的声学编码特征经由前馈神经网络FNN，进行高维特征提取，获得对应的方言深度特征；进而，将方言深度特征和声学编码特征进行组合拼接，分别经过主
干分类子网络和辅助分类子网络进行识别，获得最终的识别结果，即目标文本信息与目标
方言类别，具体地特征提取过程可参见上述实施例，重复之处不再赘述。

[0187] 例如，用户A实际上向用户C发送的该条语音消息对应的汉语文本为：张三你好，我叫李四，想问一下你最近是否参加了某项活动，识别到的目标文本信息为：
，目标方言类别为：康巴。用户B
实际上向用户C发送的该条语音消息对应的汉语文本为：今天的天气很晴朗，要不要一起出
去郊游，识别到的目标文本信息为：，
目标方言类别为：卫藏。

[0188] 在用户C查看该两条语音消息时，可基于上述方法，获得相应的目标文本信息与目标方言类别，在此基础上，进一步转换为汉语或其他语言等，并分别向用户A、用户B进行答
复，实现无障碍沟通。

[0189] 需要说明的是，上述所列举的应用场景只是举例说明，实际上，任何目标语言的语音识别相关的应用场景，都可采用本申请实施例中的方法来执行，在此不做具体限定。

[0190] 另外需要说明的是，本申请所提的方法可用于任何多方言的语音识别序列到序列端到端模型训练中，该方法无需人工标注藏语发音字典，通过提取方言embedding，可以提
供给语音识别模型额外的方言信息，提升模型在多方言上的语音识别性能。并且，通过强耦
合方言识别的方法，在输出层添加方言建模单元，强制模型输出方言标签，使得语音识别模
型对方言具有一定区分性。最后使用汉语模型进行迁移学习，达到利用其他资源丰富语言
知识的目的，进一步提升模型在多方言上的语音识别性能，同时该模型能够输出方言标签
进行方言语音识别，从而可以在进行方言语音识别的同时提供方言结果给后续服务，例如
语音合成等服务。

[0191] 基于相同的发明构思，本申请实施例还提供一种语音识别装置。如图11所示，其为本申请实施例中的一种语音识别装置1100的结构示意图，可以包括：

[0192] 语音获取单元1101，用于获取目标语言的待识别语音数据，目标语言包含多种方言；

[0193] 第一提取单元1102，用于将待识别语音数据进行分帧处理后，提取待识别语音数据中各帧语音数据各自对应的语音声学特征；

[0194] 第二提取单元1103，用于通过对语音声学特征进行深度特征提取，获取待识别语音数据对应的方言嵌入特征；以及，通过对语音声学特征进行编码，获得待识别语音数据对
应的声学编码特征，方言嵌入特征用于表示待识别语音数据所属方言的方言信息；

[0195] 语音识别单元1104，用于基于方言嵌入特征，以及声学编码特征，对待识别语音数据进行方言语音识别，获得待识别语音数据对应的目标文本信息与目标方言类别。

[0196] 可选的，第二提取单元1103具体用于：

[0197] 基于已训练的多方言语音识别模型中的方言识别网络，对语音声学特征进行深度特征提取，获取待识别语音数据对应的方言嵌入特征；

[0198] 通过对语音声学特征进行升维编码，获得待识别语音数据对应的声学编码特征，包括：

[0199] 基于多方言语音识别模型中的语音识别网络，对语音声学特征进行升维编码，获得待识别语音数据对应的声学编码特征。

[0200] 可选的，语音识别单元1104具体用于：

[0201] 经由多方言语音识别模型中的前馈神经网络，对方言嵌入特征进行高维特征提取，获得待识别语音数据对应的方言深度特征；

[0202] 将方言深度特征输入语音识别网络，基于语音识别网络将方言深度特征与声学编码特征进行组合拼接，获得待识别语音数据对应的拼接特征；

[0203] 基于拼接特征进行预测，获得待识别语音数据对应的目标文本信息，以及目标方言类别。

[0204] 可选的，语音识别网络包括主干分类子网络和辅助分类子网络；语音识别单元1104具体用于：

[0205] 将拼接特征分别输入主干分类子网络和辅助分类子网络进行解码，获得主干分类子网络和辅助分类子网络各自输出的候选结果，每个候选结果包括针对待识别语音数据的
候选文本信息和候选方言类别；

[0206] 从多个候选结果中选择一个，并将所选候选结果所包含的候选文本信息和候选方言类别，分别作为待识别语音数据对应的目标文本信息和目标方言类别。

[0207] 可选的，语音识别网络包括主干分类子网络和辅助分类子网络；语音识别单元1104具体用于：

[0208] 将拼接特征输入辅助分类子网络进行解码，获得辅助分类子网络输出的多个候选结果，每个候选结果包括针对待识别语音数据的候选文本信息和候选方言类别；

[0209] 分别将各个候选结果输入主干分类子网络进行解码，获得待识别语音数据对应的目标文本信息和目标方言类别。

[0210] 可选的，语音识别单元1104具体用于：

[0211] 分别将各个候选结果输入主干分类子网络进行解码，获得各个候选结果的评估值；

[0212] 基于各个评估值，从多个候选结果中选择一个，并将所选候选结果所包含的候选文本信息和候选方言类别，分别作为待识别语音数据对应的目标文本信息和目标方言类
别。

[0213] 可选的，方言识别网络包括深度特征提取子网络，时序池化子网络和方言分类子网络；第二提取单元1103具体用于：

[0214] 分别将各帧语音数据的语音声学特征输入深度特征提取子网络，获取各帧语音数据各自对应的帧级别深度特征；

[0215] 通过时序池化子网络对时序相关的各个帧级别深度特征进行整合，获得待识别语音数据对应的固定维度的句级别特征向量；

[0216] 基于方言分类子网络，将句级别特征向量进行降维处理，得到方言嵌入特征。

[0217] 可选的，装置还包括：

[0218] 模型训练单元1105，用于通过下列方式训练得到多方言语音识别模型：

[0219] 根据训练样本数据集中的训练样本，对多方言语音识别模型执行循环迭代训练，在训练完毕时，输出训练完毕的多方言语音识别模型，训练样本数据集包括目标语言包含
的多种方言各自对应的训练样本；其中，在一次循环迭代训练过程中执行以下操作：

[0220] 从训练样本数据集中选取训练样本，将选取的训练样本输入多方言语音识别模型，获取多方言语音识别模型输出的预测方言类别和预测文本信息；

[0221] 基于预测方言类别与预测文本信息与真实文本信息，对多方言语音识别模型进行参数调整。

[0222] 可选的，语音识别网络包括主干分类子网络和辅助分类子网络；模型训练单元1105具体用于：

[0223] 获取方言识别网络输出的第一预测方言类别；以及

[0224] 获取主干分类子网络和辅助分类子网络各自输出的第二预测方言类别和预测文本信息。

[0225] 可选的，每个训练样本包括一个样本语音数据，以及样本语音数据对应的真实方言类别和真实文本信息；

[0226] 模型训练单元1105具体用于：

[0227] 基于训练样本中的样本语音数据的真实方言类别与第一预测方言类别之间的差异，对方言识别网络进行参数调整；以及

[0228] 基于真实方言类别与各个第二预测方言类别之间的差异，以及训练样本中的样本语音数据的真实文本信息与各个预测文本信息之间的差异，对语音识别网络进行参数调
整。

[0229] 可选的，模型训练单元1105具体用于：

[0230] 基于主干分类子网络输出的第二预测方言类别与真实方言类别之间的差异，以及预测文本信息与真实文本信息之间的差异，确定主干分类子网络对应的第一损失函数；以
及

[0231] 基于辅助分类子网络输出的第二预测方言类别与真实方言类别之间的差异，以及预测文本信息与真实文本信息之间的差异，确定辅助分类子网络对应的第二损失函数；

[0232] 基于第一损失函数与第二损失函数，对语音识别网络进行参数调整。

[0233] 可选的，语音识别网络的初始网络参数是基于标准语音识别模型进行参数迁移得到的，标准语音识别模型是基于样本标准语音数据进行训练得到的。

[0234] 为了描述的方便，以上各部分按照功能划分为各模块（或单元）分别描述。当然，在实施本申请时可以把各模块（或单元）的功能在同一个或多个软件或硬件中实现。

[0235] 在介绍了本申请示例性实施方式的语音识别方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的用于语音识别装置。

[0236] 所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完
全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统
称为“电路”、“模块”或“系统”。

[0237] 在一些可能的实施方式中，根据本申请的语音识别装置可以至少包括处理器和存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述
处理器执行本说明书中描述的根据本申请各种示例性实施方式的语音识别方法中的步骤。
例如，所述处理器可以执行如图3中所示的步骤。

[0238] 与上述方法实施例基于同一发明构思，本申请实施例中还提供了一种电子设备。在一种实施例中，该电子设备可以是服务器，如图2所示的服务器220。在该实施例中，电子
设备的结构可以如图12所示，包括存储器1201，通讯模块1203以及一个或多个处理器1202。

[0239] 存储器1201，用于存储处理器1202执行的计算机程序。存储器1201可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及运行即时通讯功能所需的
程序等；存储数据区可存储各种即时通讯信息和操作指令集等。

[0240] 存储器1201可以是易失性存储器（volatile memory），例如随机存取存储器（random‑access memory，RAM）；存储器1201也可以是非易失性存储器（non‑volatile
memory），例如只读存储器，快闪存储器（flash memory），硬盘（hard disk drive，HDD）或固
态硬盘（solid‑state drive，SSD）；或者存储器1201是能够用于携带或存储具有指令或数
据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器
1201可以是上述存储器的组合。

[0241] 处理器1202，可以包括一个或多个中央处理单元（central processing unit， CPU）或者为数字处理单元等等。处理器1202，用于调用存储器1201中存储的计算机程序时
实现上述语音识别方法。

[0242] 通讯模块1203用于与终端设备和其他服务器进行通信。

[0243] 本申请实施例中不限定上述存储器1201、通讯模块1203和处理器1202之间的具体连接介质。本申请实施例在图12中以存储器1201和处理器1202之间通过总线1204连接，总
线1204在图12中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为
限。总线1204可以分为地址总线、数据总线、控制总线等。为便于描述，图12中仅用一条粗线
描述，但并不描述仅有一根总线或一种类型的总线。

[0244] 存储器1201中存储有计算机存储介质，计算机存储介质中存储有计算机可执行指令，计算机可执行指令用于实现本申请实施例的语音识别方法。处理器1202用于执行上述
的语音识别方法，如图3所示。

[0245] 在另一种实施例中，电子设备也可以是其他电子设备，如图2所示的终端设备210。在该实施例中，电子设备的结构可以如图13所示，包括：通信组件1310、存储器1320、显示单
元1330、摄像头1340、传感器1350、音频电路1360、蓝牙模块1370、处理器1380等部件。

[0246] 通信组件1310用于与服务器进行通信。在一些实施例中，可以包括电路无线保真（Wireless Fidelity，WiFi）模块，WiFi模块属于短距离无线传输技术，电子设备通过WiFi
模块可以帮助用户收发信息。

[0247] 存储器1320可用于存储软件程序及数据。处理器1380通过运行存储在存储器1320的软件程序或数据，从而执行终端设备210的各种功能以及数据处理。存储器1320可以包括
高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器
件、或其他易失性固态存储器件。存储器1320存储有使得终端设备210能运行的操作系统。
本申请中存储器1320可以存储操作系统及各种应用程序，还可以存储执行本申请实施例语
音识别方法的代码。

[0248] 显示单元1330还可用于显示由用户输入的信息或提供给用户的信息以及终端设备210的各种菜单的图形用户界面（graphical user interface，GUI）。具体地，显示单元
1330可以包括设置在终端设备210正面的显示屏1332。其中，显示屏1332可以采用液晶显示
器、发光二极管等形式来配置。显示单元1330可以用于显示本申请实施例中的客户端操作
界面等。

[0249] 显示单元1330还可用于接收输入的数字或字符信息，产生与终端设备210的用户设置以及功能控制有关的信号输入，具体地，显示单元1330可以包括设置在终端设备210正
面的触摸屏1331，可收集用户在其上或附近的触摸操作，例如点击按钮，拖动滚动框等。

[0250] 其中，触摸屏1331可以覆盖在显示屏1332之上，也可以将触摸屏1331与显示屏1332集成而实现终端设备210的输入和输出功能，集成后可以简称触摸显示屏。本申请中显
示单元1330可以显示应用程序以及对应的操作步骤。

[0251] 摄像头1340可用于捕获静态图像，用户可以将摄像头1340拍摄的图像通过应用发布评论。摄像头1340可以是一个，也可以是多个。物体通过镜头生成光学图像投射到感光元
件。感光元件可以是电荷耦合器件（charge coupled device，CCD）或互补金属氧化物半导
体（complementary metal‑oxide‑semiconductor，CMOS）光电晶体管。感光元件把光信号转
换成电信号，之后将电信号传递给处理器1380转换成数字图像信号。

[0252] 终端设备还可以包括至少一种传感器1350，比如加速度传感器1351、距离传感器1352、指纹传感器1353、温度传感器1354。终端设备还可配置有陀螺仪、气压计、湿度计、温
度计、红外线传感器、光传感器、运动传感器等其他传感器。

[0253] 音频电路1360、扬声器1361、传声器1362可提供用户与终端设备210之间的音频接口。音频电路1360可将接收到的语音数据转换后的电信号，传输到扬声器1361，由扬声器
1361转换为声音信号输出。终端设备210还可配置音量按钮，用于调节声音信号的音量。另
一方面，传声器1362将收集的声音信号转换为电信号，由音频电路1360接收后转换为语音
数据，再将语音数据输出至通信组件1310以发送给比如另一终端设备210，或者将语音数据
输出至存储器1320以便进一步处理。

[0254] 蓝牙模块1370用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如，终端设备可以通过蓝牙模块1370与同样具备蓝牙模块的可穿戴电子设备（例如智
能手表）建立蓝牙连接，从而进行数据交互。

[0255] 处理器1380是终端设备的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器1320内的软件程序，以及调用存储在存储器1320内的数
据，执行终端设备的各种功能和处理数据。在一些实施例中，处理器1380可包括一个或多个
处理单元；处理器1380还可以集成应用处理器和基带处理器，其中，应用处理器主要处理操
作系统、用户界面和应用程序等，基带处理器主要处理无线通信。可以理解的是，上述基带
处理器也可以不集成到处理器1380中。本申请中处理器1380可以运行操作系统、应用程序、
用户界面显示及触控响应，以及本申请实施例的语音识别方法。另外，处理器1380与显示单
元1330耦接。

[0256] 在一些可能的实施方式中，本申请提供的语音识别方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于
使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的语音识别方法
中的步骤，例如，计算机设备可以执行如图3中所示的步骤。

[0257] 程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导
体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列
表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储
器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD‑
ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

[0258] 本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器（CD‑ROM）并包括程序代码，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可
读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或
者器件使用或者与其结合使用。

[0259] 可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号
或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该
可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合
使用的程序。

[0260] 可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

[0261] 可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程
式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算
装置上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算装置
上部分在远程计算装置上执行、或者完全在远程计算装置或服务器上执行。在涉及远程计
算装置的情形中，远程计算装置可以通过任意种类的网络包括局域网（LAN）或广域网（WAN）
连接到用户计算装置，或者，可以连接到外部计算装置（例如利用因特网服务提供商来通过
因特网连接）。

[0262] 应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多
单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可
以进一步划分为由多个单元来具体化。

[0263] 此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的
结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个
步骤分解为多个步骤执行。

[0264] 本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质（包括但不限于磁盘存储器、CD‑ROM、光学存储器等）上实施的计算机程序产
品的形式。

[0265] 本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序命令实现流程图和／或方框图中的每一流
程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序
命令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的命令产生用于实
现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

[0266] 这些计算机程序命令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的命令产生包括命
令装置的制造品，该命令装置实现在流程图一个流程或多个流程和／或方框图一个方框或
多个方框中指定的功能。

[0267] 这些计算机程序命令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或
其他可编程设备上执行的命令提供用于实现在流程图一个流程或多个流程和／或方框图一
个方框或多个方框中指定的功能的步骤。

[0268] 尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优
选实施例以及落入本申请范围的所有变更和修改。

[0269] 显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围
之内，则本申请也意图包含这些改动和变型在内。

一种语音识别方法、装置、电子设备和存储介质转让专利

申请号 : CN202111352684.8

文献号 : CN113823262B

文献日 : 2022-02-11

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 颜京豪

申请人 : 腾讯科技(深圳)有限公司

摘要 :

权利要求 :

说明书 :