语义预测网络的训练方法、装置、设备以及存储介质转让专利

申请号 : CN202011104612.7

文献号 : CN112233664B

文献日 : 2021-11-09

本公开实施例公开了语义预测网络的训练方法、装置、设备以及存储介质，涉及深度学习和语音分析等人工智能技术领域。其中，语义预测网络包括：编码器网络和至少一个解码器网络，编码器网络包括卷积层和长短期记忆网络层；至少一个解码器网络的每一个解码器网络对应一个域，域与场景指令中的槽位相对应；具体方案为：获取目标语音样本的第一语音特征；其中，目标语音样本为合成语音样本或真实语音样本，合成语音样本附有样本音节标签和包括域的值的语义标签，真实语义样本附有样本音节标签；采用目标语音样本的第一语音特征对初始的语义预测网络和音节分类网络进行联合训练，得到已训练的语义预测网络。

1.一种语义预测网络的训练方法，其中，初始的语义预测网络包括：编码器网络和至少一个解码器网络，所述编码器网络包括卷积层和长短期记忆网络层；所述至少一个解码器网络的每一个解码器网络对应一个域，所述域与场景指令中的槽位相对应；所述方法包括：获取目标语音样本的第一语音特征；其中，所述目标语音样本为合成语音样本或真实语音样本，所述合成语音样本附有样本音节标签和包括所述域的值的语义标签，所述真实语义样本附有样本音节标签，所述样本音节标签用于标记合成语音样本的文本表达和句式的关键词中的各个音；

将所述第一语音特征输入所述卷积层，将所述卷积层的输出特征输入至所述长短期记忆网络层，将所述长短期记忆网络层输出的第一中间特征输入所述至少一个解码器网络中的每一个解码器网络，将与所述第一语音特征对应的语义标签作为所述至少一个解码器网络的输出，将所述第一中间特征作为音节分类网络的输入，将与所述第一语音特征对应的样本音节标签作为音节分类网络的输出，联合训练所述初始的语义预测网络和所述音节分类网络，得到已训练的语义预测网络，所述音节分类网络包括全连接层和softmax层。

2.根据权利要求1所述的方法，其中，所述初始的语义预测网络基于以下步骤确定：将所述合成语音样本作为原始的语义预测网络的输入，将与所述合成语音样本对应的语义标签作为所述原始的语义预测网络的输出，训练所述原始的语义预测网络，得到所述初始的语义预测网络。

3.根据权利要求1或2所述的方法，其中，所述初始的语义预测网络还包括：多通道语音增强网络；

所述获取目标语音样本的第一语音特征包括：将所述目标语音样本输入多通道语音增强网络，得到多通道语音增强网络输出的目标语音样本的第一语音特征。

4.根据权利要求1或2所述的方法，其中，所述编码器网络为预训练的编码器网络；

所述预训练的编码器网络基于以下步骤预先训练得到：获取真实语音样本的第二语音特征；

对所述第二语音特征执行以下训练步骤：将所述第二语音特征输入初始的编码器网络，得到所述初始的编码器网络输出的第二中间特征；将所述第二中间特征输入至音节分类网络，得到所述音节分类网络输出的预测音节标签；响应于所述预测音节标签与所述样本音节标签之间的差值不符合预设的截止条件，调整所述初始的编码器网络的参数，并跳转至执行所述训练步骤直至所述差值满足所述预设的截止条件，得到所述预训练的编码器网络。

5.根据权利要求1所述的方法，其中，所述每一个解码器网络包括：依次串联的注意力机制层、全连接层和softmax层。

6.根据权利要求1所述的方法，其中，所述合成语音样本基于以下步骤确定：获取针对目标场景的文本表达和句式；

对所述针对目标场景的文本表达和句式进行语音合成，得到针对目标场景的语音信号；

基于所述针对目标场景的文本表达和句式的关键词，确定所述针对目标场景的语音信号的样本音节标签和包括域的值的语义标签；

将附加所述针对目标场景的语音信号的样本音节标签和包括域的值的语义标签的所述针对目标场景的语音信号，作为所述合成语音样本。

7.一种语义识别方法，所述方法包括：获取待识别语音信号；

将所述待识别语音信号输入采用如权利要求1‑6任意一项所述的方法训练的已训练的语义预测网络，得到所述待识别语音信号的语义标签。

8.一种语义预测网络的训练装置，其中，初始的语义预测网络包括：编码器网络和至少一个解码器网络，所述编码器网络包括卷积层和长短期记忆网络层；所述至少一个解码器网络的每一个解码器网络对应一个域，所述域与场景指令中的槽位相对应；所述装置包括：样本获取模块，被配置为获取目标语音样本的第一语音特征；其中，所述目标语音样本为合成语音样本或真实语音样本，所述合成语音样本附有样本音节标签和包括所述域的值的语义标签，所述真实语义样本附有样本音节标签，所述样本音节标签用于标记合成语音样本的文本表达和句式的关键词中的各个音；

联合训练模块，被配置为将所述第一语音特征输入所述卷积层，将所述卷积层的输出特征输入至所述长短期记忆网络层，将所述长短期记忆网络层输出的第一中间特征输入所述至少一个解码器网络中的每一个解码器网络，将与所述第一语音特征对应的语义标签作为所述至少一个解码器网络的输出，将所述第一中间特征作为音节分类网络的输入，将与所述第一语音特征对应的样本音节标签作为音节分类网络的输出，联合训练所述初始的语义预测网络和所述音节分类网络，得到已训练的语义预测网络，所述音节分类网络包括全连接层和softmax层。

9.根据权利要求8所述的装置，所述装置还包括：语义训练模块，被配置为将所述合成语音样本作为原始的语义预测网络的输入，将与所述合成语音样本对应的语义标签作为所述原始的语义预测网络的输出，训练所述原始的语义预测网络，得到所述初始的语义预测网络。

10.根据权利要求8或9所述的装置，其中，所述初始的语义预测网络还包括：多通道语音增强网络；

所述样本获取模块，进一步被配置为：将所述目标语音样本输入多通道语音增强网络，得到多通道语音增强网络输出的目标语音样本的第一语音特征。

11.根据权利要求8或9所述的装置，其中，所述编码器网络为预训练的编码器网络；所述装置还包括：

特征获取模块，被配置为获取真实语音样本的第二语音特征；

预训练模块，被配置为对所述第二语音特征执行以下训练步骤：将所述第二语音特征输入初始的编码器网络，得到所述初始的编码器网络输出的第二中间特征；将所述第二中间特征输入至音节分类网络，得到所述音节分类网络输出的预测音节标签；响应于所述预测音节标签与所述样本音节标签之间的差值不符合预设的截止条件，调整所述初始的编码器网络的参数，并跳转至执行所述训练步骤直至所述差值满足所述预设的截止条件，得到所述预训练的编码器网络。

12.根据权利要求8所述的装置，其中，所述每一个解码器网络包括：依次串联的注意力机制层、全连接层和softmax层。

13.根据权利要求8所述的装置，所述装置还包括：文本获取模块，被配置为获取针对目标场景的文本表达和句式；

合成语音模块，被配置为对所述针对目标场景的文本表达和句式进行语音合成，得到针对目标场景的语音信号；

标签确定模块，被配置为基于所述针对目标场景的文本表达和句式的关键词，确定所述针对目标场景的语音信号的样本音节标签和包括域的值的语义标签；

语音作为模块，被配置为将附加所述针对目标场景的语音信号的样本音节标签和包括域的值的语义标签的所述针对目标场景的语音信号，作为所述合成语音样本。

14.一种语义识别装置，所述装置包括：语音获取模块，被配置为获取待识别语音信号；

标签预测模块，被配置为将所述待识别语音信号输入采用如权利要求1‑6任意一项所述的方法训练的已训练的语义预测网络，得到所述待识别语音信号的语义标签。

15.一种芯片，所述芯片中配置有采用如权利要求1‑6任意一项所述的方法训练的已训练的语义预测网络。

16.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1‑6中任一项所述的方法或权利要求7所述的方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1‑6中任一项所述的方法或权利要求7所述的方法。

语义预测网络的训练方法、装置、设备以及存储介质

技术领域

[0001] 本公开实施例涉及计算机技术领域，具体涉及深度学习和语音分析等人工智能技术领域，尤其涉及语义预测网络的训练方法、装置、设备以及存储介质。

背景技术

[0002] 随着语音技术日渐成熟，越来越多家电设备都开始支持语音控制，智能家居开始真正走入人们的家庭。而芯片端的语音识别方案，成为我们面临的一个新挑战。

[0003] 目前，语音识别技术基本上都是基于传统的三级级联方案。即声学模型，语言模型和语义模型进行分级串联，来实现语音到文本再到语义的转化。且在声学到文本转化的过
程中，需要通过集束搜索/束搜索(beam search)或者加权有限状态转换器(weighted
finite‑state transducer，wfst)等方式进行解码来将语音和语言信息进行融合，以实现
语音识别。

发明内容

[0004] 本公开实施例提出了语义预测网络的训练方法、装置、设备以及存储介质。

[0005] 第一方面，本公开实施例提出了一种语义预测网络的训练方法，其中，初始的语义预测网络包括：编码器网络和至少一个解码器网络，编码器网络包括卷积层和长短期记忆
网络层；至少一个解码器网络的每一个解码器网络对应一个域，域与场景指令中的槽位相
对应；该语义预测网络的训练方法还包括：获取目标语音样本的第一语音特征；其中，目标
语音样本为合成语音样本或真实语音样本，合成语音样本附有样本音节标签和包括域的值
的语义标签，真实语义样本附有样本音节标签；将第一语音特征输入卷积层，将卷积层的输
出特征输入至长短期记忆网络层，将长短期记忆网络层输出的第一中间特征输入至少一个
解码器网络中的每一个解码器网络，将与第一语音特征对应的语义标签作为至少一个解码
器网络的输出，将第一中间特征作为音节分类网络的输入，将与第一语音特征对应的样本
音节标签作为音节分类网络的输出，联合训练初始的语义预测网络和音节分类网络，得到
已训练的语义预测网络。

[0006] 第二方面，本公开实施例提出了一种语义识别方法，包括：获取待识别语音信号；将待识别语音信号输入第一方面所述的方法训练的已训练的语义预测网络，得到待识别语
音信号的语义标签。

[0007] 第三方面，本公开实施例提出了一种语义预测网络的训练装置，其中初始的语义预测网络包括：编码器网络和至少一个解码器网络，编码器网络包括卷积层和长短期记忆
网络层；至少一个解码器网络的每一个解码器网络对应一个域，域与场景指令中的槽位相
对应；该语义预测网络的训练装置包括：样本获取模块，被配置为获取目标语音样本的第一
语音特征；其中，目标语音样本为合成语音样本或真实语音样本，合成语音样本附有样本音
节标签和包括域的值的语义标签，真实语义样本附有样本音节标签；联合训练模块，被配置
为将第一语音特征输入卷积层，将卷积层的输出特征输入至长短期记忆网络层，将长短期
记忆网络层输出的第一中间特征输入至少一个解码器网络中的每一个解码器网络，将与第
一语音特征对应的语义标签作为至少一个解码器网络的输出，将第一中间特征作为音节分
类网络的输入，将与第一语音特征对应的样本音节标签作为音节分类网络的输出，联合训
练初始的语义预测网络和音节分类网络，得到已训练的语义预测网络。

[0008] 第四方面，本公开实施例提出了一种语义识别装置，该语义识别装置包括：语音获取模块，被配置为获取待识别语音信号；标签预测模块，被配置为将待识别语音信号输入第
一方面所述的方法训练的已训练的语义预测网络，得到待识别语音信号的语义标签。

[0009] 第五方面，本公开实施例提出了一种芯片，芯片中配置有采用第一方面所述的方法训练的已训练的语义预测网络。

[0010] 第六方面，本公开实施例提出了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指
令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面或第二方面中任一实
现方式描述的方法。

[0011] 第七方面，本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面或第二方面中任一实现方式描述的方法。

[0012] 本公开实施例提供的语义预测网络的训练方法、装置、设备以及存储介质，其中，初始的语义预测网络包括：编码器网络和至少一个解码器网络，编码器网络包括卷积层和
长短期记忆网络层；至少一个解码器网络的每一个解码器网络对应一个域，域与场景指令
中的槽位相对应；首先获取目标语音样本的第一语音特征；其中，目标语音样本为合成语音
样本或真实语音样本，合成语音样本附有样本音节标签和包括域的值的语义标签，真实语
义样本附有样本音节标签；然后将第一语音特征输入卷积层，将卷积层的输出特征输入至
长短期记忆网络层，将长短期记忆网络层输出的第一中间特征输入至少一个解码器网络中
的每一个解码器网络，将与第一语音特征对应的语义标签作为至少一个解码器网络的输
出，将第一中间特征作为音节分类网络的输入，将与第一语音特征对应的样本音节标签作
为音节分类网络的输出，联合训练初始的语义预测网络和音节分类网络，得到已训练的语
义预测网络。这一过程中，与背景技术中采用三级级联的语音识别技术相比；本申请中由于
在初始的语义预测网络的训练过程中，可以在编码器网络的输出侧加入音节分类网络的训
练，以便在联合训练过程中，采用语义标签和样本音节标签分别作为对初始的语义预测网
络的输出、音节分类网络的输出的约束，对初始的语义预测网络中的参数的调整，使得编码
器所输出的中间特征可以满足语义预测网络和音节分类网络的训练精度，从而采用混合训
练样本提高编码器输出的中间特征的准确度，进而可以提高最终得到的已训练的语义预测
网络的预测精度；在本申请中可以基于语音分析出语音的语义，因而可以减小背景技术中
将语音转换为文本，再识别出文本的语义的资源开销，且本申请摒弃了三级级联方案中的
传统声学解码，减小了计算量。

[0013] 应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

[0014] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案，不构成对本公开的限定。
其中：

[0015] 图1是本公开可以应用于其中的示例性系统架构；

[0016] 图2是根据本公开的语义预测网络的训练方法的一个实施例的流程图；

[0017] 图3是根据本公开的联合训练的流程图；

[0018] 图4是根据本公开的预训练编码器网络的流程图；

[0019] 图5是根据本公开的实施例的进行联合训练的语义预测网络和音节分类网络的一个示例性结构图；

[0020] 图6是根据本公开的语义识别方法的一个实施例的流程图；

[0021] 图7是根据本公开的语义预测网络的训练装置的一个实施例的结构示意图；

[0022] 图8是根据本公开的语义识别装置的一个实施例的结构示意图；

[0023] 图9是设置芯片的一个应用场景。

[0024] 图10是用来实现本公开实施例的语义预测网络的训练方法或语义识别方法的电子设备的框图。

具体实施方式

[0025] 以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识
到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同
样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

[0026] 需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

[0027] 图1示出了可以应用本公开的语义预测网络的训练方法或语义预测网络的训练装置或语义识别方法或语义识别装置的实施例的示例性系统架构100。

[0028] 如图1所示，系统架构100中可以包括客户端101、网络102和服务器103。网络102用以在客户端101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例
如有线、无线通信链路或者光纤电缆等等。

[0029] 在训练语义预测网络阶段，服务器103可以提供各种服务，例如服务器103可以从客户端101获取目标语音样本；并可以采用目标语音样本对初始的语义预测网络和音节分
类网络进行联合训练，得到已训练的语义预测网络。

[0030] 在通过已训练的语义预测网络预测语义标签阶段，客户端101可以用于获取待识别语音信号，并可以由部署在客户端101中的芯片通过已训练的语义预测网络对获取的待
识别语音信号进行预测，得到待识别语音信号的语义标签；或者，

[0031] 客户端101可以用于获取待识别语音信号，并可以由部署在服务器103中的芯片通过已训练的语义预测网络对经由客户端101获取的待识别语音信号进行预测，得到待识别
语音信号的语义标签。

[0032] 需要说明的是，在通过语义预测网络对待识别语音信号的语义标签进行预测之前，还可以由服务器103将已训练的语义预测网络部署至客户端101中的芯片或服务端103
中的芯片。其中，该芯片可以为微电路(microcircuit)、微芯片(microchip)、集成电路
(integrated circuit，IC)或数字信号处理(digital signal processing，DSP)芯片。该芯
片还可以指内含集成电路的硅片，可以是计算机或其他电子设备的一部分。

[0033] 需要说明的是，服务器103可以是硬件，也可以是软件。当服务器103为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器103为
软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个
软件或软件模块。在此不做具体限定。

[0034] 应该理解，图1中的客户端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的客户端、网络和服务器。

[0035] 继续参考图2，其示出了根据本公开的语义预测网络的训练方法的一个实施例的流程200。

[0036] 其中，初始的语义预测网络可以包括：编码器网络和至少一个解码器网络，编码器网络包括卷积层和长短期记忆网络层；至少一个解码器网络的每一个解码器网络对应一个
域，域与场景指令中的槽位相对应。

[0037] 初始的语义预测网络可以包括编码器网络和至少一个解码器网络。其中，该编码器网络可以包括：卷积层和长短期记忆网络层，编码器网络的输入特征为编码器网络的卷
积层的输入，编码器网络的卷积层的输出特征为编码器网络的长短期记忆网络层的输入，
编码器网络的长短期记忆网络层的输出特征为至少一个解码器网络的输入。

[0038] 将目标语音样本的第一语音特征输入至卷积层，可以得到卷积层输出的语音特征；将卷积层输出的语音特征经由长短期记忆网络层提取特征，长短期记忆网络层采用历
史提取的特征帮助决策本次提取的特征，从而得到长短期记忆网络层的输出的中间特征，
也即得到预训练的编码器网络输出的中间特征。长短期记忆网络层的数量可以根据语义预
测网络的预测精度、应用场景和本领域技术人员的经验确定。

[0039] 初始的语义预测网络的至少一个解码器网络中的每一个解码器网络，可以为现有技术或未来发展的技术中的解码器网络结构。每一个解码器对某一特定场景涉及的指令所
对应的所有槽位中的一个槽位进行解码。每一个解码器网络对应的域，可以与该特定场景
所涉及的指令中的槽位相对应。经由至少一个解码器网络中的每一个解码器网络分别对一
个槽位进行解码，可以得到输入语音所命中的所有槽位的内容，从而得到输入语音的语义
标签。

[0040] 在一个具体的示例中，语义预测网络用于进行空调控制场景的语义识别。该语义预测网络包括N个(N的值为空调控制场景所涉及的控制指令命中的语义槽位数量值)解码
器网络。在针对空调控制的场景下，用户可能用到的语音指令为“请九点打开主卧的空调”，
该语音指令所涉及的所有槽位为：“时间槽位”、“意图槽位”、“位置槽位”。N个解码器网络中
的解码器网络A的域与“时间槽位”对应，该解码器网络A对“时间槽位”进行解码，得到“请九
点打开主卧的空调”所命中的“时间槽位”的内容，即“九点”；至少一个解码器网络中的解码
器网络D的域与“意图槽位”对应，该解码器网络D对“意图槽位”进行解码，得到“请九点打开
主卧的空调”所命中的“意图槽位”的内容，即“打开空调”；至少一个解码器网络中的解码器
网络H的域与“位置槽位”对应，该解码器网络H对“位置槽位”进行解码，得到“请九点打开主
卧的空调”所命中的“位置槽位”的内容，即“主卧”；通过解码器网络A的解码输出、解码器网
络D和解码器网络H的解码输出，得到输入语音的语义标签“请九点打开主卧的空调”。

[0041] 其中，该语义预测网络的训练方法包括以下步骤：

[0042] 步骤201，获取目标语音样本的第一语音特征。

[0043] 在本实施例中，语义预测网络的训练方法的执行主体(例如图1所示的服务器103)可以获取目标语音样本的第一语音特征。其中，目标语音样本可以为包括合成语音样本和
真实语音样本的目标语音样本集合中的语音样本，也即该目标语音样本可以为合成语音样
本或真实语音样本。对于目标语音样本集合中的目标语音样本，上述执行主体可以将目标
语音样本输入至初始的语义预测网络的语音样本，从而将合成语音样本或真实语音样本输
入至初始的语义预测网络。可选的，获取目标语音样本的第一语音特征的方法，可以为现有
技术或未来发展技术中获取目标语音样本的第一语音特征的方法，本公开对此不做限定。
例如，获取目标语音样本的第一语音特征的方法可以通过具有特征提取的模块或网络的方
法来实现。该第一语音特征可以用于表征目标语音样本的语音特性。

[0044] 在这里，目标语音样本为合成语音样本或真实语音样本，合成语音样本附有样本音节标签和包括域的值的语义标签，真实语义样本附有样本音节标签。

[0045] 其中，目标语音样本可以为合成语音样本或真实语音样本。该合成语音样本可以基于现有技术或未来发展技术中语音合成技术进行合成确定，本公开对此不做限定。例如，
该语音合成技术可以为端到端语音合成技术(TTS)或传统TTS。

[0046] 其中，包括域的值的语义标签可以用于标记合成语音样本的语义。该语义标签可以基于现有技术或未来发展技术中确定语义标签的方法进行确定，本公开对此不做限定；
例如，确定语义标签的方法可以通过合成语音样本的文本表达和句式的关键词的方法或人
工标记的方法来实现。其中，域的值可以用于表征槽位对应的内容。例如，“意图槽位”对应
的内容为“打开空调”，该域的值为“打开空调”。

[0047] 其中，该样本音节标签可以用于标记合成语音样本的文本表达和句式的关键词中的各个音节；合成语音样本附有的样本音节标签可以基于现有技术或发展技术中确定合成
语音样本附有的样本音节标签的方法进行确定，例如，确定合成语音样本附有的样本音节
标签的方法可以通过合成语音样本的文本表达和句式的关键词的方法或人工标记的方法
来实现。

[0048] 其中，真实语音样本可以包括未处理过的语音样本和对未处理过的语音样本进行识别所得到的样本音节标签。其中，该未处理过的语音样本可以为真实采集的语音样本。真
实语音样本所附有的样本音节标签可以用于标记真实语音样本的各个音节；真实语音样本
的样本音节标签可以基于现有技术或未来发展技术中确定真实语音样本的样本音节标签
的方法进行确定，例如，采用用于识别音节标签的声学模型对真实语音样本进行识别，得到
真实语音样本的样本音节标签。

[0049] 步骤202，将第一语音特征输入卷积层，将卷积层的输出特征输入至长短期记忆网络层，将长短期记忆网络层输出的第一中间特征输入至少一个解码器网络中的每一个解码
器网络，将与第一语音特征对应的语义标签作为至少一个解码器网络的输出，将第一中间
特征作为音节分类网络的输入，将与第一语音特征对应的样本音节标签作为音节分类网络
的输出，联合训练初始的语义预测网络和音节分类网络，得到已训练的语义预测网络。

[0050] 本实施例中，上述执行主体可以先将第一语音特征输入卷积层，将卷积层的输出特征输入至长短期记忆网络层，得到长短期记忆网络层输出的第一中间特征，之后，上述执
行主体可以将第一中间特征分别输入至少一个解码器网络中的每一个解码器网络和音节
分类网络，并将与第一语音特征对应的语义标签作为至少一个解码器网络的输出，将与第
一语音特征对应的样本音节标签作为音节分类网络的输出，从而采用第一语音特征联合训
练初始的语义预测网络和音节分类网络，得到已训练的语义预测网络。

[0051] 本公开实施例提供的语义预测网络的训练方法，可以在编码器网络的输出侧加入音节分类网络的训练，以便在联合训练过程中，采用语义标签和样本音节标签分别作为对
初始的语义预测网络的输出、音节分类网络的输出的约束，对初始的语义预测网络中的参
数的调整，使得编码器所输出的中间特征可以满足语义预测网络和音节分类网络的训练精
度，从而采用混合训练样本提高编码器输出的中间特征的准确度，进而可以提高最终得到
的已训练的语义预测网络的预测精度；在本申请中可以基于语音分析出语音的语义，因而
可以减小背景技术中将语音转换为文本，再识别出文本的语义的资源开销，且本申请摒弃
了三级级联方案中的传统声学解码，减小了计算量。

[0052] 其中，联合训练可以为在训练语义预测网络过程中，还可以对音节分类网络进行训练，以实现对初始的语义预测网络中参数的调整。

[0053] 在一个具体的示例中，联合训练可以包括：初始的语义预测网络的训练过程和音节分类网络的训练过程。也即，在初始的语义预测网络的训练过程中，可以在编码器网络的
输出侧加入音节分类网络的训练，以便在联合训练过程中，采用语义标签和样本音节标签
分别作为对初始的语义预测网络的输出、音节分类网络的输出的约束，对初始的语义预测
网络中的参数的调整，使得编码器所输出的中间特征可以满足语义预测网络和音节分类网
络的训练精度，从而采用混合训练样本提高编码器输出的中间特征的准确度，进而可以提
高最终得到的已训练的语义预测网络的预测精度。

[0054] 为了便于理解，图3示出了联合训练的示意图。参照图3，该联合训练的步骤可以包括：

[0055] 步骤301：获取目标语音样本的第一语音特征。

[0056] 步骤302：将第一语音特征输入初始的编码器网络，得到初始的编码器网络输出的第一中间特征；将第一中间特征输入至音节分类网络，得到音节分类网络出书的预测音节
标签。

[0057] 步骤303：判断预测音节标签与样本音节标签之间的差值是否符合预设的截止条件。

[0058] 步骤304：在差值不符合预设的截止条件时，调整初始的语义预测网络的参数，并执行步骤302～304。

[0059] 步骤305：在差值符合预设的截止条件时，得到已训练的语义预测网络。

[0060] 需要说明的是，可以在初始的语义预测网络训练过程中的任意训练阶段，在编码器网络的输出侧加入音节分类网络的训练。在初始的语义预测网络训练过程中，一般会输
入多个目标语音样本，针对每个目标语音样本执行步骤301～步骤304；直至多个目标语音
样本对应的差值符合预设的截止条件才执行步骤305，以得到已训练的语义预测网络。其
中，预设的截止条件可以由用户根据对语义预测网络的预测精度要求进行设置。

[0061] 本公开的上述实施例提供的语义预测网络的训练方法，在初始的语义预测网络的训练过程中，可以在编码器网络的输出侧加入音节分类网络的训练，以便在联合训练过程
中，在预测音节标签与样本音节标签之间的差值符合预设的截止条件时停止调整初始的语
义预测网络的参数，使得编码器所输出的中间特征可以满足语义预测网络和音节分类网络
的训练精度，从而采用混合训练样本提高编码器输出的中间特征的准确度，进而可以提高
最终得到的已训练的语义预测网络的预测精度。

[0062] 在本公开的一些可选实现方式中，该初始的语义预测网络可以基于以下步骤确定：将合成语音样本作为原始的语义预测网络的输入，将与合成语音样本对应的语义标签
作为原始的语义预测网络的输出，训练原始的语义预测网络，得到初始的语义预测网络。

[0063] 在本实现方式中，上述执行主体可以先构建原始的语义预测网络；之后，将合成语音样本输入至该原始的语义预测网络，得到该原始的语义预测网络的预测输出；之后，在该
原始的语义预测网络的预测输出与合成语音样本对应的语义标签的差值不满足预设的截
止条件时，调整该原始的语义预测网络中的参数；直至，将合成语音样本输入至调整参数后
的语义预测网络中得到的预测输出与合成语音样本对应的语义标签的差值满足预设的截
止条件，得到初始的语义预测网络。

[0064] 在一个具体的示例中，假设合成语音样本为第i个合成语音样本(i为正整数)；将第i个合成语音样本输入至原始的语义预测网络，得到与第i个合成语音样本对应的预测输
出，在第i个合成语音样本对应的预测输出和第i个合成语音样本对应的样本音节标签的差
值，不满足预设的截止条件时，调整原始的语义预测网络中的参数，在每次调整原始的语义
预测网络中的参数之后，再次将该第i个合成语音样本输入至调整参数后的原始语义预测
网络，得到的预测输出；并再次将该的预测输出和预设的截止条件的差值，与第i个合成语
音样本对应的样本音节标签进行比较；在差值满足预设的截止条件时，停止对原始的语义
预测网络的参数调整，得到参数调整后的语义预测网络i；接下来，将第(i+1)个合成语音样
本输入参数调整后的语义预测网络i，通过判断第(i+1)个合成语音样本对应的预测输出与
第(i+1)个合成语音样本对应的语义标签的差值判断是否满足预设的截止条件；在差值不
满足预设的截止条件时，调整参数调整后的语义预测网络i，直至该差值满足预设的截止条
件；…，将第N个(N为大于1的正整数)合成语音样本输入参数调整后的语义预测网络(N‑1)，
判断第N个合成语音样本对应的预测输出与第N个合成语音样本对应的语义标签的差值是
否满足预设的截止条件，在差值不满足预设的截止条件时，调整参数调整后的语义预测网
络(N‑1)，直至该差值满足预设的截止条件，得到初始的语义预测网络。其中，原始的语义预
测网络可以为未进行参数调整的语义预测网络。

[0065] 在本实现方式中，在联合训练之前，可以采用合成语音样本和合成语音样本附有的语义标签对原始的语义预测网络进行训练，以确定初始的语义预测网络；以便在联合训
练过程中，采用音节分类网络对经由原始的语义预测网络训练得到的初始的语义预测网络
进行辅助训练，从而可以提高已训练的语义预测网络的预测精度。

[0066] 在本公开的一些可选实现方式中，初始的语义预测网络还可以包括：多通道语音增强网络；步骤201中的获取目标语音样本的第一语音特征可以包括：将目标语音样本输入
多通道语音增强网络，得到多通道语音增强网络输出的目标语音样本的第一语音特征。

[0067] 在本实现方式中，在语义预测网络还可以包括多通道语音增强网络时，可以通过将目标语音样本输入至多通道语音增强网络中得到目标语音样本的第一语音特征。上述多
通道语音增强网络可以用于提取目标语音样本的语音特征。

[0068] 本实现方式中的语义预测网络，可以通过多通道语音增强网络中的复合卷积层实现特征的提取，以及通过复合全连接层将复合卷积层提取的特征进行整合来获取目标语音
样本中更具有区分性的语音特征，进而可以实现对目标语音样本中的第一语音特征的准确
获取。

[0069] 在本公开的一些可选实现方式中，编码器网络为预训练的编码器网络。预训练的编码器网络基于以下步骤预先训练得到：获取真实语音样本的第二语音特征；对第二语音
特征执行以下训练步骤：将第二语音特征输入初始的编码器网络，得到初始的编码器网络
输出的第二中间特征；将第二中间特征输入至音节分类网络，得到音节分类网络输出的预
测音节标签；响应于预测音节标签与样本音节标签之间的差值不符合预设的截止条件，调
整初始的编码器网络的参数，并跳转至执行训练步骤直至差值满足预设的截止条件，得到
预训练的编码器网络。

[0070] 在本实现方式中，获取真实语音样本的第二语音特征可以为现有技术或未来发展技术中的获取真实语音样本的第二语音特征，例如，通过具有特征提取的模块或网络获取
真实语音样本的第二语音特征。该第二语音特征可以表征真实语音样本的语音特性。

[0071] 在一个具体的示例中，假设真实语音样本的第二语音特征为第j个第二语音特征(j为正整数)；将第j个第二语音特征输入至初始的编码器网络，得到与第j个第二语音特征
对应的预测输出，在第j个第二语音特征对应的预测输出和第j个第二语音特征对应的样本
音节标签的差值，不满足预设的截止条件时，调整初始的编码器网络中的参数，在每次调整
初始的编码器网络中的参数之后，再次将该第j个第二语音特征输入至调整参数后的编码
器网络，得到的预测输出；并再次将该的预测输出和第j个第二语音特征对应的样本音节标
签的差值，与第j个第二语音特征对应的样本音节标签进行比较；在差值满足预设的截止条
件，停止对初始的编码器网络中的参数调整，得到参数调整后的编码器网络j；接下来，将第
(j+1)个第二语音特征输入参数调整后的编码器网络j，通过第(j+1)个第二语音特征对应
的预测输出与第(j+1)个第二语音特征对应的样本音节标签的差值判断是否满足预设的截
止条件，在差值不满足预设的截止条件时，调整参数调整后的编码器网络j中的参数，在该
差值满足预设的截止条件，得到参数调整后的编码器网络(j+1)；…，将第M个(M为大于1的
正整数)第二语音特征输入参数调整后的编码器网络(M‑1)，通过第M个第二语音特征对应
的预测输出与第M个第二语音特征对应的样本音节标签的差值判断是否满足预设的截止条
件，在差值不满足预设的截止条件时，调整参数调整后的编码器网络(M‑1)中的参数，直至
该差值满足预设的截止条件，得到预训练的编码器网络。

[0072] 为了便于理解，图4示出了训练预训练的编码器网络的流程图。如图4所示，该训练预训练的编码器网络的步骤可以包括：

[0073] 步骤401：获取真实语音样本的第二语音特征。

[0074] 步骤402：将第二语音特征输入初始的编码器网络，得到初始的编码器网络输出的第二中间特征；将第二中间特征输入至音节分类网络，得到音节分类网络输出的预测音节
标签。

[0075] 步骤403：判断预测音节标签与样本音节标签之间的差值是否符合预设的截止条件；

[0076] 步骤404：差值不符合预设的截止条件，调整初始的编码器网络的参数，并执行步骤402～步骤404。

[0077] 步骤404：差值符合预设的截止条件，得到预训练的编码器网络。

[0078] 需要说明的是，在预训练过程中，一般会输入多个真实语音样本的第二语音特征，需要针对每个真实语音样本的第二语音特征执行步骤401～步骤404，直至多个真实语音样
本的第二语音特征对应的差值都符合预设的截止条件才执行步骤404，得到预训练的编码
器网络。

[0079] 在本实现方式中，在联合训练之前，可以对编码器网络进行预训练，以提高编码器网络提取特征的准确率。

[0080] 在本公开的一些可选实现方式中，步骤201中的每一个解码器网络包括：依次串联的注意力机制层、全连接层和softmax层。

[0081] 在本实现方式中，注意力机制层将编码器网络输出的中间特征进行加权、降维度处理，得到注意力机制层输出的多个具有不同权重的特征；将多个具有不同权重的特征分
别经全连接层输入softmax层，该全连接层中的每个神经元与注意力机制层的所有神经元
进行全连接，该全连接层可以连接多个具有不同权重的特征，得到输出特征；然后，softmax
层输出该输出特征所属的分类结果。

[0082] 需要说明的是，解码器网络中的注意力机制层和解码器网络中的注意力机制层对应的权重可以不同。

[0083] 本实现方式中的至少一个解码器网络，可以将目标语音样本的第一语音特征分别经至少一个解码器网络中每一个解码器网络包括的注意力机制层、全连接层输入该解码器
网络的softmax层，以实现对第一语音特征的准确输出(即预测语义标签)，使得预测语义标
签和语义标签的差值更准确，从而在训练初始的语义预测网络过程中，可以根据该差值准
确地调整初始的语义预测网络的参数，因而提高了语义预测网络的预测精度。

[0084] 在本公开的一些可选实现方式中，步骤202中的音节分类网络可以包括全连接层和softmax层。

[0085] 在本实现方式中，该音节分类网络包括的全连接层，整合编码器网络输出的中间特征中具有类别区分性的局部信息，得到具有区分性的区别语音特征，进而可以实现对真
实语音样本的准确学习，使得在联合训练过程中，可以通过该音节分类网络对初始的语义
预测网络的进行辅助训练，可以提高语义预测网络的预测精度。

[0086] 在本公开的一些可选的实现方式中，步骤201中的合成语音样本基于以下步骤确定：获取针对目标场景的文本表达和句式；对针对目标场景的文本表达和句式进行语音合
成，得到针对目标场景的语音信号；基于针对目标场景的文本表达和句式的关键词，确定针
对目标场景的语音信号的样本音节标签和包括域的值的语义标签；将附加针对目标场景的
语音信号的样本音节标签和包括域的值的语义标签的针对目标场景的语音信号，作为合成
语音样本。

[0087] 在本实现方式中，首先可以获取针对目标场景的文本表达和句式；之后，对针对目标场景的文本表达和句式进行语音合成，得到针对目标场景的语音信号；之后，基于针对目
标场景的文本表达和句式的关键词，确定针对目标场景的语音信号的样本音节标签和包括
域的值的语义标签；之后将附加针对目标场景的语音信号的样本音节标签和包括域的值的
语义标签的针对目标场景的语音信号，作为合成语音样本。

[0088] 其中，获取针对目标场景的文本表达和句式中的目标场景可以为需要预测的语音的使用场景。可选的，获取针对目标场景的文本表达和句式可以为从上述执行主体本地或
远程获取。对针对目标场景的文本表达和句式进行语音合成，可以得到针对目标场景的语
音信号。进行语音合成的方法，可以为采用现有技术或未来发展的技术，例如采用端到端语
音合成技术或传统语音合成技术。

[0089] 在本实现方式，通过对获取针对目标场景的表达和句式进行合成，得到针对目标场景的语音信号；之后，基于针对目标场景的文本表达和句式的关键词，确定针对目标场景
的语音信号的样本音节标签和包括域的值的语义标签；之后将附加针对目标场景的语音信
号的样本音节标签和包括域的值的语义标签的针对目标场景的语音信号，作为合成语音样
本，进而可以提高合成语音样本的精度；在联合训练过程，将该合成语音样本作为训练样
本，进而可以提高语义预测网络的预测精度。

[0090] 请参考图5，图5示出了根据本公开的实施例的进行联合训练的语义预测网络和音节分类网络的一个示例性结构图。

[0091] 如图5所示，图5包括：多通道语音增强网络501、预训练的编码器网络502、解码器网络5031至解码器网络503N，以及音节分类网络505。

[0092] 多通道语音增强网络501可以包括复合卷积层5011和复合全连接层5012。将多个通道的真实语音样本，输入至复合卷积层5011，得到真实语音样本的语音特征；将真实语音
样本的语音特征输入至复合全连接层5012，该复合全连接层5012中的每个神经元与复合卷
积层5011的所有神经元进行全连接，该复合全连接层5012可以整合复合卷积层5011中具有
类别区分性的局部信息，得到更能表征真实语音样本的特征的语音特征。

[0093] 编码器网络502可以包括卷积层5021、长短期记忆网络层5022和长短期记忆网络层5023。将目标语音样本的第一语音特征，输入至卷积层5021，得到卷积层5021输出的语音
特征；将卷积层5021输出的语音特征分别经由长短期记忆网络层5022和长短期记忆网络层
5023提取特征，其中，长短期记忆网络层5022和长短期记忆网络层5023分别采用历史提取
的特征帮助决策本次提取的特征，从而得到长短期记忆网络层5023的输出的中间特征，也
即得到预训练的编码器网络输出的中间特征。需要说明的是，长短期记忆网络层的数量可
以根据语义预测网络的预测精度、应用场景和本领域技术人员的经验确定。

[0094] 解码器网络5031至解码器网络503N(N为正整数)中的每一个解码器网络，解码器网络5031，可以包括注意力机制层50311、全连接层50312和softmax层50313。其中，注意力
机制层50311还可以具备池化功能。解码器网络503N包括注意力机制层503N1、全连接层
503N2和softmax层503N3。

[0095] 下文中以解码器网络5031为示例。注意力机制层50311将编码器网络502输出的中间特征进行加权，降维度处理，得到注意力机制层50311输出的多个具有不同权重的特征；
将多个具有不同权重的特征分别经全连接层50312输入softmax层50313，该全连接层50312
中的每个神经元与注意力机制层50311的所有神经元进行全连接，该全连接层50312可以连
接多个具有不同权重的特征，得到输出特征；然后，softmax层50313输出该输出特征所属的
分类结果。需要说明的是，解码器网络5031中的注意力机制层50311和解码器网络503N中的
注意力机制层503N1对应的权重可以不同。

[0096] 音节分类网络504可以包括：全连接层5041和softmax层5042。将编码器网络502的输出特征分别经全连接层5041和softmax层5042，该全连接层5041中的每个神经元与编码
器502网络中的长短期记忆网络层5023的所有神经元进行全连接，该全连接层5041可以整
合长短期记忆网络层5023输出的中间特征中具有类别区分性的局部信息，得到更能表征真
实语音样本的特征的语音特征；然后，该softmax层5042输出更能表征真实语音样本的特征
所属的分类结果。

[0097] 在完成预训练的编码器网络之后，可以将音节分类网络中的全连接层和softmax层裁剪掉，然后将编码器网络与至少一个解码器网络进行拼接，得到初始的语义预测网络。

[0098] 上述图5中所示的示例性结构图，采用了上述实施例中的语义预测网络的方法，对初始的语义预测网络和音节分类网络进行联合训练，得到了已训练的语义预测网络，这一
过程中，与背景技术中采用三级级联的语音识别技术相比；本申请中由于在初始的语义预
测网络的训练过程中，可以在编码器网络的输出侧加入音节分类网络的训练，以便在联合
训练过程中，采用语义标签和样本音节标签分别作为对初始的语义预测网络的输出、音节
分类网络的输出的约束，对初始的语义预测网络中的参数的调整，使得编码器所输出的中
间特征可以满足语义预测网络和音节分类网络的训练精度，从而采用混合训练样本提高编
码器输出的中间特征的准确度，进而可以提高最终得到的已训练的语义预测网络的预测精
度；在本申请中可以基于语音分析出语音的语义，因而可以减小背景技术中将语音转换为
文本，再识别出文本的语义的资源开销，且本申请摒弃了三级级联方案中的传统声学解码，
减小了计算量。

[0099] 进一步参考图6，其示出了语义识别方法的一个实施例的流程600。该语义识别方法包括以下步骤：

[0100] 步骤601：获取待识别语音信号。

[0101] 在本实现方式中，语义识别方法的执行主体(例如图1中的客户端101或服务器103)

[0102] 步骤602：将待识别语音信号输入采用已训练的语义预测网络，得到待识别语音信号的语义标签。

[0103] 本公开的上述实施例提供的语义识别方法，通过语义预测网络可以实现对待识别语音信号的语义标签的准确确定。

[0104] 进一步参考图7，作为对上述各图所示方法的实现，本公开提供了一种语义预测网络的训练装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可
以应用于各种电子设备中。

[0105] 如图7所示，初始的训练语义预测网络包括：编码器网络和至少一个解码器网络，编码器网络包括卷积层和长短期记忆网络层；至少一个解码器网络的每一个解码器网络对
应一个域，域与场景指令中的槽位相对应；本实施例的语义预测网络的训练装置700可以包
括：样本获取模块701，被配置为获取目标语音样本的第一语音特征；其中，目标语音样本为
合成语音样本或真实语音样本，合成语音样本附有样本音节标签和包括域的值的语义标
签，真实语义样本附有样本音节标签；联合训练模块702，被配置为将第一语音特征输入卷
积层，将卷积层的输出特征输入至长短期记忆网络层，将长短期记忆网络层输出的第一中
间特征输入至少一个解码器网络中的每一个解码器网络，将与第一语音特征对应的语义标
签作为至少一个解码器网络的输出，将第一中间特征作为音节分类网络的输入，将与第一
语音特征对应的样本音节标签作为音节分类网络的输出，联合训练初始的语义预测网络和
音节分类网络，得到已训练的语义预测网络。

[0106] 在本实施例中，语义预测网络的训练装置700中：样本获取模块701和联合训练模块702的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201‑202的相
关说明，在此不再赘述。

[0107] 在本实施例的一些可选的实现方式中，语义预测网络的训练装置700还包括：语义训练模块(图中未示出)，被配置为将合成语音样本作为原始的语义预测网络的输入，将与
合成语音样本对应的语义标签作为原始的语义预测网络的输出，训练原始的语义预测网
络，得到初始的语义预测网络。

[0108] 在本实施例的一些可选的实现方式中，其中，初始的语义预测网络还包括：多通道语音增强网络；样本获取模块701，进一步被配置为：将目标语音样本输入多通道语音增强
网络，得到多通道语音增强网络输出的目标语音样本的第一语音特征。

[0109] 在本实施例的一些可选的实现方式中，编码器网络为预训练的编码器网络，语义预测网络的训练装置700还包括：特征获取模块(图中未示出)，被配置为获取真实语音样本
的第二语音特征；预训练模块(图中未示出)，被配置为对第二语音特征执行以下训练步骤：
将第二语音特征输入初始的编码器网络，得到初始的编码器网络输出的第二中间特征；将
第二中间特征输入至音节分类网络，得到音节分类网络输出的预测音节标签；响应于预测
音节标签与样本音节标签之间的差值不符合预设的截止条件，调整初始的编码器网络的参
数，并跳转至执行训练步骤直至差值满足预设的截止条件，得到预训练的编码器网络。

[0110] 在本实施例的一些可选的实现方式中，每一个解码器网络包括：依次串联的注意力机制层、全连接层和softmax层。

[0111] 在本实施例的一些可选的实现方式中，音节分类网络包括全连接层和softmax层。

[0112] 在本实施例的一些可选的实现方式中，语义预测网络的训练装置700还包括：文本获取模块(图中未示出)，被配置为获取针对目标场景的文本表达和句式；合成语音模块(图
中未示出)，被配置为对针对目标场景的文本表达和句式进行语音合成，得到针对目标场景
的语音信号；标签确定模块(图中未示出)，被配置为基于针对目标场景的文本表达和句式
的关键词，确定针对目标场景的语音信号的样本音节标签和包括域的值的语义标签；语音
作为模块(图中未示出)，被配置为将附加针对目标场景的语音信号的样本音节标签和包括
域的值的语义标签的针对目标场景的语音信号，作为合成语音样本。

[0113] 进一步参考图8，作为对上述各图所示方法的实现，本公开提供了一种语义识别装置的一个实施例，该装置实施例与图6所示的方法实施例相对应，该装置具体可以应用于各
种电子设备中。

[0114] 如图8所示，本实施例的语义识别装置800可以包括：语音获取模块801，被配置为获取待识别语音信号；标签预测模块802，被配置为将待识别语音信号输入采用如图2的方
法训练的已训练的语义预测网络，得到待识别语音信号的语义标签。

[0115] 在本实施例中，语义识别装置800中：语音获取模块801和标签预测模块802的具体处理及其所带来的技术效果可分别参考图6对应实施例中的步骤601‑602的相关说明，在此
不再赘述。

[0116] 进一步参考图9，本公开提供了一种设置芯片的应用场景的一个实施例。如图9所示，该设置芯片的应用场景可以包括：客户端901和设置在客户端901中的芯片9011。

[0117] 在通过已训练的语义预测网络预测语义标签阶段，客户端901可以获取待识别语音信号，芯片9011可以通过已训练的语义预测网络对客户端901获取的待识别语音信号进
行预测，得到待识别语音信号的语义标签。

[0118] 需要说明的是，在通过语义预测网络对待识别语音信号的语义标签进行预测之前，还可以将训练的语义预测网络部署至芯片9011中。可选的，服务器103将已训练的语义
预测网络部署至芯片9011的方法可以为现有技术或未来发展的技术中的部署方法。

[0119] 在本实现方式中，设置在客户端中的芯片，由于芯片中已训练的语义预测网络的预测精度较高，因此，可以提高在离线状态下识别待识别语音信息号的语义标签进行识别
的准确度。此外，由于布置在芯片中的已训练的语义预测网络的体量较小，可以减少语义预
测的硬件损耗并减少预测过程中的资源开销。

[0120] 根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。

[0121] 如图10所示，是根据本公开实施例眼底图像识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助
理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形
式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装
置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制
本文中描述的和/或者要求的本公开的实现。

[0122] 如图10所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以
被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指
令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接
口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理
器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各
个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系
统)。图10中以一个处理器1001为例。

[0123] 存储器1002即为本公开所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本公开所提供的语
义预测网络的训练方法或语义识别方法。本公开的非瞬时计算机可读存储介质存储计算机
指令，该计算机指令用于使计算机执行本公开所提供的语义预测网络的训练方法或语义识
别方法。

[0124] 存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本公开实施例中的语义预测网络的训练方法或语义
识别方法对应的程序指令/模块(例如，附图7所示的样本获取模块701和联合训练模块702；
或，附图8所示的语音获取模块801和标签预测模块802)。处理器1001通过运行存储在存储
器1002中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处
理，即实现上述方法实施例中的语义预测网络的训练方法或语义识别方法。

[0125] 存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语义预测网络的训练方法或
语义识别方法的电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存
取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬
时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存
储器，这些远程存储器可以通过网络连接至语义预测网络的训练方法或语义识别方法的电
子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

[0126] 语义预测网络的训练方法或语义识别方法的电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或
者其他方式连接，图10中以通过总线连接为例。

[0127] 输入装置1003可接收输入的数字或字符信息，以及产生与语义预测网络的训练方法或语义识别方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、
小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装
置。输出装置1004可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振
动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和
等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

[0128] 此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种
实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在
包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用
或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数
据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出
装置。

[0129] 这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些
计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指
令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光
盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。

[0130] 为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视
器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的
反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用
任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

[0131] 可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算
系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网
(LAN)、广域网(WAN)和互联网。

[0132] 计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端‑服务器关系的计
算机程序来产生客户端和服务器的关系。

[0133] 本公开实施例提供的语义预测网络的训练方法、装置、设备以及存储介质，其中，初始的语义预测网络包括：编码器网络和至少一个解码器网络，编码器网络包括卷积层和
长短期记忆网络层；至少一个解码器网络的每一个解码器网络对应一个域，域与场景指令
中的槽位相对应；首先获取目标语音样本的第一语音特征；其中，目标语音样本为合成语音
样本或真实语音样本，合成语音样本附有样本音节标签和包括域的值的语义标签，真实语
义样本附有样本音节标签；然后将第一语音特征输入卷积层，将卷积层的输出特征输入至
长短期记忆网络层，将长短期记忆网络层输出的第一中间特征输入至少一个解码器网络中
的每一个解码器网络，将与第一语音特征对应的语义标签作为至少一个解码器网络的输
出，将第一中间特征作为音节分类网络的输入，将与第一语音特征对应的样本音节标签作
为音节分类网络的输出，联合训练初始的语义预测网络和音节分类网络，得到已训练的语
义预测网络。这一过程中，与背景技术中采用三级级联的语音识别技术相比；本申请中由于
在初始的语义预测网络的训练过程中，可以在编码器网络的输出侧加入音节分类网络的训
练，以便在联合训练过程中，采用语义标签和样本音节标签分别作为对初始的语义预测网
络的输出、音节分类网络的输出的约束，对初始的语义预测网络中的参数的调整，使得编码
器所输出的中间特征可以满足语义预测网络和音节分类网络的训练精度，从而采用混合训
练样本提高编码器输出的中间特征的准确度，进而可以提高最终得到的已训练的语义预测
网络的预测精度；在本申请中可以基于语音分析出语音的语义，因而可以减小背景技术中
将语音转换为文本，再识别出文本的语义的资源开销，且本申请摒弃了三级级联方案中的
传统声学解码，减小了计算量。

[0134] 人工智能是研究计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包
括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技
术主要包括计算机视觉技术、语音识别技术、自然语音处理技术以及机器学习/深度学习、
大数据处理技术、知识图谱技术等几大方向。

[0135] 应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，
只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

[0136] 上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开
的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

语义预测网络的训练方法、装置、设备以及存储介质转让专利

申请号 : CN202011104612.7

文献号 : CN112233664B

文献日 : 2021-11-09

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 陈立 , 邹赛赛

申请人 : 北京百度网讯科技有限公司

摘要 :

权利要求 :

说明书 :