语义预测网络的训练方法、装置、设备以及存储介质转让专利
申请号 : CN202011104612.7
文献号 : CN112233664B
文献日 : 2021-11-09
发明人 : 陈立 , 邹赛赛
申请人 : 北京百度网讯科技有限公司
摘要 :
权利要求 :
1.一种语义预测网络的训练方法,其中,初始的语义预测网络包括:编码器网络和至少一个解码器网络,所述编码器网络包括卷积层和长短期记忆网络层;所述至少一个解码器网络的每一个解码器网络对应一个域,所述域与场景指令中的槽位相对应;所述方法包括:获取目标语音样本的第一语音特征;其中,所述目标语音样本为合成语音样本或真实语音样本,所述合成语音样本附有样本音节标签和包括所述域的值的语义标签,所述真实语义样本附有样本音节标签,所述样本音节标签用于标记合成语音样本的文本表达和句式的关键词中的各个音;
将所述第一语音特征输入所述卷积层,将所述卷积层的输出特征输入至所述长短期记忆网络层,将所述长短期记忆网络层输出的第一中间特征输入所述至少一个解码器网络中的每一个解码器网络,将与所述第一语音特征对应的语义标签作为所述至少一个解码器网络的输出,将所述第一中间特征作为音节分类网络的输入,将与所述第一语音特征对应的样本音节标签作为音节分类网络的输出,联合训练所述初始的语义预测网络和所述音节分类网络,得到已训练的语义预测网络,所述音节分类网络包括全连接层和softmax层。
2.根据权利要求1所述的方法,其中,所述初始的语义预测网络基于以下步骤确定:将所述合成语音样本作为原始的语义预测网络的输入,将与所述合成语音样本对应的语义标签作为所述原始的语义预测网络的输出,训练所述原始的语义预测网络,得到所述初始的语义预测网络。
3.根据权利要求1或2所述的方法,其中,所述初始的语义预测网络还包括:多通道语音增强网络;
所述获取目标语音样本的第一语音特征包括:将所述目标语音样本输入多通道语音增强网络,得到多通道语音增强网络输出的目标语音样本的第一语音特征。
4.根据权利要求1或2所述的方法,其中,所述编码器网络为预训练的编码器网络;
所述预训练的编码器网络基于以下步骤预先训练得到:获取真实语音样本的第二语音特征;
对所述第二语音特征执行以下训练步骤:将所述第二语音特征输入初始的编码器网络,得到所述初始的编码器网络输出的第二中间特征;将所述第二中间特征输入至音节分类网络,得到所述音节分类网络输出的预测音节标签;响应于所述预测音节标签与所述样本音节标签之间的差值不符合预设的截止条件,调整所述初始的编码器网络的参数,并跳转至执行所述训练步骤直至所述差值满足所述预设的截止条件,得到所述预训练的编码器网络。
5.根据权利要求1所述的方法,其中,所述每一个解码器网络包括:依次串联的注意力机制层、全连接层和softmax层。
6.根据权利要求1所述的方法,其中,所述合成语音样本基于以下步骤确定:获取针对目标场景的文本表达和句式;
对所述针对目标场景的文本表达和句式进行语音合成,得到针对目标场景的语音信号;
基于所述针对目标场景的文本表达和句式的关键词,确定所述针对目标场景的语音信号的样本音节标签和包括域的值的语义标签;
将附加所述针对目标场景的语音信号的样本音节标签和包括域的值的语义标签的所述针对目标场景的语音信号,作为所述合成语音样本。
7.一种语义识别方法,所述方法包括:获取待识别语音信号;
将所述待识别语音信号输入采用如权利要求1‑6任意一项所述的方法训练的已训练的语义预测网络,得到所述待识别语音信号的语义标签。
8.一种语义预测网络的训练装置,其中,初始的语义预测网络包括:编码器网络和至少一个解码器网络,所述编码器网络包括卷积层和长短期记忆网络层;所述至少一个解码器网络的每一个解码器网络对应一个域,所述域与场景指令中的槽位相对应;所述装置包括:样本获取模块,被配置为获取目标语音样本的第一语音特征;其中,所述目标语音样本为合成语音样本或真实语音样本,所述合成语音样本附有样本音节标签和包括所述域的值的语义标签,所述真实语义样本附有样本音节标签,所述样本音节标签用于标记合成语音样本的文本表达和句式的关键词中的各个音;
联合训练模块,被配置为将所述第一语音特征输入所述卷积层,将所述卷积层的输出特征输入至所述长短期记忆网络层,将所述长短期记忆网络层输出的第一中间特征输入所述至少一个解码器网络中的每一个解码器网络,将与所述第一语音特征对应的语义标签作为所述至少一个解码器网络的输出,将所述第一中间特征作为音节分类网络的输入,将与所述第一语音特征对应的样本音节标签作为音节分类网络的输出,联合训练所述初始的语义预测网络和所述音节分类网络,得到已训练的语义预测网络,所述音节分类网络包括全连接层和softmax层。
9.根据权利要求8所述的装置,所述装置还包括:语义训练模块,被配置为将所述合成语音样本作为原始的语义预测网络的输入,将与所述合成语音样本对应的语义标签作为所述原始的语义预测网络的输出,训练所述原始的语义预测网络,得到所述初始的语义预测网络。
10.根据权利要求8或9所述的装置,其中,所述初始的语义预测网络还包括:多通道语音增强网络;
所述样本获取模块,进一步被配置为:将所述目标语音样本输入多通道语音增强网络,得到多通道语音增强网络输出的目标语音样本的第一语音特征。
11.根据权利要求8或9所述的装置,其中,所述编码器网络为预训练的编码器网络;所述装置还包括:
特征获取模块,被配置为获取真实语音样本的第二语音特征;
预训练模块,被配置为对所述第二语音特征执行以下训练步骤:将所述第二语音特征输入初始的编码器网络,得到所述初始的编码器网络输出的第二中间特征;将所述第二中间特征输入至音节分类网络,得到所述音节分类网络输出的预测音节标签;响应于所述预测音节标签与所述样本音节标签之间的差值不符合预设的截止条件,调整所述初始的编码器网络的参数,并跳转至执行所述训练步骤直至所述差值满足所述预设的截止条件,得到所述预训练的编码器网络。
12.根据权利要求8所述的装置,其中,所述每一个解码器网络包括:依次串联的注意力机制层、全连接层和softmax层。
13.根据权利要求8所述的装置,所述装置还包括:文本获取模块,被配置为获取针对目标场景的文本表达和句式;
合成语音模块,被配置为对所述针对目标场景的文本表达和句式进行语音合成,得到针对目标场景的语音信号;
标签确定模块,被配置为基于所述针对目标场景的文本表达和句式的关键词,确定所述针对目标场景的语音信号的样本音节标签和包括域的值的语义标签;
语音作为模块,被配置为将附加所述针对目标场景的语音信号的样本音节标签和包括域的值的语义标签的所述针对目标场景的语音信号,作为所述合成语音样本。
14.一种语义识别装置,所述装置包括:语音获取模块,被配置为获取待识别语音信号;
标签预测模块,被配置为将所述待识别语音信号输入采用如权利要求1‑6任意一项所述的方法训练的已训练的语义预测网络,得到所述待识别语音信号的语义标签。
15.一种芯片,所述芯片中配置有采用如权利要求1‑6任意一项所述的方法训练的已训练的语义预测网络。
16.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑6中任一项所述的方法或权利要求7所述的方法。
17.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1‑6中任一项所述的方法或权利要求7所述的方法。
说明书 :
语义预测网络的训练方法、装置、设备以及存储介质
技术领域
背景技术
程中,需要通过集束搜索/束搜索(beam search)或者加权有限状态转换器(weighted
finite‑state transducer,wfst)等方式进行解码来将语音和语言信息进行融合,以实现
语音识别。
发明内容
网络层;至少一个解码器网络的每一个解码器网络对应一个域,域与场景指令中的槽位相
对应;该语义预测网络的训练方法还包括:获取目标语音样本的第一语音特征;其中,目标
语音样本为合成语音样本或真实语音样本,合成语音样本附有样本音节标签和包括域的值
的语义标签,真实语义样本附有样本音节标签;将第一语音特征输入卷积层,将卷积层的输
出特征输入至长短期记忆网络层,将长短期记忆网络层输出的第一中间特征输入至少一个
解码器网络中的每一个解码器网络,将与第一语音特征对应的语义标签作为至少一个解码
器网络的输出,将第一中间特征作为音节分类网络的输入,将与第一语音特征对应的样本
音节标签作为音节分类网络的输出,联合训练初始的语义预测网络和音节分类网络,得到
已训练的语义预测网络。
音信号的语义标签。
网络层;至少一个解码器网络的每一个解码器网络对应一个域,域与场景指令中的槽位相
对应;该语义预测网络的训练装置包括:样本获取模块,被配置为获取目标语音样本的第一
语音特征;其中,目标语音样本为合成语音样本或真实语音样本,合成语音样本附有样本音
节标签和包括域的值的语义标签,真实语义样本附有样本音节标签;联合训练模块,被配置
为将第一语音特征输入卷积层,将卷积层的输出特征输入至长短期记忆网络层,将长短期
记忆网络层输出的第一中间特征输入至少一个解码器网络中的每一个解码器网络,将与第
一语音特征对应的语义标签作为至少一个解码器网络的输出,将第一中间特征作为音节分
类网络的输入,将与第一语音特征对应的样本音节标签作为音节分类网络的输出,联合训
练初始的语义预测网络和音节分类网络,得到已训练的语义预测网络。
一方面所述的方法训练的已训练的语义预测网络,得到待识别语音信号的语义标签。
令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第二方面中任一实
现方式描述的方法。
长短期记忆网络层;至少一个解码器网络的每一个解码器网络对应一个域,域与场景指令
中的槽位相对应;首先获取目标语音样本的第一语音特征;其中,目标语音样本为合成语音
样本或真实语音样本,合成语音样本附有样本音节标签和包括域的值的语义标签,真实语
义样本附有样本音节标签;然后将第一语音特征输入卷积层,将卷积层的输出特征输入至
长短期记忆网络层,将长短期记忆网络层输出的第一中间特征输入至少一个解码器网络中
的每一个解码器网络,将与第一语音特征对应的语义标签作为至少一个解码器网络的输
出,将第一中间特征作为音节分类网络的输入,将与第一语音特征对应的样本音节标签作
为音节分类网络的输出,联合训练初始的语义预测网络和音节分类网络,得到已训练的语
义预测网络。这一过程中,与背景技术中采用三级级联的语音识别技术相比;本申请中由于
在初始的语义预测网络的训练过程中,可以在编码器网络的输出侧加入音节分类网络的训
练,以便在联合训练过程中,采用语义标签和样本音节标签分别作为对初始的语义预测网
络的输出、音节分类网络的输出的约束,对初始的语义预测网络中的参数的调整,使得编码
器所输出的中间特征可以满足语义预测网络和音节分类网络的训练精度,从而采用混合训
练样本提高编码器输出的中间特征的准确度,进而可以提高最终得到的已训练的语义预测
网络的预测精度;在本申请中可以基于语音分析出语音的语义,因而可以减小背景技术中
将语音转换为文本,再识别出文本的语义的资源开销,且本申请摒弃了三级级联方案中的
传统声学解码,减小了计算量。
附图说明
其中:
具体实施方式
到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同
样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如有线、无线通信链路或者光纤电缆等等。
类网络进行联合训练,得到已训练的语义预测网络。
识别语音信号进行预测,得到待识别语音信号的语义标签;或者,
语音信号的语义标签。
中的芯片。其中,该芯片可以为微电路(microcircuit)、微芯片(microchip)、集成电路
(integrated circuit,IC)或数字信号处理(digital signal processing,DSP)芯片。该芯
片还可以指内含集成电路的硅片,可以是计算机或其他电子设备的一部分。
软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个
软件或软件模块。在此不做具体限定。
域,域与场景指令中的槽位相对应。
积层的输入,编码器网络的卷积层的输出特征为编码器网络的长短期记忆网络层的输入,
编码器网络的长短期记忆网络层的输出特征为至少一个解码器网络的输入。
史提取的特征帮助决策本次提取的特征,从而得到长短期记忆网络层的输出的中间特征,
也即得到预训练的编码器网络输出的中间特征。长短期记忆网络层的数量可以根据语义预
测网络的预测精度、应用场景和本领域技术人员的经验确定。
对应的所有槽位中的一个槽位进行解码。每一个解码器网络对应的域,可以与该特定场景
所涉及的指令中的槽位相对应。经由至少一个解码器网络中的每一个解码器网络分别对一
个槽位进行解码,可以得到输入语音所命中的所有槽位的内容,从而得到输入语音的语义
标签。
器网络。在针对空调控制的场景下,用户可能用到的语音指令为“请九点打开主卧的空调”,
该语音指令所涉及的所有槽位为:“时间槽位”、“意图槽位”、“位置槽位”。N个解码器网络中
的解码器网络A的域与“时间槽位”对应,该解码器网络A对“时间槽位”进行解码,得到“请九
点打开主卧的空调”所命中的“时间槽位”的内容,即“九点”;至少一个解码器网络中的解码
器网络D的域与“意图槽位”对应,该解码器网络D对“意图槽位”进行解码,得到“请九点打开
主卧的空调”所命中的“意图槽位”的内容,即“打开空调”;至少一个解码器网络中的解码器
网络H的域与“位置槽位”对应,该解码器网络H对“位置槽位”进行解码,得到“请九点打开主
卧的空调”所命中的“位置槽位”的内容,即“主卧”;通过解码器网络A的解码输出、解码器网
络D和解码器网络H的解码输出,得到输入语音的语义标签“请九点打开主卧的空调”。
真实语音样本的目标语音样本集合中的语音样本,也即该目标语音样本可以为合成语音样
本或真实语音样本。对于目标语音样本集合中的目标语音样本,上述执行主体可以将目标
语音样本输入至初始的语义预测网络的语音样本,从而将合成语音样本或真实语音样本输
入至初始的语义预测网络。可选的,获取目标语音样本的第一语音特征的方法,可以为现有
技术或未来发展技术中获取目标语音样本的第一语音特征的方法,本公开对此不做限定。
例如,获取目标语音样本的第一语音特征的方法可以通过具有特征提取的模块或网络的方
法来实现。该第一语音特征可以用于表征目标语音样本的语音特性。
该语音合成技术可以为端到端语音合成技术(TTS)或传统TTS。
例如,确定语义标签的方法可以通过合成语音样本的文本表达和句式的关键词的方法或人
工标记的方法来实现。其中,域的值可以用于表征槽位对应的内容。例如,“意图槽位”对应
的内容为“打开空调”,该域的值为“打开空调”。
语音样本附有的样本音节标签的方法进行确定,例如,确定合成语音样本附有的样本音节
标签的方法可以通过合成语音样本的文本表达和句式的关键词的方法或人工标记的方法
来实现。
实语音样本所附有的样本音节标签可以用于标记真实语音样本的各个音节;真实语音样本
的样本音节标签可以基于现有技术或未来发展技术中确定真实语音样本的样本音节标签
的方法进行确定,例如,采用用于识别音节标签的声学模型对真实语音样本进行识别,得到
真实语音样本的样本音节标签。
器网络,将与第一语音特征对应的语义标签作为至少一个解码器网络的输出,将第一中间
特征作为音节分类网络的输入,将与第一语音特征对应的样本音节标签作为音节分类网络
的输出,联合训练初始的语义预测网络和音节分类网络,得到已训练的语义预测网络。
行主体可以将第一中间特征分别输入至少一个解码器网络中的每一个解码器网络和音节
分类网络,并将与第一语音特征对应的语义标签作为至少一个解码器网络的输出,将与第
一语音特征对应的样本音节标签作为音节分类网络的输出,从而采用第一语音特征联合训
练初始的语义预测网络和音节分类网络,得到已训练的语义预测网络。
初始的语义预测网络的输出、音节分类网络的输出的约束,对初始的语义预测网络中的参
数的调整,使得编码器所输出的中间特征可以满足语义预测网络和音节分类网络的训练精
度,从而采用混合训练样本提高编码器输出的中间特征的准确度,进而可以提高最终得到
的已训练的语义预测网络的预测精度;在本申请中可以基于语音分析出语音的语义,因而
可以减小背景技术中将语音转换为文本,再识别出文本的语义的资源开销,且本申请摒弃
了三级级联方案中的传统声学解码,减小了计算量。
输出侧加入音节分类网络的训练,以便在联合训练过程中,采用语义标签和样本音节标签
分别作为对初始的语义预测网络的输出、音节分类网络的输出的约束,对初始的语义预测
网络中的参数的调整,使得编码器所输出的中间特征可以满足语义预测网络和音节分类网
络的训练精度,从而采用混合训练样本提高编码器输出的中间特征的准确度,进而可以提
高最终得到的已训练的语义预测网络的预测精度。
标签。
入多个目标语音样本,针对每个目标语音样本执行步骤301~步骤304;直至多个目标语音
样本对应的差值符合预设的截止条件才执行步骤305,以得到已训练的语义预测网络。其
中,预设的截止条件可以由用户根据对语义预测网络的预测精度要求进行设置。
中,在预测音节标签与样本音节标签之间的差值符合预设的截止条件时停止调整初始的语
义预测网络的参数,使得编码器所输出的中间特征可以满足语义预测网络和音节分类网络
的训练精度,从而采用混合训练样本提高编码器输出的中间特征的准确度,进而可以提高
最终得到的已训练的语义预测网络的预测精度。
作为原始的语义预测网络的输出,训练原始的语义预测网络,得到初始的语义预测网络。
原始的语义预测网络的预测输出与合成语音样本对应的语义标签的差值不满足预设的截
止条件时,调整该原始的语义预测网络中的参数;直至,将合成语音样本输入至调整参数后
的语义预测网络中得到的预测输出与合成语音样本对应的语义标签的差值满足预设的截
止条件,得到初始的语义预测网络。
出,在第i个合成语音样本对应的预测输出和第i个合成语音样本对应的样本音节标签的差
值,不满足预设的截止条件时,调整原始的语义预测网络中的参数,在每次调整原始的语义
预测网络中的参数之后,再次将该第i个合成语音样本输入至调整参数后的原始语义预测
网络,得到的预测输出;并再次将该的预测输出和预设的截止条件的差值,与第i个合成语
音样本对应的样本音节标签进行比较;在差值满足预设的截止条件时,停止对原始的语义
预测网络的参数调整,得到参数调整后的语义预测网络i;接下来,将第(i+1)个合成语音样
本输入参数调整后的语义预测网络i,通过判断第(i+1)个合成语音样本对应的预测输出与
第(i+1)个合成语音样本对应的语义标签的差值判断是否满足预设的截止条件;在差值不
满足预设的截止条件时,调整参数调整后的语义预测网络i,直至该差值满足预设的截止条
件;…,将第N个(N为大于1的正整数)合成语音样本输入参数调整后的语义预测网络(N‑1),
判断第N个合成语音样本对应的预测输出与第N个合成语音样本对应的语义标签的差值是
否满足预设的截止条件,在差值不满足预设的截止条件时,调整参数调整后的语义预测网
络(N‑1),直至该差值满足预设的截止条件,得到初始的语义预测网络。其中,原始的语义预
测网络可以为未进行参数调整的语义预测网络。
练过程中,采用音节分类网络对经由原始的语义预测网络训练得到的初始的语义预测网络
进行辅助训练,从而可以提高已训练的语义预测网络的预测精度。
多通道语音增强网络,得到多通道语音增强网络输出的目标语音样本的第一语音特征。
通道语音增强网络可以用于提取目标语音样本的语音特征。
样本中更具有区分性的语音特征,进而可以实现对目标语音样本中的第一语音特征的准确
获取。
特征执行以下训练步骤:将第二语音特征输入初始的编码器网络,得到初始的编码器网络
输出的第二中间特征;将第二中间特征输入至音节分类网络,得到音节分类网络输出的预
测音节标签;响应于预测音节标签与样本音节标签之间的差值不符合预设的截止条件,调
整初始的编码器网络的参数,并跳转至执行训练步骤直至差值满足预设的截止条件,得到
预训练的编码器网络。
真实语音样本的第二语音特征。该第二语音特征可以表征真实语音样本的语音特性。
对应的预测输出,在第j个第二语音特征对应的预测输出和第j个第二语音特征对应的样本
音节标签的差值,不满足预设的截止条件时,调整初始的编码器网络中的参数,在每次调整
初始的编码器网络中的参数之后,再次将该第j个第二语音特征输入至调整参数后的编码
器网络,得到的预测输出;并再次将该的预测输出和第j个第二语音特征对应的样本音节标
签的差值,与第j个第二语音特征对应的样本音节标签进行比较;在差值满足预设的截止条
件,停止对初始的编码器网络中的参数调整,得到参数调整后的编码器网络j;接下来,将第
(j+1)个第二语音特征输入参数调整后的编码器网络j,通过第(j+1)个第二语音特征对应
的预测输出与第(j+1)个第二语音特征对应的样本音节标签的差值判断是否满足预设的截
止条件,在差值不满足预设的截止条件时,调整参数调整后的编码器网络j中的参数,在该
差值满足预设的截止条件,得到参数调整后的编码器网络(j+1);…,将第M个(M为大于1的
正整数)第二语音特征输入参数调整后的编码器网络(M‑1),通过第M个第二语音特征对应
的预测输出与第M个第二语音特征对应的样本音节标签的差值判断是否满足预设的截止条
件,在差值不满足预设的截止条件时,调整参数调整后的编码器网络(M‑1)中的参数,直至
该差值满足预设的截止条件,得到预训练的编码器网络。
标签。
本的第二语音特征对应的差值都符合预设的截止条件才执行步骤404,得到预训练的编码
器网络。
别经全连接层输入softmax层,该全连接层中的每个神经元与注意力机制层的所有神经元
进行全连接,该全连接层可以连接多个具有不同权重的特征,得到输出特征;然后,softmax
层输出该输出特征所属的分类结果。
网络的softmax层,以实现对第一语音特征的准确输出(即预测语义标签),使得预测语义标
签和语义标签的差值更准确,从而在训练初始的语义预测网络过程中,可以根据该差值准
确地调整初始的语义预测网络的参数,因而提高了语义预测网络的预测精度。
实语音样本的准确学习,使得在联合训练过程中,可以通过该音节分类网络对初始的语义
预测网络的进行辅助训练,可以提高语义预测网络的预测精度。
成,得到针对目标场景的语音信号;基于针对目标场景的文本表达和句式的关键词,确定针
对目标场景的语音信号的样本音节标签和包括域的值的语义标签;将附加针对目标场景的
语音信号的样本音节标签和包括域的值的语义标签的针对目标场景的语音信号,作为合成
语音样本。
标场景的文本表达和句式的关键词,确定针对目标场景的语音信号的样本音节标签和包括
域的值的语义标签;之后将附加针对目标场景的语音信号的样本音节标签和包括域的值的
语义标签的针对目标场景的语音信号,作为合成语音样本。
远程获取。对针对目标场景的文本表达和句式进行语音合成,可以得到针对目标场景的语
音信号。进行语音合成的方法,可以为采用现有技术或未来发展的技术,例如采用端到端语
音合成技术或传统语音合成技术。
的语音信号的样本音节标签和包括域的值的语义标签;之后将附加针对目标场景的语音信
号的样本音节标签和包括域的值的语义标签的针对目标场景的语音信号,作为合成语音样
本,进而可以提高合成语音样本的精度;在联合训练过程,将该合成语音样本作为训练样
本,进而可以提高语义预测网络的预测精度。
样本的语音特征输入至复合全连接层5012,该复合全连接层5012中的每个神经元与复合卷
积层5011的所有神经元进行全连接,该复合全连接层5012可以整合复合卷积层5011中具有
类别区分性的局部信息,得到更能表征真实语音样本的特征的语音特征。
特征;将卷积层5021输出的语音特征分别经由长短期记忆网络层5022和长短期记忆网络层
5023提取特征,其中,长短期记忆网络层5022和长短期记忆网络层5023分别采用历史提取
的特征帮助决策本次提取的特征,从而得到长短期记忆网络层5023的输出的中间特征,也
即得到预训练的编码器网络输出的中间特征。需要说明的是,长短期记忆网络层的数量可
以根据语义预测网络的预测精度、应用场景和本领域技术人员的经验确定。
机制层50311还可以具备池化功能。解码器网络503N包括注意力机制层503N1、全连接层
503N2和softmax层503N3。
将多个具有不同权重的特征分别经全连接层50312输入softmax层50313,该全连接层50312
中的每个神经元与注意力机制层50311的所有神经元进行全连接,该全连接层50312可以连
接多个具有不同权重的特征,得到输出特征;然后,softmax层50313输出该输出特征所属的
分类结果。需要说明的是,解码器网络5031中的注意力机制层50311和解码器网络503N中的
注意力机制层503N1对应的权重可以不同。
器502网络中的长短期记忆网络层5023的所有神经元进行全连接,该全连接层5041可以整
合长短期记忆网络层5023输出的中间特征中具有类别区分性的局部信息,得到更能表征真
实语音样本的特征的语音特征;然后,该softmax层5042输出更能表征真实语音样本的特征
所属的分类结果。
过程中,与背景技术中采用三级级联的语音识别技术相比;本申请中由于在初始的语义预
测网络的训练过程中,可以在编码器网络的输出侧加入音节分类网络的训练,以便在联合
训练过程中,采用语义标签和样本音节标签分别作为对初始的语义预测网络的输出、音节
分类网络的输出的约束,对初始的语义预测网络中的参数的调整,使得编码器所输出的中
间特征可以满足语义预测网络和音节分类网络的训练精度,从而采用混合训练样本提高编
码器输出的中间特征的准确度,进而可以提高最终得到的已训练的语义预测网络的预测精
度;在本申请中可以基于语音分析出语音的语义,因而可以减小背景技术中将语音转换为
文本,再识别出文本的语义的资源开销,且本申请摒弃了三级级联方案中的传统声学解码,
减小了计算量。
以应用于各种电子设备中。
应一个域,域与场景指令中的槽位相对应;本实施例的语义预测网络的训练装置700可以包
括:样本获取模块701,被配置为获取目标语音样本的第一语音特征;其中,目标语音样本为
合成语音样本或真实语音样本,合成语音样本附有样本音节标签和包括域的值的语义标
签,真实语义样本附有样本音节标签;联合训练模块702,被配置为将第一语音特征输入卷
积层,将卷积层的输出特征输入至长短期记忆网络层,将长短期记忆网络层输出的第一中
间特征输入至少一个解码器网络中的每一个解码器网络,将与第一语音特征对应的语义标
签作为至少一个解码器网络的输出,将第一中间特征作为音节分类网络的输入,将与第一
语音特征对应的样本音节标签作为音节分类网络的输出,联合训练初始的语义预测网络和
音节分类网络,得到已训练的语义预测网络。
关说明,在此不再赘述。
合成语音样本对应的语义标签作为原始的语义预测网络的输出,训练原始的语义预测网
络,得到初始的语义预测网络。
网络,得到多通道语音增强网络输出的目标语音样本的第一语音特征。
的第二语音特征;预训练模块(图中未示出),被配置为对第二语音特征执行以下训练步骤:
将第二语音特征输入初始的编码器网络,得到初始的编码器网络输出的第二中间特征;将
第二中间特征输入至音节分类网络,得到音节分类网络输出的预测音节标签;响应于预测
音节标签与样本音节标签之间的差值不符合预设的截止条件,调整初始的编码器网络的参
数,并跳转至执行训练步骤直至差值满足预设的截止条件,得到预训练的编码器网络。
中未示出),被配置为对针对目标场景的文本表达和句式进行语音合成,得到针对目标场景
的语音信号;标签确定模块(图中未示出),被配置为基于针对目标场景的文本表达和句式
的关键词,确定针对目标场景的语音信号的样本音节标签和包括域的值的语义标签;语音
作为模块(图中未示出),被配置为将附加针对目标场景的语音信号的样本音节标签和包括
域的值的语义标签的针对目标场景的语音信号,作为合成语音样本。
种电子设备中。
法训练的已训练的语义预测网络,得到待识别语音信号的语义标签。
不再赘述。
行预测,得到待识别语音信号的语义标签。
预测网络部署至芯片9011的方法可以为现有技术或未来发展的技术中的部署方法。
的准确度。此外,由于布置在芯片中的已训练的语义预测网络的体量较小,可以减少语义预
测的硬件损耗并减少预测过程中的资源开销。
理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形
式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装
置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制
本文中描述的和/或者要求的本公开的实现。
被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指
令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接
口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理
器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各
个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系
统)。图10中以一个处理器1001为例。
义预测网络的训练方法或语义识别方法。本公开的非瞬时计算机可读存储介质存储计算机
指令,该计算机指令用于使计算机执行本公开所提供的语义预测网络的训练方法或语义识
别方法。
识别方法对应的程序指令/模块(例如,附图7所示的样本获取模块701和联合训练模块702;
或,附图8所示的语音获取模块801和标签预测模块802)。处理器1001通过运行存储在存储
器1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处
理,即实现上述方法实施例中的语义预测网络的训练方法或语义识别方法。
语义识别方法的电子设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存
取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬
时固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存
储器,这些远程存储器可以通过网络连接至语义预测网络的训练方法或语义识别方法的电
子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
者其他方式连接,图10中以通过总线连接为例。
小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装
置。输出装置1004可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振
动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和
等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在
包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用
或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数
据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出
装置。
计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指
令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光
盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。
器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用
任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网
(LAN)、广域网(WAN)和互联网。
算机程序来产生客户端和服务器的关系。
长短期记忆网络层;至少一个解码器网络的每一个解码器网络对应一个域,域与场景指令
中的槽位相对应;首先获取目标语音样本的第一语音特征;其中,目标语音样本为合成语音
样本或真实语音样本,合成语音样本附有样本音节标签和包括域的值的语义标签,真实语
义样本附有样本音节标签;然后将第一语音特征输入卷积层,将卷积层的输出特征输入至
长短期记忆网络层,将长短期记忆网络层输出的第一中间特征输入至少一个解码器网络中
的每一个解码器网络,将与第一语音特征对应的语义标签作为至少一个解码器网络的输
出,将第一中间特征作为音节分类网络的输入,将与第一语音特征对应的样本音节标签作
为音节分类网络的输出,联合训练初始的语义预测网络和音节分类网络,得到已训练的语
义预测网络。这一过程中,与背景技术中采用三级级联的语音识别技术相比;本申请中由于
在初始的语义预测网络的训练过程中,可以在编码器网络的输出侧加入音节分类网络的训
练,以便在联合训练过程中,采用语义标签和样本音节标签分别作为对初始的语义预测网
络的输出、音节分类网络的输出的约束,对初始的语义预测网络中的参数的调整,使得编码
器所输出的中间特征可以满足语义预测网络和音节分类网络的训练精度,从而采用混合训
练样本提高编码器输出的中间特征的准确度,进而可以提高最终得到的已训练的语义预测
网络的预测精度;在本申请中可以基于语音分析出语音的语义,因而可以减小背景技术中
将语音转换为文本,再识别出文本的语义的资源开销,且本申请摒弃了三级级联方案中的
传统声学解码,减小了计算量。
括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技
术主要包括计算机视觉技术、语音识别技术、自然语音处理技术以及机器学习/深度学习、
大数据处理技术、知识图谱技术等几大方向。
只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。