模型训练、置信度确定方法及装置、电子设备、存储介质转让专利
申请号 : CN202111107722.3
文献号 : CN113555005B
文献日 : 2021-12-28
发明人 : 罗海霞 , 王莎 , 白锦峰
申请人 : 北京世纪好未来教育科技有限公司
摘要 :
权利要求 :
1.一种温度系数预测模型训练方法,其特征在于,所述方法包括:获取多个第一语音数据以及每个所述第一语音数据对应的第一文本信息;
将从所述第一语音数据提取到的声学特征输入预先训练完成的编解码模型,得到所述第一语音数据的深度特征和logits输出结果;
根据所述第一文本信息,构建标签数据;
将所述第一语音数据对应的深度特征输入初始温度系数预测模型,得到温度系数预测值;
将所述温度系数预测值、所述标签数据和所述logits输出结果输入第一损失函数,确定损失函数值;
根据所述损失函数值对所述初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型。
2.根据权利要求1所述的方法,其特征在于,所述编解码模型包括:编码单元和解码单元;
将从所述第一语音数据提取到的声学特征输入所述编解码模型,得到所述第一语音数据的深度特征,包括:
将从所述第一语音数据提取到的声学特征输入所述编解码模型,得到所述编码单元的输出特征,以及所述解码单元的输入特征;
根据所述输出特征和所述输入特征,确定所述第一语音数据的深度特征。
3.根据权利要求2所述的方法 ,其特征在于,所述编解码模型为Transformer模型,所述解码单元包括编码‑解码注意力层;
将从所述第一语音数据提取到的声学特征输入所述Transformer模型,得到所述编码单元的输出特征,以及所述解码单元的输入特征,包括:将从所述第一语音数据提取到的声学特征输入所述Transformer模型,得到所述编码单元的输出特征,以及所述编码‑解码注意力层的输入特征。
4.根据权利要求3所述的方法,其特征在于,所述根据所述输出特征和所述输入特征,确定所述第一语音数据的深度特征,包括:所述输出特征包括:键值K矩阵和值V矩阵,所述输入特征包括:查询Q矩阵;
根据所述K矩阵、所述V矩阵和所述Q矩阵,确定所述第一语音数据的深度特征。
5.根据权利要求4所述的方法,其特征在于,所述根据所述K矩阵、所述V矩阵和所述Q矩阵,确定所述第一语音数据的深度特征,包括:根据以下公式:
,
确定所述第一语音数据的深度特征f;其中,softmax表示归一化指数函数, 表示Q矩T
阵和K矩阵的列数,K表示K矩阵的转置矩阵。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本信息,构建标签数据,包括:
针对所述第一文本信息中的每个字符,构建所述字符对应的标签数据,其中,所述标签数据为预设维度的向量,所述预设维度为文本字符序列中文本字符的总数量;如果所述字符为所述文本字符序列中的第N个文本字符,则所述标签数据中第N个元素的值为第一数值,所述标签数据中其他元素的值为第二数值,N为不大于所述预设维度的正整数。
7.根据权利要求6所述的方法,其特征在于,如果所述第一数值为1,所述第二数值为0,则训练生成的所述目标温度系数预测模型的输出为温度系数的倒数。
8.根据权利要求1所述的方法,其特征在于,所述编解码模型的训练方法包括:获取多个第二语音数据以及每个所述第二语音数据对应的第二文本信息;
提取所述第二语音数据中的声学特征,以及所述第二文本信息中的文本特征;
将所述声学特征和所述文本特征输入初始模型,得到第二文本预测结果;
利用预设的第二损失函数,根据所述第二文本预测结果与所述第二文本信息,确定损失函数值;
基于所述损失函数值对所述初始模型进行训练,生成所述编解码模型。
9.根据权利要求6所述的方法,其特征在于,所述第一损失函数包括负对数似然函数,所述负对数似然函数表示为:
,
其中,Loss表示损失函数值,B表示批量batch的大小, 表示第n个时间步的logits输出结果, 表示第n个时间步的深度特征, 表示第n个时间步的温度系数预测值,表示第i个batch第n个时间步对应字符的标签数据,如果第一语音数据对应L个时间步,n为1 L的整数,L为正整数。
~
10.一种置信度确定方法,其特征在于,所述方法包括:获取待识别语音数据,并提取所述待识别语音数据的声学特征;
将所述声学特征输入预先训练完成的编解码模型,得到该待识别语音数据的深度特征和logits输出结果;
将所述深度特征输入预先训练完成的目标温度系数预测模型,得到温度系数;其中,所述目标温度系数预测模型基于权利要求1‑9任一项所述的方法训练得到;
根据所述温度系数和所述logits输出结果,确定所述待识别语音数据的文本识别结果的置信度。
11.根据权利要求10所述的方法,其特征在于,所述根据所述温度系数和所述logits输出结果,确定所述待识别语音数据的文本识别结果的置信度,包括:根据以下公式:
,确定所述待识别语音数据第n个时间步的文本识别结果的置信度Cn,其中, 表示第n个时间步的logits输出结果, 表示第n个时间步的深度特征, 表示第n个时间步的温度系数预测值,如果待识别语音数据对应S个时间步,n为1 S的整数,S为正整数。
~
12.一种温度系数预测模型训练装置,其特征在于,所述装置包括:第一样本数据获取模块,用于获取多个第一语音数据以及每个所述第一语音数据对应的第一文本信息;
数据处理模块,用于将从所述第一语音数据提取到的声学特征输入预先训练完成的编解码模型,得到所述第一语音数据的深度特征和logits输出结果;
标签数据构建模块,用于根据所述第一文本信息,构建标签数据;
温度系数值预测模块,用于将所述第一语音数据对应的深度特征输入初始温度系数预测模型,得到温度系数预测值;
第一损失函数值确定模块,用于将所述温度系数预测值、所述标签数据和所述logits输出结果输入第一损失函数,确定损失函数值;
目标温度系数预测模型训练模块,用于根据所述损失函数值对所述初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型。
13.一种置信度确定装置,其特征在于,所述装置包括:声学特征提取模块,用于获取待识别语音数据,并提取所述待识别语音数据的声学特征;
数据处理模块,用于将所述声学特征输入预先训练完成的编解码模型,得到该待识别语音数据的深度特征和logits输出结果;
温度系数确定模块,用于将所述深度特征输入预先训练完成的目标温度系数预测模型,得到温度系数;其中,所述目标温度系数预测模型基于权利要求1‑9任一项所述的方法训练得到;
置信度确定模块,用于根据所述温度系数和所述logits输出结果,确定所述待识别语音数据的文本识别结果的置信度。
14.一种电子设备,其特征在于,包括:处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行权利要求1‑9任一项所述的方法,或者执行权利要求10或11所述的方法。
15.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1‑9任一项所述的方法,或者执行权利要求10或11所述的方法。
说明书 :
模型训练、置信度确定方法及装置、电子设备、存储介质
技术领域
背景技术
常可以利用置信度来评价输出结果的可靠性。
因而模型对输出结果体现出“overconfident”的现象,具体表现为即使预测结果并非正确
结果,模型也将给出较高的置信度。因此,输出概率不能直接较准确地反映模型预测结果的
真实可靠性,即置信度的可靠性较低。
发明内容
到;
系数预测模型,得到温度系数预测值;将温度系数预测值、标签数据和logits输出结果输入
第一损失函数,确定损失函数值;根据损失函数值对初始温度系数预测模型的参数进行调
整,得到目标温度系数预测模型,即在编解码模型的基础上,训练一个独立的温度系数预测
模型来预测温度系数。由于温度系数是神经网络中的一个超参数,用于调整分类模型最终
输出结果的平滑性,因此,通过温度系数对置信度进行校正,可以使校正后的置信度更准确
地描述输出结果,提高输出置信度的可靠性。
附图说明
言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
具体实施方式
里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的
是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
请的范围在此方面不受限制。
“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定
义将在下文描述中给出。需要注意,本申请中提及的“第一”、“第二”等概念仅用于对不同的
装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者
相互依存关系。
预测输出相关联的置信度来对识别结果进行评价,从而进行输出结果的后处理。另外,置信
度还具有较多的实际应用价值,比如对集外词的拒识别,在大词汇自动语音识别系统训练
过程中用于模型自适应,利用置信度筛选模型训练数据等。
于注意力机制的编码‑解码建模方法的置信度问题在手写识别和机器翻译方面有了一些相
关的研究,但在自动语音识别模型中尚未得到深入研究。基于此,本申请提供了一种模型训
练、置信度确定方法及装置、电子设备、存储介质,以在进行自动语音识别时提高识别结果
的置信度的准确性。
链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
智能设备101、智能设备102可以是各种可以识别语音数据的电子设备,包括但不限于智能
音箱、智能手机和平板电脑等等。应该理解,图1中的智能设备、网络和服务器的数量仅仅是
示意性的。根据实现需要,可以具有任意数量的智能设备、网络和服务器。比如服务器104可
以是多个服务器组成的服务器集群等。
104中。但本领域技术人员容易理解的是,本申请实施例所提供的温度系数预测模型训练方
法及置信度确定方法也可以由智能设备101、智能设备102执行。举例而言,服务器104可以
预先训练生成编解码模型,并获取语音数据和语音数据对应的文本信息,服务器104通过编
解码模型对语音数据进行处理,提取其深度特征,并获取logits输出结果和文本预测结果。
根据语音数据对应的文本信息构建标签数据,将深度特征输入初始温度系数预测模型,得
到温度系数预测值;将温度系数预测值、标签数据和logits输出结果输入第一损失函数,确
定损失函数值;根据损失函数值对初始温度系数预测模型的参数进行调整,得到目标温度
系数预测模型。
深度特征,并获取对应的logits输出结果。将深度特征进一步输入目标温度系数预测模型,
得到温度系数,根据温度系数和logits输出结果,确定待识别语音数据的文本识别结果的
置信度,以提高置信度的可靠性。
实结果是第一类,解码的logits输出结果为[3,2,1],在不使用温度系数的情况下,通过归
一化指数函数,计算得到的结果为[0.665,0.245,0.090],即此时的置信度为0.665,虽然模
型预测正确,但给出的置信度并不高,不符合模型的实际可靠性。假设通过温度系数预测模
型预测得到的温度系数T=0.5,将上述logits输出结果除以温度系数可以得到[3/0.5,2/
0.5,1/0.5],通过归一化指数函数,计算得到的结果为[0.867,0.117,0.016],即此时的置
信度为0.867。可见,温度系数并未改变最终的输出结果(logits中数值最大者所在类别),
但经温度系数调整后的置信度能够更准确地反应模型预测结果的可靠程度。
音数据进行语音识别得到的文本信息。即,第一文本信息与第一语音数据是一一对应的。
进行识别,得到对应的文本信息。本申请实施例中,将从每个第一语音数据提取到的声学特
征输入编解码模型,可以提取第一语音数据的深度特征,还可以获取logits输出结果。
logits输出结果指的是神经网络模型的原始输出值,将logits输出结果输入softmax层中
进行归一化处理之后可以输出最终分类结果,即文本预测结果。因此,文本预测结果是编解
码模型的最终输出结果,深度特征和logits输出结果均为编解码模型的中间结果。
编解码模型,得到对应的深度特征和logits输出结果。可以将深度特征作为用于训练温度
系数预测模型的输入数据,logits输出结果用于计算损失函数值。
个字符,均可以构建对应的标签数据。可选的,每个字符对应的标签数据为预设维度的向
量,预设维度为文本字符序列中文本字符的总数量;如果字符为文本字符序列中的第N个文
本字符,则标签数据中第N个元素的值为第一数值,标签数据中其他元素的值为第二数值,N
为不大于预设维度的正整数。
文本字符序列可以是该语种语言中的所有单词构成的序列。如果第一文本信息中的某一个
字符是文本字符序列中的第一百位字符,那么,该字符对应的标签数据中,第一百位元素的
值为第一数值,剩余其他元素的值为第二数值。第一数值和第二数值用于对第一文本信息
中当前识别的字符和其他字符进行区分。例如,第一数值可以是1,第二数值可以是0等,第
一数值和第二数值也可以是其他数值,本申请对此不做限定。
系数预测模型,通过初始温度系数预测模型对深度特征进行处理,可得到温度系数预测值。
可以理解的是,该温度系数预测值通常不是准确的温度系数预测值,因此,可以通过训练过
程,对初始温度系数预测模型的参数值不断调整,以对参数值进行优化。
失函数,可以确定损失函数值。其中,第一损失函数包括但不限于:负对数似然函数。具体
的,可以先根据logits输出结果和温度系数预测值,得到置信度预测结果。根据置信度预测
结果和标签数据得到损失函数值。
从而得到最终的目标温度系数预测模型。
预测模型的训练数据是根据编解码模型的输出构建,因此,编解码模型的准确性将会影响
温度系数预测模型的准确性。为了提高温度系数预测模型的准确性,本申请在预先训练编
解码模型时,可以对编解码模型的稳定性进行验证,以最终得到稳定的编解码模型。
logits输出结果。通过将深度特征输入初始温度系数预测模型,得到温度系数预测值;将温
度系数预测值、标签数据和logits输出结果输入第一损失函数,确定损失函数值;根据损失
函数值对初始温度系数预测模型的参数进行调整,得到目标温度系数预测模型,即在编解
码模型的基础上,训练一个独立的温度系数预测模型来预测温度系数。由于温度系数是神
经网络中的一个超参数,用于调整分类模型最终输出结果的平滑性,因此,通过温度系数对
置信度进行校正,可以使校正后的置信度更准确地描述输出结果,提高输出置信度的可靠
性。
性,训练温度系数预测模型所使用的第一语音数据和第一文本信息,可以包含于第二语音
数据和第二文本信息,即第一语音数据和第一文本信息可以是第二语音数据和第二文本信
息中的部分子数据或者全部数据。
模型的预测值和真实值差异的程度,损失函数值越小,模型的鲁棒性越好。
稳定性,还可以对编解码模型进行测试,即通过测试数据来验证编解码模型的稳定性。例
如,在识别正确率达到96%的情况下,可以认为编解码模型比较稳定。
码模型,编码单元的输出特征和解码单元的输入特征通常会存在区别,因此,将声学特征输
入编解码模型,可以提取编码单元的输出特征和解码单元的输入特征。
也会不同,下文将针对具体类型的编解码模型,对深度特征的确定方法进行详细说明,在此
不再详述。
施例中的描述即可,在此不再赘述。
度系数预测模型的输入来训练温度系数预测模型,可以提高所训练的温度系数预测模型的
准确性。
得到广泛使用。在语音识别领域,将语音数据的声学特征输入Transformer模型,可以输出
对应的文本信息。另外,Transformer模型由于具有可并发计算的特性而得到工业界的广泛
青睐。
训练方法的又一种流程图,可以包括以下步骤:
络和求和归一化层。解码单元包括:自注意力层、求和归一化层、编码‑解码注意力层、求和
归一化层、前馈神经网络和求和归一化层,N为正整数。图7所示的编码单元和解码单元的数
量均为1,通常可以具有更多个编码单元和解码单元,例如,编码单元和解码单元的数量可
以均为5、6等,在此不做限定。
元的输出特征是最后一个编码单元的输出特征,编码‑解码注意力层的输入特征是第一个
解码单元中编码‑解码注意力层的输入特征的情况下,得到的深度特征更完整,深度特征的
准确性更高。最后一个编码单元的输出特征和第一个解码单元中编码‑解码注意力层的输
入特征可参见图7所示的虚线箭头部分。需要说明的是,Transformer模型编码单元的输入
为从该第一语音数据提取到的声学特征,解码单元的输入是当前时刻已输出的历史文本信
息的文本特征。例如,假设第一语音数据是“我爱北京天安门”,如果当前正在识别“天”这个
字,当前时刻已输出的历史文本信息即为“我爱北京”,对该历史文本信息进行特征提取之
后,输入解码单元。
V矩阵和Q矩阵,确定第一语音数据的深度特征。
T
内积过大,因此可以除以 的平方根,K表示K矩阵的转置矩阵。
声学信息和文本信息。
述方式构建标签数据,是因为标签数据和温度系数的倒数两者之间有较强的正相关性,具
体表现为,当字符对应的标签数据中该字符对应的元素的值为1时,说明输出结果正确,模
型的输出置信度越大越可靠,即温度系数的倒数接近1;当标签数据中该字符对应的元素的
值为0时,说明输出结果错误,模型的输出置信度越小越可靠,即温度系数的倒数接近0。
模型的输出可以为温度系数,或者温度系数预测模型的输出与温度系数满足某个公式,该
公式可以基于第一数值和第二数值的具体数值来确定。
以表示为:
测值, 表示第i个batch第n个时间步对应字符的标签数据,例如,在一个多分类
Transformer模型中,当前时刻的字符对应于文本字符序列中的第2个文本字符,则 =
[0,1,0,0,...]。如果第一语音数据对应L个时间步,n为1 L的整数,L为正整数。
~
前时刻已输出的历史文本信息(即解码单元的输入特征)的深度特征,将深度特征用于训练
独立的温度系数预测模型,以通过温度系数预测模型预测温度系数。进而,可以通过温度系
数对置信度进行校正,提高输出置信度的可靠性。
logits输出结果。
的深度特征, 表示第n个时间步的温度系数预测值, 如果待识别语音数据对应S个时
间步,n为1 S的整数,S为正整数。
~
的历史文本信息,提取历史文本信息的文本特征,基于声学特征和文本特征,得到深度特
征,从而使深度特征包含音频信息、当前时刻已输出的历史文本信息,提高深度特征的准确
性。那么,在根据深度特征预测温度系数时,可以提高温度系数预测的准确性。进而,可以提
高基于温度系数所确定的置信度的准确性。
个时间步的温度系数,用当前时间步的logits输出结果除以该温度系数,在不改变识别结
果的前提下,可调整输出概率的分布,从而对置信度进行校正,使校正后的置信度更准确地
描述模型输出结果,提高输出置信度的可靠性。
阵和K矩阵的列数,K表示K矩阵的转置矩阵。
符序列中文本字符的总数量;如果字符为文本字符序列中的第N个文本字符,则标签数据中
第N个元素的值为第一数值,标签数据中其他元素的值为第二数值,N为不大于预设维度的
正整数。
测值, 表示第i个batch第n个时间步对应字符的标签数据,如果第一语音数据对应L个
时间步,n为1 L的整数,L为正整数。
~
练得到;
度特征, 表示第n个时间步的温度系数预测值,如果待识别语音数据对应S个时间步,
n为1 S的整数,S为正整数。
~
算机程序在被所述至少一个处理器执行时用于使所述电子设备执行本申请实施例的方法。
法。
字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀
片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装
置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所
示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述
的和/或者要求的本申请的实现。
算机程序,来执行各种适当的动作和处理。在RAM 1203中,还可存储设备1200操作所需的各
种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出
(I/O)接口1205也连接至总线1204。
的任何类型的设备,输入单元1206可以接收输入的数字或字符信息,以及产生与电子设备
的用户设置和/或功能控制有关的键信号输入。输出单元1207可以是能呈现信息的任何类
型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印
机。存储单元1204可以包括但不限于磁盘、光盘。通信单元1209允许电子设备1200通过诸如
因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限
于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi
设备、WiMax设备、蜂窝通信设备和/或类似物。
人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、
以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和
处理。例如,在一些实施例中,温度系数预测模型训练方法,及置信度确定方法可被实现为
计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1208。在一些实施例中,
计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到
电子设备1200上。在一些实施例中,计算单元1201可以通过其他任何适当的方式(例如,借
助于固件)而被配置为执行温度系数预测模型训练方法,或置信度确定方法。
理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件
包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电
子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM
或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD‑ROM)、光学储存设备、磁储存设备、或
上述内容的任何合适组合。
盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读
介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何
信号。
器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来
将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的
反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用
任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界
面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部
件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数
字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网
(LAN)、广域网(WAN)和互联网。
算机程序来产生客户端和服务器的关系。