会员体验
专利管家(专利管理)
工作空间(专利管理)
风险监控(情报监控)
数据分析(专利分析)
侵权分析(诉讼无效)
联系我们
交流群
官方交流:
QQ群: 891211   
微信请扫码    >>>
现在联系顾问~
首页 / 专利分类库 / 乐器;声学 / 口语评测方法、装置、设备及存储介质

口语评测方法、装置、设备及存储介质

申请号 CN202311642830.X 申请日 2023-11-29 公开(公告)号 CN117746893A 公开(公告)日 2024-03-22
申请人 科大讯飞股份有限公司; 发明人 王超; 吴奎; 盛志超; 李浩; 张凯波; 王士进; 刘聪; 胡国平;
摘要 本 申请 公开了一种口语评测方法、装置、设备及存储介质,本申请配置了文本语音对齐模型,该模型的输入为目标音频的音频表征及参考文本,模型被配置为提取参考文本的嵌入表征,并将嵌入表征与音频表征进行拼接,基于拼接表征解码得到对齐结果,对齐结果包括了目标音频的识别文本及识别文本与参考文本的对齐信息,由此可见,本申请文本语音对齐模型可端到端的直接预测得到对齐结果,避免了传统方案识别结果中产生的级联误差。在得到对齐结果后可以进一步基于对齐结果和参考文本来计算目标音频的完整度测评结果,提高了口语完整度测评结果的准确度。
权利要求

1.一种口语评测方法,其特征在于,包括:
获取口语测评的参考文本及待评测的目标音频;
获取所述目标音频的音频表征;
将所述参考文本及所述目标音频的音频表征输入配置的文本语音对齐模型,得到模型输出的对齐结果,所述对齐结果包括所述目标音频的识别文本及所述识别文本与所述参考文本的对齐信息;其中,所述文本语音对齐模型被配置为,提取输入的所述参考文本的嵌入表征,将所述嵌入表征与所述音频表征拼接,并基于拼接表征解码得到所述对齐结果的内部状态表示;
基于所述对齐结果及所述参考文本,计算所述目标音频的完整度测评结果。
2.根据权利要求1所述的方法,其特征在于,所述识别文本与所述参考文本的对齐信息,包括:所述识别文本中各字符在所述参考文本中的位置编码,且所述识别文本中未能匹配到所述参考文本的字符,其位置编码采用第一设定标识表示。
3.根据权利要求1所述的方法,其特征在于,获取所述目标音频的音频表征的过程,包括:
获取配置的语音识别模型对所述目标音频所提取的用于预测识别文本的隐层表征,作为所述目标音频的音频表征。
4.根据权利要求3所述的方法,其特征在于,还包括:
获取所述语音识别模型对所述目标音频预测的识别文本的第一长度,并输入所述文本语音对齐模型,以供所述文本语音对齐模型基于所述第一长度及所述参考文本的第二长度得到输入位置编码表征,将所述输入位置编码表征和所述拼接表征融合,基于融合表征解码得到所述对齐结果。
5.根据权利要求1所述的方法,其特征在于,所述文本语音对齐模型在训练阶段的训练数据包括:
对音频样本‑参考文本组中的所述音频样本提取音频表征,由所述音频表征及所述参考文本组成输入训练样本;
标注所述音频样本的识别文本及所述识别文本与所述参考文本的对齐信息,由所述识别文本及所述对齐信息组成所述训练样本对应的样本标签。
6.根据权利要求5所述的方法,其特征在于,所述音频样本‑参考文本组中的音频样本包括:
对参考文本按照正常顺序朗读的音频样本;
对参考文本存在句子漏读以及句中字符漏读时的音频样本;
对参考文本存在句子增读以及句中字符增读时的音频样本。
7.根据权利要求3所述的方法,其特征在于,所述语音识别模型被配置为,对输入的所述目标音频的声学特征进行编、解码,得到第一解码特征,以所述参考文本中的内容作为激励文本并提取特征,融合所述激励文本的特征和所述第一解码特征得到用于预测识别文本的隐层表征的内部状态表示。
8.根据权利要求7所述的方法,其特征在于,所述激励文本为所述参考文本;或,所述激励文本为动态激励文本,具体包括:当前时刻待解码字符在所述参考文本中的上下文信息。
9.根据权利要求7所述的方法,其特征在于,所述语音识别模型包括:
编码器解码器和动态文本激励模
所述编码器用于,对输入的所述目标音频的声学特征进行编码,编码特征送入所述解码器;
所述动态文本激励模块用于,根据当前时刻待解码字符在所述参考文本中确定上下文信息,将所述上下文信息作为动态激励文本并对所述动态激励文本进行编码,编码特征送入所述解码器;
所述解码器用于,结合上一时刻的解码字符和所述编码器输入的编码特征进行解码,得到第一解码特征,融合所述第一解码特征和所述动态文本激励模块输入的编码特征得到隐层表征,基于所述隐层表征预测当前时刻的解码字符。
10.根据权利要求2所述的方法,其特征在于,基于所述对齐结果及所述参考文本,计算所述目标音频的完整度测评结果的过程,包括:
在所述对齐结果所包含的对齐信息中,剔除所述第一设定标识的位置编码,并对剩余的各位置编码进行去重,计算去重后各位置编码的第一数量;
将所述第一数量与所述参考文本所包含字符的总数量的比值,作为所述目标音频的完整度得分。
11.根据权利要求1所述的方法,其特征在于,还包括:
获取所述文本语音对齐模型对输入数据提取的用于预测所述对齐结果的隐层表征,作为文本语音对齐表征;
将所述参考文本及所述文本语音对齐表征输入配置的朗读评分模型,得到模型输出的所述目标音频的流利度测评结果和准确度测评结果,由所述流利度测评结果、所述准确度测评结果和所述完整度测评结果组成所述目标音频的整体测评结果;
其中,所述朗读评分模型以训练音频经所述文本语音对齐模型提取的文本语音对齐表征,及所述训练音频对应的参考文本作为训练样本,以所述训练音频标注的流利度得分和准确度得分作为样本标签训练得到。
12.根据权利要求1所述的方法,其特征在于,所述待评测的目标音频为获取的用户实时朗读的音频;
则该方法还包括:
在终端界面上显示所述参考文本,以及,在用户朗读过程中,基于所述对齐结果将实时得到的识别文本在所述参考文本上所对齐的字符通过第一标记显示,以实现口语跟踪显示。
13.根据权利要求1‑11任一项所述的方法,其特征在于,
所述口语测评的参考文本为指定需要背诵的文本,所述目标音频为用户针对所述参考文本的背诵音频;
或,
所述口语测评的参考文本为指定需要朗读的文本,所述目标音频为用户针对所述参考文本的朗读音频。
14.一种口语评测装置,其特征在于,包括:
数据获取单元,用于获取口语测评的参考文本及待评测的目标音频;
音频表征获取单元,用于获取所述目标音频的音频表征;
模型调用单元,用于将所述参考文本及所述目标音频的音频表征输入配置的文本语音对齐模型,得到模型输出的对齐结果,所述对齐结果包括所述目标音频的识别文本及所述识别文本与所述参考文本的对齐信息;其中,所述文本语音对齐模型被配置为,提取输入的所述参考文本的嵌入表征,将所述嵌入表征与所述音频表征拼接,并基于拼接表征解码得到所述对齐结果的内部状态表示;
完整度计算单元,用于基于所述对齐结果及所述参考文本,计算所述目标音频的完整度测评结果。
15.一种口语评测设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~13中任一项所述的口语评测方法的各个步骤。
16.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~13中任一项所述的口语评测方法的各个步骤。

说明书全文

口语评测方法、装置、设备及存储介质

技术领域

[0001] 本申请涉及口语评测技术领域,更具体的说,是涉及一种口语评测方法、装置、设备及存储介质。

背景技术

[0002] 口语评测是指对于受测者针对参考文本所朗读的音频进行评测的过程。口语测评场景可以包括背诵测评、朗读测评等。其中,背诵测评是指给定需要背诵的参考文本如课文,获取受测者以背诵的形式得到的目标音频,进而对目标音频从背诵完整度、发音准确度、背诵流利度等不同维度来评价背诵质量。朗读测评与背诵测评类似,区别仅在于参考文本不需要背诵,仅参照进行朗读即可。最终从朗读完整度、朗读准确度、朗读流利度等不同维度来评价朗读质量。
[0003] 传统的口语评测方法一般是采用语音识别模型对受测目标音频进行识别,得到识别文本。进一步将识别文本与参考文本按照设定匹配规则进行匹配,得到完整度测评结果。这种级联式的测评方案在语音识别阶段会存在识别误差,并将该误差继承到后续匹配阶段,导致测评结果不准确。
发明内容
[0004] 鉴于上述问题,提出了本申请以便提供一种口语评测方法、装置、设备及存储介质,以避免现有技术采用级联方案容易继承识别误差,导致测评结果不准确的问题。具体方案如下:
[0005] 第一方面,提供了一种口语评测方法,包括:
[0006] 获取口语测评的参考文本及待评测的目标音频;
[0007] 获取所述目标音频的音频表征;
[0008] 将所述参考文本及所述目标音频的音频表征输入配置的文本语音对齐模型,得到模型输出的对齐结果,所述对齐结果包括所述目标音频的识别文本及所述识别文本与所述参考文本的对齐信息;其中,所述文本语音对齐模型被配置为,提取输入的所述参考文本的嵌入表征,将所述嵌入表征与所述音频表征拼接,并基于拼接表征解码得到所述对齐结果的内部状态表示;
[0009] 基于所述对齐结果及所述参考文本,计算所述目标音频的完整度测评结果。
[0010] 优选地,所述识别文本与所述参考文本的对齐信息,包括:所述识别文本中各字符在所述参考文本中的位置编码,且所述识别文本中未能匹配到所述参考文本的字符,其位置编码采用第一设定标识表示。
[0011] 优选地,获取所述目标音频的音频表征的过程,包括:
[0012] 获取配置的语音识别模型对所述目标音频所提取的用于预测识别文本的隐层表征,作为所述目标音频的音频表征。
[0013] 优选地,还包括:
[0014] 获取所述语音识别模型对所述目标音频预测的识别文本的第一长度,并输入所述文本语音对齐模型,以供所述文本语音对齐模型基于所述第一长度及所述参考文本的第二长度得到输入位置编码表征,将所述输入位置编码表征和所述拼接表征融合,基于融合表征解码得到所述对齐结果。
[0015] 优选地,所述文本语音对齐模型在训练阶段的训练数据包括:
[0016] 对音频样本‑参考文本组中的所述音频样本提取音频表征,由所述音频表征及所述参考文本组成输入训练样本;
[0017] 标注所述音频样本的识别文本及所述识别文本与所述参考文本的对齐信息,由所述识别文本及所述对齐信息组成所述训练样本对应的样本标签。
[0018] 优选地,所述音频样本‑参考文本组中的音频样本包括:
[0019] 对参考文本按照正常顺序朗读的音频样本;
[0020] 对参考文本存在句子漏读以及句中字符漏读时的音频样本;
[0021] 对参考文本存在句子增读以及句中字符增读时的音频样本。
[0022] 优选地,所述语音识别模型被配置为,对输入的所述目标音频的声学特征进行编、解码,得到第一解码特征,以所述参考文本中的内容作为激励文本并提取特征,融合所述激励文本的特征和所述第一解码特征得到用于预测识别文本的隐层表征的内部状态表示。
[0023] 优选地,所述激励文本为所述参考文本;或,
[0024] 所述激励文本为动态激励文本,具体包括:当前时刻待解码字符在所述参考文本中的上下文信息。
[0025] 优选地,所述语音识别模型包括:
[0026] 编码器解码器和动态文本激励模
[0027] 所述编码器用于,对输入的所述目标音频的声学特征进行编码,编码特征送入所述解码器;
[0028] 所述动态文本激励模块用于,根据当前时刻待解码字符在所述参考文本中确定上下文信息,将所述上下文信息作为动态激励文本并对所述动态激励文本进行编码,编码特征送入所述解码器;
[0029] 所述解码器用于,结合上一时刻的解码字符和所述编码器输入的编码特征进行解码,得到第一解码特征,融合所述第一解码特征和所述动态文本激励模块输入的编码特征得到隐层表征,基于所述隐层表征预测当前时刻的解码字符。
[0030] 优选地,基于所述对齐结果及所述参考文本,计算所述目标音频的完整度测评结果的过程,包括:
[0031] 在所述对齐结果所包含的对齐信息中,剔除所述第一设定标识的位置编码,并对剩余的各位置编码进行去重,计算去重后各位置编码的第一数量;
[0032] 将所述第一数量与所述参考文本所包含字符的总数量的比值,作为所述目标音频的完整度得分。
[0033] 优选地,还包括:
[0034] 获取所述文本语音对齐模型对输入数据提取的用于预测所述对齐结果的隐层表征,作为文本语音对齐表征;
[0035] 将所述参考文本及所述文本语音对齐表征输入配置的朗读评分模型,得到模型输出的所述目标音频的流利度测评结果和准确度测评结果,由所述流利度测评结果、所述准确度测评结果和所述完整度测评结果组成所述目标音频的整体测评结果;
[0036] 其中,所述朗读评分模型以训练音频经所述文本语音对齐模型提取的文本语音对齐表征,及所述训练音频对应的参考文本作为训练样本,以所述训练音频标注的流利度得分和准确度得分作为样本标签训练得到。
[0037] 优选地,所述待评测的目标音频为获取的用户实时朗读的音频;
[0038] 则该方法还包括:
[0039] 在终端界面上显示所述参考文本,以及,在用户朗读过程中,基于所述对齐结果将实时得到的识别文本在所述参考文本上所对齐的字符通过第一标记显示,以实现口语跟踪显示。
[0040] 优选地,所述口语测评的参考文本为指定需要背诵的文本,所述目标音频为用户针对所述参考文本的背诵音频;
[0041] 或,
[0042] 所述口语测评的参考文本为指定需要朗读的文本,所述目标音频为用户针对所述参考文本的朗读音频。
[0043] 第二方面,提供了一种口语评测装置,包括:
[0044] 数据获取单元,用于获取口语测评的参考文本及待评测的目标音频;
[0045] 音频表征获取单元,用于获取所述目标音频的音频表征;
[0046] 模型调用单元,用于将所述参考文本及所述目标音频的音频表征输入配置的文本语音对齐模型,得到模型输出的对齐结果,所述对齐结果包括所述目标音频的识别文本及所述识别文本与所述参考文本的对齐信息;其中,所述文本语音对齐模型被配置为,提取输入的所述参考文本的嵌入表征,将所述嵌入表征与所述音频表征拼接,并基于拼接表征解码得到所述对齐结果的内部状态表示;
[0047] 完整度计算单元,用于基于所述对齐结果及所述参考文本,计算所述目标音频的完整度测评结果。
[0048] 第三方面,提供了一种口语评测设备,包括:存储器和处理器;
[0049] 所述存储器,用于存储程序;
[0050] 所述处理器,用于执行所述程序,实现如前所述的口语评测方法的各个步骤。
[0051] 第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如前所述的口语评测方法的各个步骤。
[0052] 借由上述技术方案,本申请提出了一种基于文本语音对齐的口语评测方式,与传统的先通过语音识别模型对目标音频进行识别,进一步将识别文本与参考文本进行匹配的级联方案不同的是,本申请配置了文本语音对齐模型,该模型的输入为目标音频的音频表征及参考文本,模型被配置为提取参考文本的嵌入表征,并将嵌入表征与音频表征进行拼接,基于拼接表征解码得到对齐结果,对齐结果包括了目标音频的识别文本及识别文本与参考文本的对齐信息,由此可见,本申请的文本语音对齐模型采用了目标音频的音频表征,用于对齐目标音频和参考文本,通过文本语音对齐模型即可端到端的直接预测得到对齐结果,避免了传统方案识别结果中产生的级联误差。在得到对齐结果后可以进一步基于对齐结果和参考文本来计算目标音频的完整度测评结果,提高了口语完整度测评结果的准确度。附图说明
[0053] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0054] 图1示例了一种口语测评方法流程示意图;
[0055] 图2示例了一种口语测评系统框架示意图;
[0056] 图3示例了一种文本语音对齐模型的结构示意图;
[0057] 图4示例了一种按照正常顺序朗读时的标注示意图;
[0058] 图5示例了一种存在句中漏读以及句子漏读时的音频标注图;
[0059] 图6示例了一种存在句中增读和句子增读时的音频标注图;
[0060] 图7示例了一种改进的语音识别模型的架构示意图;
[0061] 图8示例了一种口语评测装置结构示意图;
[0062] 图9示例了一种口语评测设备结构示意图。

具体实施方式

[0063] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0064] 本申请提供了一种口语测评方案,可以适用于所有需要进行口语测评的场景,示例如对于受测者背诵参考文本的口语测评场景或者是受测者朗读参考文本的口语测评场景等。通过采集受测者的目标音频,可以基于该目标音频和参考文本,从完整度、准确度、流利度等不同维度来评价受测者背诵/朗读的质量,也即得到口语测评结果。
[0065] 本申请方案可以基于具备数据处理的终端实现,该终端可以是手机、电脑、学习机、服务器等。
[0066] 接下来,结合图1所述,本申请的口语测评方法可以包括如下步骤:
[0067] 步骤S100、获取口语测评的参考文本及待评测的目标音频。
[0068] 具体地,根据口语测评的应用场景的不同,本步骤中获取的参考文本也可以不同。示例如,对于学生背诵课文的场景,可以将指定需要背诵的课文作为参考文本,同时获取学生背诵的音频作为待评测的目标音频。再比如,对于学生朗读文章的场景,可以将指定需要朗读的文本作为参考文本,同时获取学生朗读的音频作为待评测的目标音频。
[0069] 进一步地,本申请的口语测评方法可以应用于事后测评,也即在得到受测者针对参考文本的完整的目标音频之后,执行本申请的口语测评方法,以学生背诵课文的场景为例,可以录制学生背诵课文的全过程音频,将完整的音频作为本步骤中获取的目标音频,之后执行口语测评的过程。
[0070] 除此之外,本申请的口语测评方法还可以应用于事中测评,也即在受测者针对参考文本进行实时朗读(此处的朗读泛指用户发音的过程,可以包括背诵参考文本和通过口语来播报参考文本的过程)的过程中,获取用户实时朗读的音频,将实时获取的音频作为本步骤中待测评的目标音频,从而实现口语跟踪测评的效果。
[0071] 步骤S110、获取所述目标音频的音频表征。
[0072] 具体地,目标音频的音频表征即声学特征,其可以通过多种方式得到。示例如,直接提取目标音频的声学特征,如Filter Bank特征、傅里叶变换特征等,作为本步骤中的音频表征。此外,还可以获取声学神经网络模型对目标音频提取的隐层特征,作为音频表征。其中,声学神经网络模型可以有多种结构,以语音识别模型为例,将目标音频输入语音识别模型,由语音识别模型的隐藏层来提取目标音频高维度的隐层特征,并基于最后一层隐层特征来预测识别文本。本实施例可以将该最后一层隐层特征(还可以是模型后半部分的任意一个隐层所提取的隐层特征,可以理解的是,越靠后的隐层所提取的隐层特征的信息能够更好的表征目标音频)作为音频表征,也即将语音识别模型的token预测级别的隐层特征作为音频表征。
[0073] 步骤S120、将参考文本及目标音频的音频表征输入配置的文本语音对齐模型,得到模型输出的对齐结果,所述对齐结果包括所述目标音频的识别文本及所述识别文本与参考文本的对齐信息。
[0074] 其中,文本语音对齐模型被配置为,提取输入的参考文本的嵌入表征,将嵌入表征与音频表征拼接,并基于拼接表征解码得到对齐结果的内部状态表示。
[0075] 本申请避免了传统文本语音对齐方法所采用的级联方案,通过一个文本语音对齐模型即可端到端输出同时包含识别文本和对齐信息的对齐结果,避免了识别文本带来的级联误差。同时通过可训练模型的方式,增强文本语音对齐过程的鲁棒性,能够对所有出现的情况进行对齐预测。
[0076] 可选的,对齐结果中识别文本与参考文本的对齐信息可以包括:
[0077] 识别文本中各字符在参考文本中的位置编码,且识别文本中未能匹配到参考文本的字符,其位置编码采用第一设定标识表示。
[0078] 示例如,参考文本为“白日依山尽”,其中从第1个字符“白”开始到最后一个字符“尽”为止,位置编码依次为:0,1,2,3,4。将参考文本标记上位置编码后可以表示为:“白0日1依2山3尽4”。
[0079] 假设学生背诵的目标音频经过上述文本语音对齐模型输出的对齐结果为“白0依2尔null山3尽4”,可知,输出的识别文本为“白依尔山尽”,其中“尔”未能匹配到参考文本的字符,其位置编码采用第一设定标识“null”表示,其余字符均能够匹配到参考文本。
[0080] 当然,上述仅示例了第一设定标识的一种表示形式,实际应用中还可以选用其它标识来表示。
[0081] 步骤S130、基于所述对齐结果及所述参考文本,计算所述目标音频的完整度测评结果。
[0082] 具体地,上述得到的对齐结果中同时包含了识别文本以及识别文本与参考文本的对齐信息,因而可以将识别文本中的字符与参考文本建立对齐匹配关系,在此基础上,可以进一步计算完整度测评结果,如完整度得分、等级等。
[0083] 本申请实施例提出了一种基于文本语音对齐的口语评测方式,与传统的先通过语音识别模型对目标音频进行识别,进一步将识别文本与参考文本进行匹配的级联方案不同的是,本申请配置了文本语音对齐模型,该模型的输入为目标音频的音频表征及参考文本,模型被配置为提取参考文本的嵌入表征,并将嵌入表征与音频表征进行拼接,基于拼接表征解码得到对齐结果,对齐结果包括了目标音频的识别文本及识别文本与参考文本的对齐信息,由此可见,本申请的文本语音对齐模型采用了目标音频的音频表征,用于对齐目标音频和参考文本,通过文本语音对齐模型即可端到端的直接预测得到对齐结果,避免了传统方案识别结果中产生的级联误差。在得到对齐结果后可以进一步基于对齐结果和参考文本来计算目标音频的完整度测评结果,提高了口语完整度测评结果的准确度。
[0084] 如图2,其示例了本申请实施例提供的一种口语测评系统框架示意图。
[0085] 图2中文本语音对齐模块可以采用上述实施例介绍的文本语音对齐模型,其输入包括试卷(即参考文本),以及朗读音频(即目标音频)的音频表征。
[0086] 在图2示例的框架中,语音识别模块可以采用配置的语音识别模型对输入的朗读音频进行隐层特征提取,并将token预测级别的隐层特征(也即语音识别模型的隐藏层提取的用于预测识别文本的隐层特征)作为朗读音频的音频表征,输入到文本语音对齐模块。
[0087] 图2中的语音识别模块所采用的语音识别模型可以是通用的语音识别模型也可以是对通用语音识别模型进行改进后的模型,本申请下述实施例中将展开对改进的语音识别模型进行说明,详细参照下文相关介绍。
[0088] 文本语音对齐模型基于输入的试卷和音频表征,预测输出对齐结果,对齐结果同时包含了朗读音频对应的识别文本,以及识别文本与参考文本的对齐信息,图2中以识别文本中字符在参考文本中的位置编码为例进行说明。
[0089] 可以基于对齐结果和参考文本计算完整度分数。
[0090] 进一步地,本申请的系统框架还可以包括朗读评分模块,其可以采用配置的朗读评分模型,从流利度和准确度维度对音频进行评测,得到流利度分数和准确度分数。
[0091] 朗读评分模型的输入包括参考文本和文本语音对齐表征。其中,文本语音对齐表征可以通过文本语音对齐模型得到,也即获取文本语音对齐模型对输入数据提取的用于预测对齐结果的隐层表征,作为文本语音对齐表征。可以理解的是,该文本语音对齐表征能够更好的表征参考文本和目标音频的对齐信息,基于此朗读评分模型可以更加准确地预测目标音频的流利度分数和准确度分数。
[0092] 其中,朗读评分模型以训练音频经文本语音对齐模型提取的文本语音对齐表征,及训练音频对应的参考文本作为训练样本,以训练音频标注的流利度得分和准确度得分作为样本标签训练得到。
[0093] 进一步需要说明的是,除了图2示例的系统结构外,输入至朗读评分模型的文本语音对齐表征还可以由语音识别模型提供,也即可以将语音识别模型输入至文本语音对齐模型的隐层特征,也作为文本语音对齐表征送入到朗读评分模型。
[0094] 上述实施例中已经说明,目标音频的音频表征可以通过语音识别模型获取,也即将语音识别模型对目标音频所提取的用于预测识别文本的隐层表征,作为目标音频的音频表征。本实施例中进一步结合图3示例的文本语音对齐模型的结构,对文本语音对齐模型的处理过程进行说明。
[0095] 图3中仍以参考文本为“白日依山尽”为例进行说明。
[0096] 通过词嵌入层Token embedding可以获取参考文本的嵌入表示,对应图3中“E白”至“E尽”。
[0097] 通过语音识别模型对目标音频进行特征提取,可以取token预测级别的隐层表征Ehid,将参考文本的嵌入表示和隐层表征拼接,二者中间可以通过设定分隔符“[SEP]”间隔,拼接后的表征可以输入解码器模块,解码器模块可以采用多种网络结构,图3示例的为Transformer Decoder网络结构。经过解码可以得到输出的对齐结果,对齐结果同时包括识别文本及识别文本与参考文本的对齐信息。
[0098] 进一步参照图3所示:
[0099] 考虑到模型的预测目标中包含识别文本与参考文本的对齐信息,该对齐信息涉及到位置关系,因此可以在模型的输入层进一步添加位置编码,也即图3示例的位置编码层position embedding。
[0100] 由于参考文本是显式的,可以直接进行位置编码,得到E0‑E4。
[0101] 至于音频表征所对应的位置编码,可以通过语音识别模型得到其对目标音频预测时的输出Size(即输出识别文本的长度,本申请定义为第一长度),进而文本语音对齐模型可以基于该第一长度来得到音频表征所对应的位置编码,即图3中示例的E6‑E10(E4和E6之间包含分隔符[SEP]对应的位置编码E5)。
[0102] 将上述输入位置编码表征和词嵌入层的拼接表征进行融合,得到融合表征输入到解码器模块进行解码,得到输出的对齐结果。
[0103] 本实施例中,文本语音对齐模型通过在输入层进一步融合位置编码表征,可以提升对齐结果中识别文本和参考文本的对齐信息的预测准确度。
[0104] 对于上述文本语音对齐模型的训练过程,主要涉及到训练数据的构造和训练目标的设计。
[0105] 其中,训练数据可以按照如下方式获取:
[0106] 对音频样本‑参考文本组中的所述音频样本提取音频表征,由所述音频表征及所述参考文本组成输入训练样本。标注所述音频样本的识别文本及所述识别文本与所述参考文本的对齐信息,由所述识别文本及所述对齐信息组成所述训练样本对应的样本标签。
[0107] 其中,音频样本‑参考文本组中包含一份参考文本,以及与该参考文本对应的多条音频样本。
[0108] 考虑到受测者对参考文本的朗读顺序可以分为以下三类:①正常顺序朗读;②存在句中漏读以及句子漏读情况;③以及存在句子中增读和句子增读。因此,音频样本‑参考文本组中的音频样本可以覆盖上述三种情况,即包括:①对参考文本按照正常顺序朗读的音频样本;②对参考文本存在句子漏读以及句中字符漏读时的音频样本;③对参考文本存在句子增读以及句中字符增读时的音频样本。保证训练样本的全面性,从而提升训练后模型的鲁棒性。
[0109] 对于音频样本,提取器音频表征。音频表征的提取方式可以参照前文相关实施例的介绍,如通过配置的语音识别模型来提取音频样本的隐层特征,作为音频表征。由音频样本的音频表征及参考文本组成训练样本。
[0110] 与训练样本对应的样本标签即训练目标,本实施例中文本语音对齐模型的任务是一方面给出音频的识别文本,另一方面是给出识别文本与参考文本的对齐信息,如识别文本中字符在参考文本中的位置编码,因此需要同时标注音频样本的识别文本,以及标注识别文本与参考文本的对齐信息,由该两种标注结果组成训练样本对应的样本标签。
[0111] 如下公式示例了一种样本标签的标注形式:
[0112] [,(w0,n0),(w1,n1),...,(wk,null),...,]    公式1[0113] 其中,表示标签的起始和结束标记。(wi,nj)中的wi表示识别文本中第i个字符,nj表示wi在参考文本中的位置编码。识别文本中未能匹配到参考文本的字符,其位置编码采用null表示。
[0114] 上述样本标签的标注序列中括号仅是为了便于理解识别字符与位置编码的对应关系,实际应用过程中也可以不添加括号,由识别文本及识别文本在参考文本中的位置编码按照设定策略进行排列,如每个识别字符之前或者之后添加该识别字符的位置编码,再或者,将识别文本依序标注出,之后拼接上识别文本中各个字符的位置编码。
[0115] 上述仅示例性说明了样本标签的几种可选标注形式,本领域技术人员还可以采用其它可选的标注形式。
[0116] 在文本语音对齐模型的训练过程,可以以MSE作为损失函数,损失函数的表达形式也可以有多种,如:
[0117] 参考上述示例的样本标签的标注形式,可以将标注序列中的字符和位置编码同等对待,按照如下公式计算损失函数的值:
[0118]
[0119] 其中,yi表示人工标注的样本标签序列中第i个对象(为识别字符或位置编码),表示模型预测的输出序列中第i个对象,N表示人工标注的样本标签序列的长度。
[0120] 再比如:
[0121] 可以将标注序列中的字符和位置编码当作不同类型的对象进行损失函数的计算,如下公式:
[0122]
[0123] 其中,N表示人工标注的样本标签序列的长度,θ为权重参数,用于调整训练过程中识别和对齐两种任务的比值,y2i表示人工标注的样本标签序列中第2i个对象(为识别字符), 表示模型预测的输出序列中第2i个对象(为识别字符),y2i+1表示人工标注的样本标签序列中第2i+1个对象(为位置编码), 表示模型预测的输出序列中第2i+1个对象(为位置编码)。
[0124] 进一步,为了实现对音频样本进行样本标签的标注,本申请实施例还提供了一种新的标注方式,结合图4‑图6所示,可以同时标注分句逻辑和增加、漏读情况。
[0125] 图4示例的为按照正常顺序朗读时的音频标注图。
[0126] 图5示例的为存在句中漏读以及句子漏读时的音频标注图,其中sent0中后两个字符漏读,sent1句子整体漏读。
[0127] 图6示例的为存在句中增读和句子增读时的音频标注图。其中,sent0中存在一个重复朗读的字符,sent1存在整个句子重复朗读。对于重复朗读的句子可以标注出对应的句子编号。sent‑1表示整个句子属于新增朗读内容,不属于参考文本,该句子的编号可以置为sent‑1。
[0128] 基于上述对音频样本的标签标注图,可以方便地得出音频样本的识别文本,以及识别文本在参考文本中的位置编码,因此可以在上述标签标注图的基础上,转换为前述实施例示例的样本标签标注序列,如公式1。
[0129] 在本申请的一些实施例中,对图2中示例的语音识别模块中配置的语音识别模型进行说明。
[0130] 如前文所述,语音识别模型可以采用传统的语音识别模型,也可以采用改进的语音识别模型。
[0131] 通用语音识别模型无法获取受测者朗读过程中的发音意图,也即通用语音识别方案中,并未考虑基于文本内容的识别纠正,因此无法获取到受测者的真实发音意图。当受测者(如小学生)发音存在缺陷的情况下,过于注重识别准确度的识别结果,会在一定程度上影响真实的朗读完整度平。示例如,学生背诵课文“白日依山尽”时,发音出现缺陷如:“依(yi1)”读成了“倚(yi3)”,则通用识别模型给出识别结果较大概率为“白日倚山尽”,与课文对齐后出现“依”字漏背。但实际情况下,老师判断是否漏读的标准并不会在发音缺陷的字词上如此严苛,人工判别背诵结果更倾向于:该句完整背诵,不存在漏背。
[0132] 为了克服通用语音识别模型的这一缺陷,本实施例中提供了一种改进的语音识别模型,在传统语音识别模型的基础上添加了文本激励策略,其中可以将参考文本中的内容作为激励文本,从而让语音识别模型获取到受测者朗读过程的发音意图,改善因为发音缺陷导致识别错误的情况。
[0133] 改进后的语音识别模型被配置为,对输入的目标音频的声学特征进行编、解码,得到第一解码特征,以参考文本中的内容作为激励文本并提取特征,融合激励文本的特征和第一解码特征得到用于预测识别文本的隐层表征的内部状态表示。
[0134] 改进后的语音识别模型可以对输入的目标音频提取到更加高质量的隐层表征,将该高质量的隐层表征送入文本语音对齐模型后,文本语音对齐模型可以基于该高质量的隐层表征预测对齐结果,提升对齐结果中识别文本的准确度,改善因为受测者发音缺陷导致识别错误的情况。
[0135] 其中,激励文本可以固定的将参考文本整体作为激励文本。或者,激励文本还可以是动态激励文本,具体包括:当前时刻待解码字符在参考文本中的上下文信息。
[0136] 参照图7,示例了一种改进的语音识别模型的架构。
[0137] 改进的语音识别模型包括编码器、解码器和动态文本激励模块。
[0138] 编码器用于,对输入的目标音频的声学特征进行编码,编码特征送入所述解码器。其中,声学特征可以采用Filter bank特征或其它类型的声学特征。
[0139] 动态文本激励模块用于,根据当前时刻待解码字符在参考文本中确定上下文信息,将上下文信息作为动态激励文本并对动态激励文本进行编码,编码特征送入所述解码器。
[0140] 以图7示例,当前t时刻待解码字符为“上”,其在参考文本中的上下文信息可以取待解码字符前后各n个(n取值可变,图7示例的n=2)字符,得到的上下文信息为“白鹭上青天”。将其作为动态激励文本,通过动态文本激励模块进行编码。
[0141] 图7示例的动态文本激励模块包括卷积模块和第二Attention模块。第二Attention模块可以采用Sigmoid Attention或其它类型的注意力模块,能够提取动态激励文本的编码特征,并送入解码器。
[0142] 解码器用于,结合上一时刻的解码字符和编码器输入的编码特征进行解码,得到第一解码特征,融合第一解码特征和动态文本激励模块输入的编码特征得到隐层表征,基于隐层表征预测当前时刻的解码字符。
[0143] 图7示例的编码器包括第一Attention模块和特征融合及文本预测模块。其中,第一Attention模块可以采用MoChAAttention,基于注意力机制进行特征提取,得到第一解码特征。
[0144] 特征融合及文本预测模块可以将第一解码特征和动态文本激励模块发送的编码特征进行特征融合,将融合特征作为隐层表征。进一步可以基于融合特征解码得到当前时刻的字符。
[0145] 其中,特征融合及文本预测模块可以采用多层卷积加全连接层的网络组合,也可以采用长短时记忆网络LSTM或其它网络结构。
[0146] 本申请实施例提供的改进的语音识别模型,在对目标音频处理阶段加入参考文本的内容作为动态激励文本,使得语音识别模型可以提取到更加高质量的隐层特征,文本语音对齐模型可以基于该高质量的隐层表征预测对齐结果,对齐结果中的识别文本更加接近受测者的发音意图,进而使得受测者增读、漏读、回读的判断更加准确。
[0147] 在本申请的一些实施例中,对前述实施例中步骤S130,基于所述对齐结果及所述参考文本,计算所述目标音频的完整度测评结果的过程进行说明。
[0148] 一种可选的实现方式中,可以根据对齐结果包含的识别文本与参考文本的对齐信息,得到识别文本中能够对齐到参考文本的字符,组成匹配字符集,进一步可以将匹配字符集中对齐到同一参考文本位置的字符进行去重,计算去重后的匹配字符集的第一数量,将该第一数量与参考文本中所包含的字符的总数量的比值,作为目标音频的完整度得分。
[0149] 另一种可选的实现方式中,基于公式1示例的对齐结果的标注形式,可以在对齐结果所包含的对齐信息中,剔除第一设定标识的位置编码,并对剩余的各位置编码进行去重,计算去重后各位置编码的第一数量。将所述第一数量与所述参考文本所包含字符的总数量的比值,作为所述目标音频的完整度得分。
[0150] 对齐结果中包含识别文本中每个字符在参考文本中的位置编码,由于第一设定标识的位置编码标识对应字符未能够匹配到参考文本,因此可以将其剔除掉。对于剩余的各位置编码,进一步可以进行去重,去重后剩余的各位置编码的第一数量,即表示识别文本所匹配到参考文本中的字符数量,因而将第一数量与参考文本总字符数量的比值,作为目标音频的完整度得分,其可解释性更强,且能够与其它维度如准确度、流利度很好的进行区分。
[0151] 进一步参照图7所示,本申请的口语评测方案可以实现口语跟踪评测。具体地,步骤S100中获取的目标音频为用户实时朗读的音频,则本申请实施例中还可以在终端界面上显示参考文本(如图7右侧示例的古诗文)。参考文本中尚未朗读的内容与已经朗读的内容可以区分显示,如尚未朗读的内容处于未点亮状态,已经朗读的内容可以通过点亮显示。
[0152] 在用户朗读过程中,基于文本语音对齐模型实时输出的对齐结果,将实时得到的识别文本在参考文本上所对齐的字符通过第一标记显示(如高亮显示),以实现口语跟踪显示。
[0153] 传统的级联方案需要语音识别模型输出一定长度序列的识别文本之后,才能保证与参考文本对齐匹配的准确度。在这个过程中,累计的语音识别文本无法实时给出对齐结果,导致背诵跟踪的效果存在延迟,影响用户体验。而采用本申请的文本语音对齐模型可以端到端的输出包含识别文本和对齐信息的对齐结果,也即识别和对齐过程同步进行,不存在延迟,语音识别文本可以实时给出对齐匹配结果,进而通过终端界面实时显示当前朗读的字符,大大减小了口语跟踪的延迟,提升了用户使用体验。
[0154] 下面对本申请实施例提供的口语评测装置进行描述,下文描述的口语评测装置与上文描述的口语评测方法可相互对应参照。
[0155] 参见图8,图8为本申请实施例公开的一种口语评测装置结构示意图。
[0156] 如图8所示,该装置可以包括:
[0157] 数据获取单元11,用于获取口语测评的参考文本及待评测的目标音频;
[0158] 音频表征获取单元12,用于获取所述目标音频的音频表征;
[0159] 模型调用单元13,用于将所述参考文本及所述目标音频的音频表征输入配置的文本语音对齐模型,得到模型输出的对齐结果,所述对齐结果包括所述目标音频的识别文本及所述识别文本与所述参考文本的对齐信息;其中,所述文本语音对齐模型被配置为,提取输入的所述参考文本的嵌入表征,将所述嵌入表征与所述音频表征拼接,并基于拼接表征解码得到所述对齐结果的内部状态表示;
[0160] 完整度计算单元14,用于基于所述对齐结果及所述参考文本,计算所述目标音频的完整度测评结果。
[0161] 可选的,上述识别文本与所述参考文本的对齐信息,包括:所述识别文本中各字符在所述参考文本中的位置编码,且所述识别文本中未能匹配到所述参考文本的字符,其位置编码采用第一设定标识表示。
[0162] 可选的,上述音频表征获取单元获取所述目标音频的音频表征的过程,包括:
[0163] 获取配置的语音识别模型对所述目标音频所提取的用于预测识别文本的隐层表征,作为所述目标音频的音频表征。
[0164] 可选的,本申请的装置还可以包括:
[0165] 识别文本长度获取单元,用于获取所述语音识别模型对所述目标音频预测的识别文本的第一长度,并输入所述文本语音对齐模型,以供所述文本语音对齐模型基于所述第一长度及所述参考文本的第二长度得到输入位置编码表征,将所述输入位置编码表征和所述拼接表征融合,基于融合表征解码得到所述对齐结果。
[0166] 可选的,所述文本语音对齐模型在训练阶段的训练数据包括:
[0167] 对音频样本‑参考文本组中的所述音频样本提取音频表征,由所述音频表征及所述参考文本组成输入训练样本;
[0168] 标注所述音频样本的识别文本及所述识别文本与所述参考文本的对齐信息,由所述识别文本及所述对齐信息组成所述训练样本对应的样本标签。
[0169] 可选的,所述音频样本‑参考文本组中的音频样本包括:
[0170] 对参考文本按照正常顺序朗读的音频样本;
[0171] 对参考文本存在句子漏读以及句中字符漏读时的音频样本;
[0172] 对参考文本存在句子增读以及句中字符增读时的音频样本。
[0173] 可选的,上述用于提取所述目标音频的音频表征的语音识别模型,可以是一种改进的语音识别模型,改进后的语音识别模型被配置为,对输入的所述目标音频的声学特征进行编、解码,得到第一解码特征,以所述参考文本中的内容作为激励文本并提取特征,融合所述激励文本的特征和所述第一解码特征得到用于预测识别文本的隐层表征的内部状态表示。
[0174] 可选的,上述激励文本为动态激励文本,具体包括:当前时刻待解码字符在所述参考文本中的上下文信息。
[0175] 可选的,上述语音识别模型包括:
[0176] 编码器、解码器和动态文本激励模块;
[0177] 所述编码器用于,对输入的所述目标音频的声学特征进行编码,编码特征送入所述解码器;
[0178] 所述动态文本激励模块用于,根据当前时刻待解码字符在所述参考文本中确定上下文信息,将所述上下文信息作为动态激励文本并对所述动态激励文本进行编码,编码特征送入所述解码器;
[0179] 所述解码器用于,结合上一时刻的解码字符和所述编码器输入的编码特征进行解码,得到第一解码特征,融合所述第一解码特征和所述动态文本激励模块输入的编码特征得到隐层表征,基于所述隐层表征预测当前时刻的解码字符。
[0180] 可选的,上述完整度计算单元基于所述对齐结果及所述参考文本,计算所述目标音频的完整度测评结果的过程,包括:
[0181] 在所述对齐结果所包含的对齐信息中,剔除所述第一设定标识的位置编码,并对剩余的各位置编码进行去重,计算去重后各位置编码的第一数量;
[0182] 将所述第一数量与所述参考文本所包含字符的总数量的比值,作为所述目标音频的完整度得分。
[0183] 可选的,本申请的装置还可以包括:流利度及准确度计算单元,用于:
[0184] 获取所述文本语音对齐模型对输入数据提取的用于预测所述对齐结果的隐层表征,作为文本语音对齐表征;将所述参考文本及所述文本语音对齐表征输入配置的朗读评分模型,得到模型输出的所述目标音频的流利度测评结果和准确度测评结果,由所述流利度测评结果、所述准确度测评结果和所述完整度测评结果组成所述目标音频的整体测评结果;
[0185] 其中,所述朗读评分模型以训练音频经所述文本语音对齐模型提取的文本语音对齐表征,及所述训练音频对应的参考文本作为训练样本,以所述训练音频标注的流利度得分和准确度得分作为样本标签训练得到。
[0186] 可选的,上述待评测的目标音频为获取的用户实时朗读的音频,本申请的装置还可以包括:
[0187] 跟踪显示单元,用于在终端界面上显示所述参考文本,以及,在用户朗读过程中,基于所述对齐结果将实时得到的识别文本在所述参考文本上所对齐的字符通过第一标记显示,以实现口语跟踪显示。
[0188] 本申请实施例提供的口语评测装置可应用于口语评测设备。可选的,图9示出了口语评测设备的硬件结构框图,参照图9,口语评测设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
[0189] 在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
[0190] 处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
[0191] 存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non‑volatile memory)等,例如至少一个磁盘存储器;
[0192] 其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
[0193] 获取口语测评的参考文本及待评测的目标音频;
[0194] 获取所述目标音频的音频表征;
[0195] 将所述参考文本及所述目标音频的音频表征输入配置的文本语音对齐模型,得到模型输出的对齐结果,所述对齐结果包括所述目标音频的识别文本及所述识别文本与所述参考文本的对齐信息;其中,所述文本语音对齐模型被配置为,提取输入的所述参考文本的嵌入表征,将所述嵌入表征与所述音频表征拼接,并基于拼接表征解码得到所述对齐结果的内部状态表示;
[0196] 基于所述对齐结果及所述参考文本,计算所述目标音频的完整度测评结果。
[0197] 可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0198] 本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
[0199] 获取口语测评的参考文本及待评测的目标音频;
[0200] 获取所述目标音频的音频表征;
[0201] 将所述参考文本及所述目标音频的音频表征输入配置的文本语音对齐模型,得到模型输出的对齐结果,所述对齐结果包括所述目标音频的识别文本及所述识别文本与所述参考文本的对齐信息;其中,所述文本语音对齐模型被配置为,提取输入的所述参考文本的嵌入表征,将所述嵌入表征与所述音频表征拼接,并基于拼接表征解码得到所述对齐结果的内部状态表示;
[0202] 基于所述对齐结果及所述参考文本,计算所述目标音频的完整度测评结果。
[0203] 可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0204] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0205] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
[0206] 对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。