触发语音交互响应的方法及设备转让专利
申请号 : CN201911261477.4
文献号 : CN111028842B
文献日 : 2021-05-11
发明人 : 罗骏
申请人 : 上海芯翌智能科技有限公司
摘要 :
权利要求 :
1.一种触发语音交互响应的方法,其中,该方法包括:接收用户语音,并对所述用户语音进行关键词语音识别;
若识别到关键词,获取与所述关键词对应的唇部变化图像序列及所述关键词的文本;
对所述关键词的文本进行序列标注,获取序列标注后的关键词文本;
对所述唇部变化图像序列与所述序列标注后的关键词文本进行匹配,获取相应的匹配置信度;
若所述匹配置信度满足预设的语音交互响应规则,则触发语音交互响应。
2.根据权利要求1所述的方法,其中,对所述用户语音进行关键词语音识别,包括:将所述用户语音与预设的关键词语音识别模型匹配,确定所述用户语音中是否有关键词。
3.根据权利要求2所述的方法,其中,所述关键词语音识别模型的语法规则基于上下文无关文法建立。
4.根据权利要求1所述的方法,其中,获取与所述关键词对应的唇部变化图像序列,包括:
获取所述关键词在所述用户语音中的开始时间和结束时间;
获取与所述用户语音同步采集的唇部变化图像序列;
获取所述唇部变化图像序列中所述开始时间和所述结束时间之间的唇部变化图像序列。
5.根据权利要求1所述的方法,其中,所述匹配置信度P通过如下公式进行计算:其中,P(W)为将所述唇部变化图像序列与关键词的文本进行比对得到的似然概率,∑P(Wi)为对所述唇部变化图像序列进行解码得到多种解码结果的似然概率之和。
6.根据权利要求1所述的方法,其中,若所述匹配置信度满足预设的语音交互响应规则,则触发语音交互响应,包括:若所述匹配置信度超过预设的语音交互响应阈值,则触发语音交互响应。
7.一种设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,使该设备执行权利要求1至6中任一项所述的方法。
8.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至6中任一项所述的方法。
说明书 :
触发语音交互响应的方法及设备
技术领域
背景技术
否作为引导词位于语音的开头,往往还需要根据语音识别结果中唤醒词的置信度做拒识评
价,如果评价分数过低则拒绝进行响应,唤醒词例如Amazon的“Alex”,小米的“小爱同学”
等。
响应和进行怎样的响应。关键词技术还可以对语音识别的结果做进一步的语义分析,再根
据语义分析的结果判断是否进行响应,例如,对于车载语音对话系统,系统需要判断当前的
指令是否与车载系统相关,如调节温度、设定导航等等,对于这一类的指令需要做出响应,
其他的内容例如用户对话聊天则可以忽略。
可靠性也受到影响,因此,唤醒词技术和关键词技术都存在误触发率较高的问题,难以在及
时响应的前提下降低误触发率。
比,从而灵活性不高。
发明内容
语音交互响应的方法。
得到匹配置信度,如果匹配置信度符合预先定义的语音交互响应规则,则触发语音交互响
应,从而提高了响应的准确率,降低了语音交互响应的误触发率,提升了用户体验。
附图说明
具体实施方式
例。
计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动
态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除
可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、
数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或
任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机
可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
词对应的唇部变化图像与该关键词进行匹配,在匹配置信度满足预先定义的语音交互响应
规则时,触发相应的语音交互响应。
在用户语音的中间或末尾;关键词还可以包括唤醒词,唤醒词是用户语音的开始词语,语音
交互系统可在识别出唤醒词后激活语音交互响应。在此,关键词以文本形式进行定义,并可
通过表示音素的隐含马尔可夫模型及可以把关键词翻译为音素(或音标)的字典模型得到
关键词的模型表示。
系统已经预先建立了关键词语音识别模型,该模型定义了可用于激活语音交互的关键词,
并且可对用户语音中的关键词进行识别。优选地,关键词语音识别模型的语法规则可基于
上下文无关文法建立,使用该文法可使得语音中的词语被其它词语任意替代而不需要考虑
该词语在语音中的上下文,语音识别时只会在该语法规则限定的范围内进行搜索。选择上
下文无关文法可使得关键词语音识别模型实现比较简单,同时也具有足够强的语音识别能
力。
型参数,训练结束后得到最终的关键词语音识别模型。在此,可通过训练深度神经网络或训
练循环神经网络的参数来得到表示音素的参数模型。
为语音形式,也可为文本形式。
<…>|…,其中<…>表示任意语音,可以匹配任何文字信息,关键词1、关键词2等可为语音形
式,也可为文本形式。“|”表示“或”关系,即识别结果可以是若干可能路径的组合。关键词可
例如为“播放音乐”/“调整温度”等。识别出关键词之后,再基于关键词进行语义解析。如果
用户语音识别结果中不包括关键词,或语义解析后包含关键词的结果置信度太低,则停止
后续的处理。
Classification,CTC)、序列到序列方法(Sequence‑to‑Sequence)等;可通过隐含马尔可夫
模型对音素进行建模,根据语法规则及词典构建搜索网络,再通过有限状态自动机模型做
解码;也可通过连接时序分类模型对字符做解码;还可以通过序列到序列方法直接将语音
序列转换为文本序列等。
也可能是受到噪声干扰导致错误的语音识别得到的关键词。为避免错误的触发语音交互响
应,可对该关键词进行下一步的确认。
时间和结束时间,开始时间标记该关键词的开始,结束时间标记该关键词的结束,例如,识
别得到的关键词及相应时间可为:Alexa[start:50ms,end:600ms]<…>[start:650ms,end:
1000ms]。另外,语音交互系统在采集用户语音时同步对用户的唇部变化情况进行采集,例
如可通过摄像头、摄像机等图像采集设备对准用户唇部采集唇部变化图像。在此,采集的用
户唇部变化情况可以为唇部变化视频,也可以是由多张唇部变化图像组成的唇部变化图像
序列,如果为唇部变化视频,可将唇部变化视频分拆成为唇部变化图像序列。唇部变化图像
也对应有相应的拍摄时间,从而可获取一段时间内的唇部变化图像序列。由于用户语音和
唇部变化图像序列是同步采集,因此关键词对应的开始时间和结束时间也是关键词对应的
唇部变化情况的开始时间和结束时间,可根据关键词的开始时间和结束时间在全部唇部变
化图像序列中截取该关键词对应的唇部变化图像序列。
本进行匹配,获取相应的匹配置信度。具体来说,将唇部变化图像序列与关键词的文本进行
匹配,获取相应的匹配置信度,包括如下步骤:对关键词的文本进行序列标注,获取序列标
注后的关键词文本;对唇部变化图像序列与序列标注后的关键词文本进行匹配,获取相应
的匹配置信度。序列标注的输入是一个序列,输出也是一个序列。在此,可将关键词的文本
翻译为图像识别可理解的序列标注,例如音标序列,再将唇部变化图像序列与序列标注后
的文本对齐并计算相应的匹配置信度,这里的匹配置信度可理解为后验概率。
关键词。具体来说,∑P(Wi)是对唇部变化图像序列进行无限定解码所得到的所有可能解码
结果的似然概率之和,在此,无限定解码指的是不限定识别文法,即唇部变化图像序列的识
别结果可以是任意的音素/文字序列。类似于语音识别中对音频流进行解码,对唇部变化图
像序列进行无限定解码可以得到多个可能的识别结果,每个结果有相应的概率量度P(Wi)。
对唇部变化图像序列进行解码可采用类似语音识别的技术,例如通过连接时序分类模型
(CTC)或其它方法进行解码等。
果匹配置信度超过预设的语音交互响应阈值,则触发语音交互响应。触发语音交互响应可
包括多种后续的处理流程,如触发更加复杂的识别文法及自然语言处理系统,记录对话状
态,从而可以进行多轮的人机对话过程等。
设备执行前述触发语音交互响应的方法。
识别做进一步的确认,从而降低了嘈杂环境下语音交互系统的误触发率。另外,与现有唇部
变化识别技术不同的是,本申请方案提供了将唇部变化图像转化为文字序列并给出相应置
信度度量的功能,从而不需要预设图像,只需要预设的关键词文本,从而提高了配置灵活
性。
配置信度,如果匹配置信度符合预先定义的语音交互响应规则,则触发语音交互响应,从而
提高了响应的准确率,降低了语音交互响应的误触发率,提升了用户体验。
中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的
软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,
磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例
如,作为与处理器配合从而执行各个步骤或功能的电路。
而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过
广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的
计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个设备,该设备包括用
于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指
令被该处理器执行时,触发该设备运行基于前述根据本申请的多个实施例的方法和/或技
术方案。
从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权
利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有
变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此
外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个
单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表
示名称,而并不表示任何特定的顺序。