持续语音人机交互方法和系统转让专利
申请号 : CN201511010302.8
文献号 : CN105590626B
文献日 : 2020-03-03
发明人 : 吴世伟
申请人 : 百度在线网络技术(北京)有限公司
摘要 :
权利要求 :
1.一种持续语音人机交互方法,其特征在于,包括以下步骤:
接收用户输入的持续语音信号;
基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音;
基于动态语言模型对所述多个短语音进行识别,并为每个短语音生成对应的识别结果,其中,解析所述短语音的语义信息,当短语音的语义信息与上下文信息相关时,生成短语音对应的识别结果,当短语音的语义信息与上下文信息不相关时,过滤掉短语音;
基于上下文语义解析技术对所述识别结果进行语义补全,并生成语义补全结果;以及基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句,其中,获取知识库中的待选答案,基于有限状态机FST从所述待选答案中选择与所述语义补全结果音对应的跳转概率最大的问答语句;
在向用户提供问答语句后,如果在预定时间内未接收到用户的反馈,则根据当前场景信息生成主动引导决策,以根据所述主动引导决策对用户进行引导。
2.如权利要求1所述的方法,其特征在于,所述基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音,包括:根据预先建立的静音模型,利用深度学习算法对所述持续语音信号的每帧语音进行识别,以识别出静音语音;
以所述静音语音为切分点将所述持续语音信号切分为多个短语音。
3.一种持续语音人机交互系统,其特征在于,包括:
接收模块,用于接收用户输入的持续语音信号;
切分模块,用于基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音;
识别模块,用于基于动态语言模型对所述多个短语音进行识别,并为每个短语音生成对应的识别结果,其中,所述识别模块解析所述短语音的语义信息,当短语音的语义信息与上下文信息相关时,生成短语音对应的识别结果,当短语音的语义信息与上下文信息不相关时,过滤掉短语音;
语义补全模块,用于基于上下文语义解析技术对所述识别结果进行语义补全,并生成语义补全结果;以及生成模块,用于基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句,其中,所述生成模块获取知识库中的待选答案,基于有限状态机FST从所述待选答案中选择与所述语义补全结果音对应的跳转概率最大的问答语句;
在向用户提供问答语句后,如果在预定时间内未接收到用户的反馈,则根据当前场景信息生成主动引导决策,以根据所述主动引导决策对用户进行引导。
4.如权利要求3所述的系统,其特征在于,所述切分模块用于:根据预先建立的静音模型,利用深度学习算法对所述持续语音信号的每帧语音进行识别,以识别出静音语音;
以所述静音语音为切分点将所述持续语音信号切分为多个短语音。
说明书 :
持续语音人机交互方法和系统
技术领域
背景技术
音信息,语音识别系统可对语音信息进行解析,生成对应的答案,例如著名的SIRI。
一次,系统再识别一次,操作不便。另外,语音识别系统采用统一的语言模型,无法根据上下
文理解用户的意图,准确率低,且无法主动向用户提问,不够智能化。
发明内容
的识别,通过动态语言模型可更精准地获取识别结果,提升了持续长语音的识别的准确率。
另外,还能够对用户进行主动引导,提升用户使用体验。
切分为多个短语音;基于动态语言模型对所述多个短语音进行识别,并为每个短语音生成
对应的识别结果;基于上下文语义解析技术对所述识别结果进行语义补全,并生成语义补
全结果;以及基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句。
短语音进行识别,并为每个短语音生成对应的识别结果,基于上下文语义解析技术对识别
结果进行语义补全,并生成语义补全结果,以及基于Agent-Based对话管理技术生成语义补
全结果对应的问答语句,用户只需操作一次,即可实现持续长语音的识别,通过动态语言模
型可更精准地获取识别结果,提升了持续长语音的识别的准确率。另外,还能够对用户进行
主动引导,提升用户使用体验。
语音信号切分为多个短语音;识别模块,用于基于动态语言模型对所述多个短语音进行识
别,并为每个短语音生成对应的识别结果;语义补全模块,用于基于上下文语义解析技术对
所述识别结果进行语义补全,并生成语义补全结果;以及生成模块,用于基于Agent-Based
对话管理技术生成所述语义补全结果对应的问答语句。
短语音进行识别,并为每个短语音生成对应的识别结果,基于上下文语义解析技术对识别
结果进行语义补全,并生成语义补全结果,以及基于Agent-Based对话管理技术生成语义补
全结果对应的问答语句,用户只需操作一次,即可实现持续长语音的识别,通过动态语言模
型可更精准地获取识别结果,提升了持续长语音的识别的准确率。另外,还能够对用户进行
主动引导,提升用户使用体验。
附图说明
具体实施方式
图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
入均要执行相同的操作,十分不便。而在本发明的实施例中,用户只需点击一次录音按键,
即可输入持续的语音信号,人机交互系统可智能地对语音信号进行切分,分段进行识别,无
需用户多次重复操作。
短语音,从而实现持续语音的切分,化整为零,分别对短语音进行识别。
的语义信息与上下文信息相关时,生成对应的识别结果,即与上下文相关信息相关时,通过
正模型对短语音进行解码,生成对应的识别结果。当短语音的语义信息与上下文信息无关
时,过滤短语音,即与上下文信息无关时,通过噪音模型对短语音进行解码,从而过滤掉短
语音。根据上述方法,可有效地关注交互主题,吸收噪音和语义无关的输入,减少了噪音对
识别结果的干扰。
此为相关的问题提供合适的待选答案,减少搜索的时间,提升准确率以及人机交互系统的
响应速度。
京,其完整语义为想预定北京的酒店,由此可根据上下文语义解析技术对识别结果进行语
义补全,从而生成语义补全结果,使得用户意图更加明确。
知识库的待选答案中,选择最适合该语义补全结果的问答语句,然后输出给用户。举例来
说,用户想在北京北三环预定酒店,则可为该需求生成相关的多个待选答案,例如:该地区
附近的所有的酒店的信息如酒店的星级、价位等,该地区附近的餐饮、商店信息等生活服务
相关信息等,综合上述所有相关的待选答案,再结合上下文信息,选出最符合上句意图的答
案。
哪个城市订酒店之后,用户一段时间内没有反应,则可主动加强引导,“请说出您想入住的
城市名称”,从而实现对用户的有效引导。
短语音进行识别,并为每个短语音生成对应的识别结果,基于上下文语义解析技术对识别
结果进行语义补全,并生成语义补全结果,以及基于Agent-Based对话管理技术生成语义补
全结果对应的问答语句,用户只需操作一次,即可实现持续长语音的识别,通过动态语言模
型可更精准地获取识别结果,提升了持续长语音的识别的准确率。另外,还能够对用户进行
主动引导,提升用户使用体验。
开录音按键,输入结束,语音识别系统再对语音进行识别。每次输入均要执行相同的操作,
十分不便。而在本发明的实施例中,用户只需点击一次录音按键,即可输入持续的语音信
号,人机交互系统可智能地对语音信号进行切分,分段进行识别,无需用户多次重复操作。
的每帧语音进行识别,以识别出静音语音,再将静音语音作为切分点将持续语音信号切分
为多个短语音,从而实现持续语音的切分,化整为零,分别对短语音进行识别。
息选择对应的动态语言模型对短语音进行解码,以生成识别结果。更具体地,可解析短语音
的语义信息。当短语音的语义信息与上下文信息相关时,生成对应的识别结果,即与上下文
相关信息相关时,通过正模型对短语音进行解码,生成对应的识别结果。当短语音的语义信
息与上下文信息无关时,过滤短语音,即与上下文信息无关时,通过噪音模型对短语音进行
解码,从而过滤掉短语音。根据上述方法,可有效地关注交互主题,吸收噪音和语义无关的
输入,减少了噪音对识别结果的干扰。
此为相关的问题提供合适的待选答案,减少搜索的时间,提升准确率以及人机交互系统的
响应速度。
音,但是包含了上下文的语义。例如:酒店预订时,系统在询问用户想入住哪个城市时,用户
回答北京,其完整语义为想预定北京的酒店,由此可根据上下文语义解析技术对识别结果
进行语义补全,从而生成语义补全结果,使得用户意图更加明确。
案中选择与语义补全结果音对应的跳转概率最大的问答语句。更具体地,可结合上下文语
义信息,从知识库的待选答案中,选择最适合该语义补全结果的问答语句,然后输出给用
户。举例来说,用户想在北京北三环预定酒店,则可为该需求生成相关的多个待选答案,例
如:该地区附近的所有的酒店的信息如酒店的星级、价位等,该地区附近的餐饮、商店信息
等生活服务相关信息等,综合上述所有相关的待选答案,再结合上下文信息,选出最符合上
句意图的答案。
哪个城市订酒店之后,用户一段时间内没有反应,则可主动加强引导,“请说出您想入住的
城市名称”,从而实现对用户的有效引导。
短语音进行识别,并为每个短语音生成对应的识别结果,基于上下文语义解析技术对识别
结果进行语义补全,并生成语义补全结果,以及基于Agent-Based对话管理技术生成语义补
全结果对应的问答语句,用户只需操作一次,即可实现持续长语音的识别,通过动态语言模
型可更精准地获取识别结果,提升了持续长语音的识别的准确率。另外,还能够对用户进行
主动引导,提升用户使用体验。
隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三
个等,除非另有明确具体的限定。
部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员
而言,可以根据具体情况理解上述术语在本发明中的具体含义。
第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示
第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第
一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不
必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任
一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技
术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结
合和组合。
实施例进行变化、修改、替换和变型。