持续语音人机交互方法和系统转让专利

申请号 : CN201511010302.8

文献号 : CN105590626B

文献日 : 2020-03-03

本发明公开了一种持续语音人机交互方法和系统，其中，持续语音人机交互方法，包括：接收用户输入的持续语音信号；基于长语音切分技术ModelVad将持续语音信号切分为多个短语音；基于动态语言模型对多个短语音进行识别，并为每个短语音生成对应的识别结果；基于上下文语义解析技术对识别结果进行语义补全，并生成语义补全结果；以及基于Agent‑Based对话管理技术生成语义补全结果对应的问答语句。本发明实施例的持续语音人机交互方法和系统，用户只需操作一次，即可实现持续长语音的识别，通过动态语言模型可更精准地获取识别结果，提升了持续长语音的识别的准确率。另外，还能够对用户进行主动引导，提升用户使用体验。

1.一种持续语音人机交互方法，其特征在于，包括以下步骤：

接收用户输入的持续语音信号；

基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音；

基于动态语言模型对所述多个短语音进行识别，并为每个短语音生成对应的识别结果，其中，解析所述短语音的语义信息，当短语音的语义信息与上下文信息相关时，生成短语音对应的识别结果，当短语音的语义信息与上下文信息不相关时，过滤掉短语音；

基于上下文语义解析技术对所述识别结果进行语义补全，并生成语义补全结果；以及基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句，其中，获取知识库中的待选答案，基于有限状态机FST从所述待选答案中选择与所述语义补全结果音对应的跳转概率最大的问答语句；

在向用户提供问答语句后，如果在预定时间内未接收到用户的反馈，则根据当前场景信息生成主动引导决策，以根据所述主动引导决策对用户进行引导。

2.如权利要求1所述的方法，其特征在于，所述基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音，包括：根据预先建立的静音模型，利用深度学习算法对所述持续语音信号的每帧语音进行识别，以识别出静音语音；

以所述静音语音为切分点将所述持续语音信号切分为多个短语音。

3.一种持续语音人机交互系统，其特征在于，包括：

接收模块，用于接收用户输入的持续语音信号；

切分模块，用于基于长语音切分技术ModelVad将所述持续语音信号切分为多个短语音；

识别模块，用于基于动态语言模型对所述多个短语音进行识别，并为每个短语音生成对应的识别结果，其中，所述识别模块解析所述短语音的语义信息，当短语音的语义信息与上下文信息相关时，生成短语音对应的识别结果，当短语音的语义信息与上下文信息不相关时，过滤掉短语音；

语义补全模块，用于基于上下文语义解析技术对所述识别结果进行语义补全，并生成语义补全结果；以及生成模块，用于基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句，其中，所述生成模块获取知识库中的待选答案，基于有限状态机FST从所述待选答案中选择与所述语义补全结果音对应的跳转概率最大的问答语句；

4.如权利要求3所述的系统，其特征在于，所述切分模块用于：根据预先建立的静音模型，利用深度学习算法对所述持续语音信号的每帧语音进行识别，以识别出静音语音；

以所述静音语音为切分点将所述持续语音信号切分为多个短语音。

持续语音人机交互方法和系统

技术领域

[0001] 本发明涉及人机交互技术领域，尤其涉及一种持续语音人机交互方法和系统。

背景技术

[0002] 语音识别是一门交叉学科。语音识别技术所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。目前，用户可通过麦克风输入语
音信息，语音识别系统可对语音信息进行解析，生成对应的答案，例如著名的SIRI。

[0003] 但是，当前的语音识别技术，主要采用一问一答的方式，即用户输入一段语音，系统根据当前解析的内容，为该语音提供一个相应的答案。用户每次输入语音时，均需要点按
一次，系统再识别一次，操作不便。另外，语音识别系统采用统一的语言模型，无法根据上下
文理解用户的意图，准确率低，且无法主动向用户提问，不够智能化。

发明内容

[0004] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种持续语音人机交互方法，用户只需操作一次，即可实现持续长语音
的识别，通过动态语言模型可更精准地获取识别结果，提升了持续长语音的识别的准确率。
另外，还能够对用户进行主动引导，提升用户使用体验。

[0005] 本发明的第二个目的在于提出一种持续语音人机交互系统。

[0006] 为了实现上述目的，本发明第一方面实施例提出了一种持续语音人机交互方法，包括：接收用户输入的持续语音信号；基于长语音切分技术ModelVad将所述持续语音信号
切分为多个短语音；基于动态语言模型对所述多个短语音进行识别，并为每个短语音生成
对应的识别结果；基于上下文语义解析技术对所述识别结果进行语义补全，并生成语义补
全结果；以及基于Agent-Based对话管理技术生成所述语义补全结果对应的问答语句。

[0007] 本发明实施例的持续语音人机交互方法，通过接收用户输入的持续语音信号，基于长语音切分技术ModelVad将持续语音信号切分为多个短语音，基于动态语言模型对多个
短语音进行识别，并为每个短语音生成对应的识别结果，基于上下文语义解析技术对识别
结果进行语义补全，并生成语义补全结果，以及基于Agent-Based对话管理技术生成语义补
全结果对应的问答语句，用户只需操作一次，即可实现持续长语音的识别，通过动态语言模
型可更精准地获取识别结果，提升了持续长语音的识别的准确率。另外，还能够对用户进行
主动引导，提升用户使用体验。

[0008] 本发明第二方面实施例提出了一种持续语音人机交互系统，包括：接收模块，用于接收用户输入的持续语音信号；切分模块，用于基于长语音切分技术ModelVad将所述持续
语音信号切分为多个短语音；识别模块，用于基于动态语言模型对所述多个短语音进行识
别，并为每个短语音生成对应的识别结果；语义补全模块，用于基于上下文语义解析技术对
所述识别结果进行语义补全，并生成语义补全结果；以及生成模块，用于基于Agent-Based
对话管理技术生成所述语义补全结果对应的问答语句。

[0009] 本发明实施例的持续语音人机交互系统，通过接收用户输入的持续语音信号，基于长语音切分技术ModelVad将持续语音信号切分为多个短语音，基于动态语言模型对多个
短语音进行识别，并为每个短语音生成对应的识别结果，基于上下文语义解析技术对识别
结果进行语义补全，并生成语义补全结果，以及基于Agent-Based对话管理技术生成语义补
全结果对应的问答语句，用户只需操作一次，即可实现持续长语音的识别，通过动态语言模
型可更精准地获取识别结果，提升了持续长语音的识别的准确率。另外，还能够对用户进行
主动引导，提升用户使用体验。

附图说明

[0010] 图1是根据本发明一个实施例的快速切换网页的方法的流程图。

[0011] 图2是根据本发明一个实施例的持续语音人机交互系统的结构示意图。

具体实施方式

[0012] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附
图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

[0013] 下面参考附图描述本发明实施例的快速切换网页的方法和系统。

[0014] 图1是根据本发明一个实施例的快速切换网页的方法的流程图。

[0015] 如图1所示，快速切换网页的方法可包括：

[0016] S1，接收用户输入的持续语音信号。

[0017] 具体地，可接收用户输入的持续语音信号。现有技术中，用户主要通过客户端点击录音按键，输入语音，再松开录音按键，输入结束，语音识别系统再对语音进行识别。每次输
入均要执行相同的操作，十分不便。而在本发明的实施例中，用户只需点击一次录音按键，
即可输入持续的语音信号，人机交互系统可智能地对语音信号进行切分，分段进行识别，无
需用户多次重复操作。

[0018] S2，基于长语音切分技术ModelVad将持续语音信号切分为多个短语音。

[0019] 具体地，可根据预先建立的静音模型，利用深度学习算法对持续语音信号的每帧语音进行识别，以识别出静音语音，再将静音语音作为切分点将持续语音信号切分为多个
短语音，从而实现持续语音的切分，化整为零，分别对短语音进行识别。

[0020] S3，基于动态语言模型对多个短语音进行识别，并为每个短语音生成对应的识别结果。

[0021] 具体地，可获取短语音的上下文信息，然后根据上下文信息选择对应的动态语言模型对短语音进行解码，以生成识别结果。更具体地，可解析短语音的语义信息。当短语音
的语义信息与上下文信息相关时，生成对应的识别结果，即与上下文相关信息相关时，通过
正模型对短语音进行解码，生成对应的识别结果。当短语音的语义信息与上下文信息无关
时，过滤短语音，即与上下文信息无关时，通过噪音模型对短语音进行解码，从而过滤掉短
语音。根据上述方法，可有效地关注交互主题，吸收噪音和语义无关的输入，减少了噪音对
识别结果的干扰。

[0022] 举例来说，用户在与人机交互系统进行交互的时候，系统提问“您想在哪个城市订酒店？”，其期待用户的回答是城市的名称，因此可构造一个由城市名称组成的语言模型，以
此为相关的问题提供合适的待选答案，减少搜索的时间，提升准确率以及人机交互系统的
响应速度。

[0023] S4，基于上下文语义解析技术对识别结果进行语义补全，并生成语义补全结果。

[0024] 具体地，在持续的人机交互过程中，用户输入的可能只是一个简单的短语音，但是包含了上下文的语义。例如：酒店预订时，系统在询问用户想入住哪个城市时，用户回答北
京，其完整语义为想预定北京的酒店，由此可根据上下文语义解析技术对识别结果进行语
义补全，从而生成语义补全结果，使得用户意图更加明确。

[0025] S5，基于Agent-Based对话管理技术生成语义补全结果对应的问答语句。

[0026] 具体地，可获取知识库中的待选答案，然后基于有限状态机FST从待选答案中选择与语义补全结果音对应的跳转概率最大的问答语句。更具体地，可结合上下文语义信息，从
知识库的待选答案中，选择最适合该语义补全结果的问答语句，然后输出给用户。举例来
说，用户想在北京北三环预定酒店，则可为该需求生成相关的多个待选答案，例如：该地区
附近的所有的酒店的信息如酒店的星级、价位等，该地区附近的餐饮、商店信息等生活服务
相关信息等，综合上述所有相关的待选答案，再结合上下文信息，选出最符合上句意图的答
案。

[0027] 另外，在向用户提供问答语句之后，如果在预定时间内，未接收到用户的反馈，还可根据当前场景信息，生成主动引导决策，主动地对用户进行引导。例如：在询问用户想在
哪个城市订酒店之后，用户一段时间内没有反应，则可主动加强引导，“请说出您想入住的
城市名称”，从而实现对用户的有效引导。

[0028] 本发明实施例的持续语音人机交互方法，通过接收用户输入的持续语音信号，基于长语音切分技术ModelVad将持续语音信号切分为多个短语音，基于动态语言模型对多个
短语音进行识别，并为每个短语音生成对应的识别结果，基于上下文语义解析技术对识别
结果进行语义补全，并生成语义补全结果，以及基于Agent-Based对话管理技术生成语义补
全结果对应的问答语句，用户只需操作一次，即可实现持续长语音的识别，通过动态语言模
型可更精准地获取识别结果，提升了持续长语音的识别的准确率。另外，还能够对用户进行
主动引导，提升用户使用体验。

[0029] 为实现上述目的，本发明还提出一种持续语音人机交互系统。

[0030] 图2是根据本发明一个实施例的持续语音人机交互系统的结构示意图。

[0031] 如图2所示，持续语音人机交互系统可包括：接收模块110、切分模块120、识别模块130、语义补全模块140以及生成模块150。

[0032] 接收模块110用于接收用户输入的持续语音信号。具体地，接收模块110可接收用户输入的持续语音信号。现有技术中，用户主要通过客户端点击录音按键，输入语音，再松
开录音按键，输入结束，语音识别系统再对语音进行识别。每次输入均要执行相同的操作，
十分不便。而在本发明的实施例中，用户只需点击一次录音按键，即可输入持续的语音信
号，人机交互系统可智能地对语音信号进行切分，分段进行识别，无需用户多次重复操作。

[0033] 切分模块120用于基于长语音切分技术ModelVad将持续语音信号切分为多个短语音。具体地，切分模块120可根据预先建立的静音模型，利用深度学习算法对持续语音信号
的每帧语音进行识别，以识别出静音语音，再将静音语音作为切分点将持续语音信号切分
为多个短语音，从而实现持续语音的切分，化整为零，分别对短语音进行识别。

[0034] 识别模块130用于基于动态语言模型对多个短语音进行识别，并为每个短语音生成对应的识别结果。具体地，识别模块130可获取短语音的上下文信息，然后根据上下文信
息选择对应的动态语言模型对短语音进行解码，以生成识别结果。更具体地，可解析短语音
的语义信息。当短语音的语义信息与上下文信息相关时，生成对应的识别结果，即与上下文
相关信息相关时，通过正模型对短语音进行解码，生成对应的识别结果。当短语音的语义信
息与上下文信息无关时，过滤短语音，即与上下文信息无关时，通过噪音模型对短语音进行
解码，从而过滤掉短语音。根据上述方法，可有效地关注交互主题，吸收噪音和语义无关的
输入，减少了噪音对识别结果的干扰。

[0035] 举例来说，用户在与人机交互系统进行交互的时候，系统提问“您想在哪个城市订酒店？”，其期待用户的回答是城市的名称，因此可构造一个由城市名称组成的语言模型，以
此为相关的问题提供合适的待选答案，减少搜索的时间，提升准确率以及人机交互系统的
响应速度。

[0036] 语义补全模块140用于基于上下文语义解析技术对识别结果进行语义补全，并生成语义补全结果。具体地，在持续的人机交互过程中，用户输入的可能只是一个简单的短语
音，但是包含了上下文的语义。例如：酒店预订时，系统在询问用户想入住哪个城市时，用户
回答北京，其完整语义为想预定北京的酒店，由此可根据上下文语义解析技术对识别结果
进行语义补全，从而生成语义补全结果，使得用户意图更加明确。

[0037] 生成模块150用于基于Agent-Based对话管理技术生成语义补全结果对应的问答语句。具体地，生成模块150可获取知识库中的待选答案，然后基于有限状态机FST从待选答
案中选择与语义补全结果音对应的跳转概率最大的问答语句。更具体地，可结合上下文语
义信息，从知识库的待选答案中，选择最适合该语义补全结果的问答语句，然后输出给用
户。举例来说，用户想在北京北三环预定酒店，则可为该需求生成相关的多个待选答案，例
如：该地区附近的所有的酒店的信息如酒店的星级、价位等，该地区附近的餐饮、商店信息
等生活服务相关信息等，综合上述所有相关的待选答案，再结合上下文信息，选出最符合上
句意图的答案。

[0038] 另外，在向用户提供问答语句之后，如果在预定时间内，未接收到用户的反馈，还可根据当前场景信息，生成主动引导决策，主动地对用户进行引导。例如：在询问用户想在
哪个城市订酒店之后，用户一段时间内没有反应，则可主动加强引导，“请说出您想入住的
城市名称”，从而实现对用户的有效引导。

[0039] 本发明实施例的持续语音人机交互系统，通过接收用户输入的持续语音信号，基于长语音切分技术ModelVad将持续语音信号切分为多个短语音，基于动态语言模型对多个
短语音进行识别，并为每个短语音生成对应的识别结果，基于上下文语义解析技术对识别
结果进行语义补全，并生成语义补全结果，以及基于Agent-Based对话管理技术生成语义补
全结果对应的问答语句，用户只需操作一次，即可实现持续长语音的识别，通过动态语言模
型可更精准地获取识别结果，提升了持续长语音的识别的准确率。另外，还能够对用户进行
主动引导，提升用户使用体验。

[0040] 在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的系统或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

[0041] 此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者
隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三
个等，除非另有明确具体的限定。

[0042] 在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内
部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员
而言，可以根据具体情况理解上述术语在本发明中的具体含义。

[0043] 在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在
第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示
第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第
一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

[0044] 在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特
点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不
必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任
一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技
术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结
合和组合。

[0045] 尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述
实施例进行变化、修改、替换和变型。

持续语音人机交互方法和系统转让专利

申请号 : CN201511010302.8

文献号 : CN105590626B

文献日 : 2020-03-03

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 吴世伟

申请人 : 百度在线网络技术(北京)有限公司

摘要 :

权利要求 :

说明书 :