一种信息交互方法、装置及电子设备转让专利
申请号 : CN202110172522.X
文献号 : CN112988992B
文献日 : 2022-04-08
发明人 : 赵瀚 , 贾朝阳 , 丁宁 , 颜廷旭
申请人 : 北京嘀嘀无限科技发展有限公司
摘要 :
权利要求 :
1.一种信息交互方法,其特征在于,所述方法包括:接收目标用户的当前输入语音;
召回所述当前输入语音对应的至少一个相似语句,所述相似语句为预先存储的具有对应意图的语句;
根据所述当前输入语音和各相似语句的具有语义的语句向量计算所述当前输入语音与各所述相似语句之间的相关参数;
将当前特征信息输入至预先训练的意图确定模型中进行处理,以确定所述当前输入语音对应的意图,所述当前特征信息至少包括所述当前输入语音的特征信息和各所述相似语句对应的相关参数信息;
根据所述意图控制返回对应的目标语音。
2.根据权利要求1所述的方法,其特征在于,召回所述当前输入语音对应的至少一个相似语句包括:
对所述当前输入语音进行处理,获取所述当前输入语音对应的输入文本信息;
获取所述输入文本信息的特征向量;
计算所述输入文本信息的特征向量分别与意图语句库中各语句的特征向量的相似度,所述意图语句库中存储有各意图对应的至少一个语句;
根据各所述相似度召回至少一个所述相似语句。
3.根据权利要求2所述的方法,其特征在于,所述获取所述输入文本信息的特征向量包括:
将所述输入文本信息输入至第一向量计算模型中进行处理,获取第一向量;
将所述输入文本信息输入至第二向量计算模型中进行处理,获取第二向量;
将所述第一向量和所述第二向量进行拼接,获取所述输入文本信息的特征向量。
4.根据权利要求1‑3中任一项所述的方法,其特征在于,计算所述当前输入语音与各所述相似语句之间的相关参数包括:将所述当前输入语音分别与各所述相似语句形成的语句对输入至预先训练的相关参数确定模型中进行处理,获取各所述语句对中的当前数据语音与相似语句之间的相关参数。
5.根据权利要求2所述的方法,其特征在于,所述当前特征信息包括所述输入文本信息、所述当前输入语音与各所述相似语句之间的相似度及相似度排序信息、所述当前输入语音与各所述相似语句之间的相关参数及相关参数排序信息。
6.根据权利要求1所述的方法,其特征在于,所述当前特征信息还包括目标任务的当前任务状态和所述目标任务对应的历史交互信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述意图和目标任务的当前任务状态跳转至新的任务状态。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于状态机创建各信息交互状态之间的转移关系。
9.根据权利要求2所述的方法,其特征在于,对所述当前输入语音进行处理,获取所述当前输入语音对应的输入文本信息包括:基于自动语音识别方法确定所述当前输入语音对应的初始文本;
对所述初始文本进行矫正,获取所述输入文本信息。
10.一种信息交互装置,其特征在于,所述装置包括:接收单元,被配置为接收目标用户的当前输入语音;
召回单元,被配置为召回所述当前输入语音对应的至少一个相似语句,所述相似语句为预先存储的具有对应意图的语句;
相关参数计算单元,被配置为根据所述当前输入语音和各相似语句的具有语义的语句向量计算所述当前输入语音与各所述相似语句之间的相关参数;
意图确定单元,被配置为将当前特征信息输入至预先训练的意图确定模型中进行处理,以确定所述当前输入语音对应的意图,所述当前特征信息至少包括所述当前输入语音的特征信息和各所述相似语句对应的相关参数信息;
语音返回单元,被配置为根据所述意图控制返回对应的目标语音。
11.根据权利要求10所述的装置,其特征在于,所述召回单元包括:文本获取子单元,被配置为对所述当前输入语音进行处理,获取所述当前输入语音对应的输入文本信息;
向量获取子单元,被配置为获取所述输入文本信息的特征向量;
相似度计算子单元,被配置为计算所述输入文本信息的特征向量分别与意图语句库中各语句的特征向量的相似度,所述意图语句库中存储有各意图对应的至少一个语句;
召回子单元,被配置为根据各所述相似度召回至少一个所述相似语句。
12.根据权利要求11所述的装置,其特征在于,所述向量获取子单元包括:第一向量获取模块,被配置为将所述输入文本信息输入至第一向量计算模型中进行处理,获取第一向量;
第二向量获取模块,被配置为将所述输入文本信息输入至第二向量计算模型中进行处理,获取第二向量;
特征向量获取模块,被配置为将所述第一向量和所述第二向量进行拼接,获取所述输入文本信息的特征向量。
13.根据权利要求10‑12中任一项所述的装置,其特征在于,所述相关参数计算单元包括:
相关参数计算子单元,被配置为将所述当前输入语音分别与各所述相似语句形成的语句对输入至预先训练的相关参数确定模型中进行处理,获取各所述语句对中的当前数据语音与相似语句之间的相关参数。
14.根据权利要求11所述的装置,其特征在于,所述当前特征信息包括所述输入文本信息、所述当前输入语音与各所述相似语句之间的相似度及相似度排序信息、所述当前输入语音与各所述相似语句之间的相关参数及相关参数排序信息。
15.根据权利要求10所述的装置,其特征在于,所述当前特征信息还包括目标任务的当前任务状态和所述目标任务对应的历史交互信息。
16.根据权利要求10所述的装置,其特征在于,所述装置还包括:状态跳转单元,被配置为根据所述意图和目标任务的当前任务状态跳转至新的任务状态。
17.根据权利要求10所述的装置,其特征在于,所述装置还包括:转移关系创建单元,被配置为基于状态机创建各信息交互状态之间的转移关系。
18.根据权利要求11所述的装置,其特征在于,所述文本获取子单元包括:初始文本获取模块,被配置为基于自动语音识别方法确定所述当前输入语音对应的初始文本;
矫正模块,被配置为对所述初始文本进行矫正,获取所述输入文本信息。
19.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1‑9中任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1‑9任一项所述的方法。
说明书 :
一种信息交互方法、装置及电子设备
技术领域
背景技术
中,由于对话环境嘈杂、用户口音复杂、和/或模型训练语料不足,导致意图识别的准确率较
低。
发明内容
似语句对应的相关参数信息;
音的特征信息和各所述相似语句对应的相关参数信息;
执行以实现如本发明实施例第一方面所述的方法。
述的方法。
处理,以确定当前输入语音对应的意图,并根据所述意图控制返回对应的目标语音,其中,
当前特征信息至少包括所述当前输入语音的特征信息和各所述相似语句对应的相关参数
信息,由此,可以提高意图判断的准确性,并基于该意图做出正确的应答,进而可以提高用
户体验感。
附图说明
具体实施方式
这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过
程、流程、元件和电路并没有详细叙述。
是两个或两个以上。
于任意对话管理场景中,例如物流应用场景等。
此,可以提供一种对话管理方法及对话管理系统,使得用户可以通过电话语音的形式下单。
例如,具体过程可以为:用户通过拨打网约车预定对应的号码,在智能语音接通后,输入起
始地和目的地等相关特征,智能服务端通过解析用户输入语音执行网约车预定操作,同时
可以通过语音通话告知该用户司机接单情况、接单车辆信息、车辆预计到达时间、车辆到达
状态,并确定用户是否安全上车或安全下车。由此,在网约车的对话应用场景中,准确识别
用户输入语音及用户意图是至关重要的,否则无法确定用户的起始地和目的地,导致网约
车预定失败。由此,可以采用本实施例提供的信息交互方法,以提高意图判断的准确性,并
基于该意图做出正确的应答,进而可以提高用户体验感。
可能的状态转移。语义理解模块根据当前任务状态、历史交互信息以及用户当前输入语音
识别出用户意图,控制对话管理模块做出相应的动作,并控制返回该意图对应的答复。
节点(node)和边(edge)构成,其中,画板对应整个项目,子图流对应一个技能,节点代表要
执行的相应动作,边对应判断条件。可选的,当用户与信息交互系统进行交互时,对话管理
模块维护该用户的状态,例如对话管理模块把该用户的信息、当前任务状态以及历史交互
信息存储至数据库的缓存中,当该用户与信息交互系统再次交互时,对话管理模块调用并
参考该用户的信息、当前任务状态以及历史交互信息,基于预先设置的画板和语义理解模
块返回的意图经过对应的边流向下一个节点,也即转移到下一个状态。
应的状态可以包括未上车、已上车和其它,“其它”用于表征未能从用户输入语音中得出是
否上车的判断结果。在节点11处的状态判断结果为“已上车”时,控制返回“已上车结束语”,
例如“确认您已上车,请您注意安全”等。在节点11处的状态判断结果为“未上车”时,控制返
回“未上车结束语”,例如“车辆已到达,请您尽快上车”等。在在节点11处的状态判断结果为
“其它”时,控制返回“其它情况话术”,例如再次确认用户是否上车的话术,在根据用户输入
的语音确定该用户是否上车。若此次确认的状态判断结果为“已上车”时,控制返回“已上车
结束语”。若此次确认的状态判断结果为“未上车”时,控制返回“未上车结束语”。若此次确
认的状态判断结果仍为“其它”,返回“转人工结束语”,例如“未能识别您的意图,正在为您
跳转人工客服”等。由此,本实施例通过基于有限状态机创建各信息交互状态之间的转移关
系,可以提高状态跳转的准确性,进而可以提高用户体验感。
音直接识别出的文本信息存在错误。由此,在本实施例中,基于自动语音识别方法(例如ASR
等)确定当前输入语音对应的初始文本,对初始文本进行矫正,获取当前语音对应的输入文
本信息。可选的,对初始文本进行矫正包括纠错和去除停用词,纠错是识别到的文本出现的
错误,本实施例采用基于n‑gram算法的纠错模型对初始文本进行纠错。去除停用词是把一
些标点符号和对语义理解没有作用的语气词删除。
型确定输入文本信息基于表征信息统计的特征向量,可以降低计算量,提高数据处理速度。
BM25算法是一种用来评价搜索词与文档之间相关性的算法,其为基于概率检索模型提出的
算法。
量计算模型为基于bert‑Ada算法的模型。基于bert‑Ada算法的模型为通过可微神经架构搜
索(Differentiable Neural Architecture Search,DNAS)将bert模型进行压缩形成的任
务自适应的小模型,可以根据所要执行的任务调整小模型的结构和知识。由此,可以在特征
向量的语义表达能力的同时,降低模型的复杂程度,提高数据处理效率。
表达能力,进而可以提高意图识别的准确度。
少一个语句。例如,表达“已上车”的意图,可以包括“嗯,我在车上了”、“嗯,我上车了”、“是
的,已经上车了”、“对啊,车已经开了”等等。
也可以根据神经网络模型来计算输入文本信息的特征向量分别与意图语句库中各语句的
特征向量之间的相似度,本实施例并不对此进行限制。
语句,k大于等于1。
之间的相关参数。
(A,D)。在本实施例中,将语句对(A,B)、语句对(A,C)和语句对(A,D)输入值预先训练的相关
参数确定模型中进行处理,获取语句对(A,B)中的当前输入语音A与相似语句B之间的相关
参数,语句对(A,C)中的当前输入语音A与相似语句C之间的相关参数,语句对(A,D)中的当
前输入语音A与相似语句D之间的相关参数。
似语句对应的意图的相关程度。
Embedding向量,并采用余弦相似度、曼哈顿距离、欧氏距离计算语句对之间的相关程度。
排序,由此,根据基于粗粒度的文本匹配算法的计算结果和基于细粒度的文本匹配算法的
计算结果进行后验排序,获取当前输入语音对应的意图,这提高了意图识别的准确性。
似语句对应的相关参数信息。其中,当前输入语音的特征信息包括当前输入语音对应的输
入文本信息,各相似语句对应的相关参数信息包括当前输入语音与各相似语句之间的相关
参数以及相关参数排序信息。
似语句的相似度)、当前输入语音与各相似语句之间的相关参数及相关参数排序信息。在本
实施例中,先通过粗粒度的相似度计算从意图语句库中的大量语句中筛选出k个相似语句,
在对k个相似语句计算其与输入文本信息之间的相关参数,提高了数据处理效率。并且,本
实施例根据基于粗粒度的文本匹配算法的计算结果和基于细粒度的文本匹配算法的计算
结果进行后验排序,获取当前输入语音对应的意图,由此,可以提高意图识别的准确性。
司机已接单状态、已上车状态和已下车状态等。以当前任务状态为“已上车状态”,历史交互
信息包括用户打通网约车预定的号码后的对话记录,例如网约车预定对话“我在xx小区东
门,要去xx大学西门”,“好的,正在为您派单”,“乘客您好,车牌号为xxxx的白色xx车已接
单,当前距您1km,请留意”,“乘客您好,您预约的网约车已到达上车点,请您确定是否已上
车”等。由此,本实施例可以根据目标任务的当前任务状态和目标任务对应的历史交互信息
进一步提高意图识别的准确性,进而进一步提高用户体验感。
习方法,各分类器可以是互补的,拒用自己的位置。由此,在本实施例中,将输入文本信息、
当前输入语音与各相似语句之间的相似度及相似度排序信息、当前输入语音与各相似语句
之间的相关参数及相关参数排序信息、目标任务的当前任务状态和目标任务对应的历史交
互信息输入至ensemble模型,通过ensemble模型中的各分类器对各特征信息进行处理,以
对各相似语句进行综合排序,输出得分最高的相似语句对应的意图。由此,可以进一步提高
意图识别的准确性,进而提高用户体验感。
您注意安全”等。
“已上车”,则将目标任务的当前任务状态跳转至新的节点,对应的状态可以包括“已下车”、
“未下车”和其它。
处理,以确定当前输入语音对应的意图,并根据所述意图控制返回对应的目标语音,其中,
当前特征信息至少包括所述当前输入语音的特征信息和各所述相似语句对应的相关参数
信息,由此,可以提高意图判断的准确性,并基于该意图做出正确的应答,进而可以提高用
户体验感。
端发送的当前输入语音,并基于语义理解模块52确定的意图确定该意图对应的答复,也即
目标语音,将目标语音发送至用户终端。语义理解模块52根据当前任务状态、历史交互信息
以及用户当前输入语音识别出用户意图,控制对话管理模块做出相应的动作,并控制返回
该意图对应的答复。其中,语义理解模块52可以基于上述步骤S110‑步骤S140确定当前输入
语句对应的意图,在此不再赘述。
意图获取该意图对应的答复,并发送至用户终端。其中,语义理解模块通过召回当前输入语
音对应的至少一个相似语句,计算当前输入语音与各相似语句之间的相关参数,将当前特
征信息输入至预先训练的意图确定模型中进行处理,以确定当前输入语音对应的意图,并
根据所述意图控制返回对应的目标语音,其中,当前特征信息至少包括所述当前输入语音
的特征信息和各所述相似语句对应的相关参数信息,由此,可以提高意图判断的准确性,并
基于该意图做出正确的应答,进而可以提高用户体验感。
回单元65。
句。相关参数计算单元63被配置为计算所述当前输入语音与各所述相似语句之间的相关参
数。意图确定单元64被配置为将当前特征信息输入至预先训练的意图确定模型中进行处
理,以确定所述当前输入语音对应的意图,所述当前特征信息至少包括所述当前输入语音
的特征信息和各所述相似语句对应的相关参数信息。语音返回单元65被配置为根据所述意
图控制返回对应的目标语音。
相似语句之间的相关参数及相关参数排序信息。可选的,所述当前特征信息还包括目标任
务的当前任务状态和所述目标任务对应的历史交互信息。
处理,获取所述当前输入语音对应的输入文本信息。向量获取子单元,被配置为获取所述输
入文本信息的特征向量。相似度计算子单元,被配置为计算所述输入文本信息的特征向量
分别与意图语句库中各语句的特征向量的相似度,所述意图语句库中存储有各意图对应的
至少一个语句。召回子单元,被配置为根据各所述相似度召回至少一个所述相似语句。
文本。矫正模块被配置为对所述初始文本进行矫正,获取所述输入文本信息。
第一向量计算模型中进行处理,获取第一向量。第二向量获取模块被配置为将所述输入文
本信息输入至第二向量计算模型中进行处理,获取第二向量。特征向量获取模块被配置为
将所述第一向量和所述第二向量进行拼接,获取所述输入文本信息的特征向量。
输入至预先训练的相关参数确定模型中进行处理,获取各所述语句对中的当前数据语音与
相似语句之间的相关参数。
处理,以确定当前输入语音对应的意图,并根据所述意图控制返回对应的目标语音,其中,
当前特征信息至少包括所述当前输入语音的特征信息和各所述相似语句对应的相关参数
信息,由此,可以提高意图判断的准确性,并基于该意图做出正确的应答,进而可以提高用
户体验感。
72通过总线73连接。存储器72适于存储处理器71可执行的指令或程序。处理器71可以是独
立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器71通过执行存储器72所
存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其
它装置的控制。总线73将上述多个组件连接在一起,同时将上述组件连接到显示控制器74
和显示装置以及输入/输出(I/O)装置75。输入/输出(I/O)装置75可以是鼠标、键盘、调制解
调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型
地,输入/输出装置75通过输入/输出(I/O)控制器76与系统相连。
实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算
机可读存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序
产品。
令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法
的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑Only
Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程
序代码的介质。
替换、改进等,均应包含在本发明的保护范围之内。