一种信息交互方法、装置及电子设备转让专利

申请号 : CN202110172522.X

文献号 : CN112988992B

文献日 : 2022-04-08

本发明实施例公开了一种信息交互方法、装置及电子设备，通过召回当前输入语音对应的至少一个相似语句，计算当前输入语音与各相似语句之间的相关参数，将当前特征信息输入至预先训练的意图确定模型中进行处理，以确定当前输入语音对应的意图，并根据所述意图控制返回对应的目标语音，其中，当前特征信息至少包括所述当前输入语音的特征信息和各所述相似语句对应的相关参数信息，由此，可以提高意图判断的准确性，并基于该意图做出正确的应答，进而可以提高用户体验感。

1.一种信息交互方法，其特征在于，所述方法包括：接收目标用户的当前输入语音；

召回所述当前输入语音对应的至少一个相似语句，所述相似语句为预先存储的具有对应意图的语句；

根据所述当前输入语音和各相似语句的具有语义的语句向量计算所述当前输入语音与各所述相似语句之间的相关参数；

将当前特征信息输入至预先训练的意图确定模型中进行处理，以确定所述当前输入语音对应的意图，所述当前特征信息至少包括所述当前输入语音的特征信息和各所述相似语句对应的相关参数信息；

根据所述意图控制返回对应的目标语音。

2.根据权利要求1所述的方法，其特征在于，召回所述当前输入语音对应的至少一个相似语句包括：

对所述当前输入语音进行处理，获取所述当前输入语音对应的输入文本信息；

获取所述输入文本信息的特征向量；

计算所述输入文本信息的特征向量分别与意图语句库中各语句的特征向量的相似度，所述意图语句库中存储有各意图对应的至少一个语句；

根据各所述相似度召回至少一个所述相似语句。

3.根据权利要求2所述的方法，其特征在于，所述获取所述输入文本信息的特征向量包括：

将所述输入文本信息输入至第一向量计算模型中进行处理，获取第一向量；

将所述输入文本信息输入至第二向量计算模型中进行处理，获取第二向量；

将所述第一向量和所述第二向量进行拼接，获取所述输入文本信息的特征向量。

4.根据权利要求1‑3中任一项所述的方法，其特征在于，计算所述当前输入语音与各所述相似语句之间的相关参数包括：将所述当前输入语音分别与各所述相似语句形成的语句对输入至预先训练的相关参数确定模型中进行处理，获取各所述语句对中的当前数据语音与相似语句之间的相关参数。

5.根据权利要求2所述的方法，其特征在于，所述当前特征信息包括所述输入文本信息、所述当前输入语音与各所述相似语句之间的相似度及相似度排序信息、所述当前输入语音与各所述相似语句之间的相关参数及相关参数排序信息。

6.根据权利要求1所述的方法，其特征在于，所述当前特征信息还包括目标任务的当前任务状态和所述目标任务对应的历史交互信息。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据所述意图和目标任务的当前任务状态跳转至新的任务状态。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于状态机创建各信息交互状态之间的转移关系。

9.根据权利要求2所述的方法，其特征在于，对所述当前输入语音进行处理，获取所述当前输入语音对应的输入文本信息包括：基于自动语音识别方法确定所述当前输入语音对应的初始文本；

对所述初始文本进行矫正，获取所述输入文本信息。

10.一种信息交互装置，其特征在于，所述装置包括：接收单元，被配置为接收目标用户的当前输入语音；

召回单元，被配置为召回所述当前输入语音对应的至少一个相似语句，所述相似语句为预先存储的具有对应意图的语句；

相关参数计算单元，被配置为根据所述当前输入语音和各相似语句的具有语义的语句向量计算所述当前输入语音与各所述相似语句之间的相关参数；

意图确定单元，被配置为将当前特征信息输入至预先训练的意图确定模型中进行处理，以确定所述当前输入语音对应的意图，所述当前特征信息至少包括所述当前输入语音的特征信息和各所述相似语句对应的相关参数信息；

语音返回单元，被配置为根据所述意图控制返回对应的目标语音。

11.根据权利要求10所述的装置，其特征在于，所述召回单元包括：文本获取子单元，被配置为对所述当前输入语音进行处理，获取所述当前输入语音对应的输入文本信息；

向量获取子单元，被配置为获取所述输入文本信息的特征向量；

相似度计算子单元，被配置为计算所述输入文本信息的特征向量分别与意图语句库中各语句的特征向量的相似度，所述意图语句库中存储有各意图对应的至少一个语句；

召回子单元，被配置为根据各所述相似度召回至少一个所述相似语句。

12.根据权利要求11所述的装置，其特征在于，所述向量获取子单元包括：第一向量获取模块，被配置为将所述输入文本信息输入至第一向量计算模型中进行处理，获取第一向量；

第二向量获取模块，被配置为将所述输入文本信息输入至第二向量计算模型中进行处理，获取第二向量；

特征向量获取模块，被配置为将所述第一向量和所述第二向量进行拼接，获取所述输入文本信息的特征向量。

13.根据权利要求10‑12中任一项所述的装置，其特征在于，所述相关参数计算单元包括：

相关参数计算子单元，被配置为将所述当前输入语音分别与各所述相似语句形成的语句对输入至预先训练的相关参数确定模型中进行处理，获取各所述语句对中的当前数据语音与相似语句之间的相关参数。

14.根据权利要求11所述的装置，其特征在于，所述当前特征信息包括所述输入文本信息、所述当前输入语音与各所述相似语句之间的相似度及相似度排序信息、所述当前输入语音与各所述相似语句之间的相关参数及相关参数排序信息。

15.根据权利要求10所述的装置，其特征在于，所述当前特征信息还包括目标任务的当前任务状态和所述目标任务对应的历史交互信息。

16.根据权利要求10所述的装置，其特征在于，所述装置还包括：状态跳转单元，被配置为根据所述意图和目标任务的当前任务状态跳转至新的任务状态。

17.根据权利要求10所述的装置，其特征在于，所述装置还包括：转移关系创建单元，被配置为基于状态机创建各信息交互状态之间的转移关系。

18.根据权利要求11所述的装置，其特征在于，所述文本获取子单元包括：初始文本获取模块，被配置为基于自动语音识别方法确定所述当前输入语音对应的初始文本；

矫正模块，被配置为对所述初始文本进行矫正，获取所述输入文本信息。

19.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1‑9中任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1‑9任一项所述的方法。

一种信息交互方法、装置及电子设备

技术领域

[0001] 本发明涉及计算机技术领域，更具体地，涉及一种信息交互方法、装置及电子设备。

背景技术

[0002] 对话管理指系统采用一定的方式引导对话，其主要任务根据用户输入，结合上下文语境和历史交互信息，识别当前对话意图，并基于对话意图执行下一步动作。在现有技术
中，由于对话环境嘈杂、用户口音复杂、和/或模型训练语料不足，导致意图识别的准确率较
低。

发明内容

[0003] 有鉴于此，本发明实施例提供一种位置推荐方法、装置及电子设备，以提高目标推荐点的准确率，进而提高用户体验感。

[0004] 第一方面，本发明实施例提供一种信息交互方法，所述方法包括：

[0005] 接收目标用户的当前输入语音；

[0006] 召回所述当前输入语音对应的至少一个相似语句，所述相似语句为预先存储的具有对应意图的语句；

[0007] 计算所述当前输入语音与各所述相似语句之间的相关参数；

[0008] 将当前特征信息输入至预先训练的意图确定模型中进行处理，以确定所述当前输入语音对应的意图，所述当前特征信息至少包括所述当前输入语音的特征信息和各所述相
似语句对应的相关参数信息；

[0009] 根据所述意图控制返回对应的目标语音。

[0010] 第二方面，本发明实施例提供一种信息交互装置，所述装置包括：

[0011] 接收单元，被配置为接收目标用户的当前输入语音；

[0012] 召回单元，被配置为召回所述当前输入语音对应的至少一个相似语句，所述相似语句为预先存储的具有对应意图的语句；

[0013] 相关参数计算单元，被配置为计算所述当前输入语音与各所述相似语句之间的相关参数；

[0014] 意图确定单元，被配置为将当前特征信息输入至预先训练的意图确定模型中进行处理，以确定所述当前输入语音对应的意图，所述当前特征信息至少包括所述当前输入语
音的特征信息和各所述相似语句对应的相关参数信息；

[0015] 语音返回单元，被配置为根据所述意图控制返回对应的目标语音。

[0016] 第三方面，本发明实施例提供一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器
执行以实现如本发明实施例第一方面所述的方法。

[0017] 第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如本发明实施例第一方面所
述的方法。

[0018] 第五方面，本发明实施例提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如本发明实施例第一方面所述的方法。

[0019] 本发明实施例通过召回当前输入语音对应的至少一个相似语句，计算当前输入语音与各相似语句之间的相关参数，将当前特征信息输入至预先训练的意图确定模型中进行
处理，以确定当前输入语音对应的意图，并根据所述意图控制返回对应的目标语音，其中，
当前特征信息至少包括所述当前输入语音的特征信息和各所述相似语句对应的相关参数
信息，由此，可以提高意图判断的准确性，并基于该意图做出正确的应答，进而可以提高用
户体验感。

附图说明

[0020] 通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

[0021] 图1是本发明实施例的部分画板的示意图；

[0022] 图2是本发明实施例的一种信息交互方法的流程图；

[0023] 图3是本发明实施例的相似语句召回方法的流程图；

[0024] 图4是本发明实施例的特征向量确定方法的流程图；

[0025] 图5是本发明实施例的信息交互系统的示意图；

[0026] 图6是本发明实施例的信息交互装置的示意图；

[0027] 图7是本发明实施例的电子设备的示意图。

具体实施方式

[0028] 以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有
这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过
程、流程、元件和电路并没有详细叙述。

[0029] 此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的，并且附图不一定是按比例绘制的。

[0030] 除非上下文明确要求，否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

[0031] 在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义
是两个或两个以上。

[0032] 在以下实施例中，主要以通过语音(例如电话或其他通话方式)打车的对话管理场景进行描述，应理解，本实施例并不对信息交互方法及意图识别方法进行限制，其可以应用
于任意对话管理场景中，例如物流应用场景等。

[0033] 在当前网约车的应用中，通常通过智能设备中的APP进行网约车预定，而部分用户(例如老人等)不便或不会使用智能设备中APP，这导致了这部分用户难以打车的情况。因
此，可以提供一种对话管理方法及对话管理系统，使得用户可以通过电话语音的形式下单。
例如，具体过程可以为：用户通过拨打网约车预定对应的号码，在智能语音接通后，输入起
始地和目的地等相关特征，智能服务端通过解析用户输入语音执行网约车预定操作，同时
可以通过语音通话告知该用户司机接单情况、接单车辆信息、车辆预计到达时间、车辆到达
状态，并确定用户是否安全上车或安全下车。由此，在网约车的对话应用场景中，准确识别
用户输入语音及用户意图是至关重要的，否则无法确定用户的起始地和目的地，导致网约
车预定失败。由此，可以采用本实施例提供的信息交互方法，以提高意图判断的准确性，并
基于该意图做出正确的应答，进而可以提高用户体验感。

[0034] 在一种可选的实现方式中，本发明实施例的信息交互系统可以包括对话管理模块和语义理解模块。其中，对话管理模块根据当前任务状态和历史交互信息等判断下一步有
可能的状态转移。语义理解模块根据当前任务状态、历史交互信息以及用户当前输入语音
识别出用户意图，控制对话管理模块做出相应的动作，并控制返回该意图对应的答复。

[0035] 在本实施例中，对话管理模块基于优先状态机构建，也即本实施例基于状态机创建各信息交互状态之间的转移关系。对话管理模块的结构由画板(graph)、子图流(flow)、
节点(node)和边(edge)构成，其中，画板对应整个项目，子图流对应一个技能，节点代表要
执行的相应动作，边对应判断条件。可选的，当用户与信息交互系统进行交互时，对话管理
模块维护该用户的状态，例如对话管理模块把该用户的信息、当前任务状态以及历史交互
信息存储至数据库的缓存中，当该用户与信息交互系统再次交互时，对话管理模块调用并
参考该用户的信息、当前任务状态以及历史交互信息，基于预先设置的画板和语义理解模
块返回的意图经过对应的边流向下一个节点，也即转移到下一个状态。

[0036] 图1是本发明实施例的部分画板的示意图。如图1所示，以通过通话打车的“确认上车”部分为例进行说明，其中，在节点11处通过信息交互确定用户是否上车。其中，节点11对
应的状态可以包括未上车、已上车和其它，“其它”用于表征未能从用户输入语音中得出是
否上车的判断结果。在节点11处的状态判断结果为“已上车”时，控制返回“已上车结束语”，
例如“确认您已上车，请您注意安全”等。在节点11处的状态判断结果为“未上车”时，控制返
回“未上车结束语”，例如“车辆已到达，请您尽快上车”等。在在节点11处的状态判断结果为
“其它”时，控制返回“其它情况话术”，例如再次确认用户是否上车的话术，在根据用户输入
的语音确定该用户是否上车。若此次确认的状态判断结果为“已上车”时，控制返回“已上车
结束语”。若此次确认的状态判断结果为“未上车”时，控制返回“未上车结束语”。若此次确
认的状态判断结果仍为“其它”，返回“转人工结束语”，例如“未能识别您的意图，正在为您
跳转人工客服”等。由此，本实施例通过基于有限状态机创建各信息交互状态之间的转移关
系，可以提高状态跳转的准确性，进而可以提高用户体验感。

[0037] 图2是本发明实施例的一种信息交互方法的流程图。如图2所示，本发明实施例的信息交互方法包括以下步骤：

[0038] 步骤S110，接收目标用户的当前输入语音。以网约车预定场景中的确认乘客是否上车为例，乘客的当前输入语音可以为“嗯，我已经上车了”。

[0039] 步骤S120，召回所述当前输入语音对应的至少一个相似语句。其中，相似语句为预先存储的具有对应意图的语句。

[0040] 图3是本发明实施例的相似语句召回方法的流程图。在一种可选的实现方式中，步骤S120包括：

[0041] 步骤S121，对当前输入语音进行处理，获取当前输入语音对应的输入文本信息。在一种可选的实现方式中，由于环境噪音或者用户口音问题等原因可能导致通过当前输入语
音直接识别出的文本信息存在错误。由此，在本实施例中，基于自动语音识别方法(例如ASR
等)确定当前输入语音对应的初始文本，对初始文本进行矫正，获取当前语音对应的输入文
本信息。可选的，对初始文本进行矫正包括纠错和去除停用词，纠错是识别到的文本出现的
错误，本实施例采用基于n‑gram算法的纠错模型对初始文本进行纠错。去除停用词是把一
些标点符号和对语义理解没有作用的语气词删除。

[0042] 步骤S122，获取该输入文本信息的特征向量。

[0043] 图4是本发明实施例的特征向量确定方法的流程图。在一种可选的实现方式中，如图4所示，步骤S122包括：

[0044] 步骤S122A，将输入文本信息输入至第一向量计算模型中进行处理，获取第一向量。可选的，第一向量计算模型为基于BM25算法的模型。在本实施例中，根据BM25算法的模
型确定输入文本信息基于表征信息统计的特征向量，可以降低计算量，提高数据处理速度。
BM25算法是一种用来评价搜索词与文档之间相关性的算法，其为基于概率检索模型提出的
算法。

[0045] 步骤S122B，将输入文本信息输入至第二向量计算模型中进行处理，获取第二向量。可选的，第二向量计算模型一种通过无监督学习得到的深度学习模型。可选的，第二向
量计算模型为基于bert‑Ada算法的模型。基于bert‑Ada算法的模型为通过可微神经架构搜
索(Differentiable Neural Architecture Search,DNAS)将bert模型进行压缩形成的任
务自适应的小模型，可以根据所要执行的任务调整小模型的结构和知识。由此，可以在特征
向量的语义表达能力的同时，降低模型的复杂程度，提高数据处理效率。

[0046] 步骤S122C，将第一向量和第二向量进行拼接，获取输入文本信息的特征向量。

[0047] 由此，本实施例通过将基于表征信息统计的特征向量与基于深度语义向量表示的特征向量进行拼接，获取输入文本信息的特征向量，由此，可以进一步提高特征向量的语义
表达能力，进而可以提高意图识别的准确度。

[0048] 步骤S123，计算输入文本信息的特征向量分别与意图语句库中各语句的特征向量的相似度。其中，意图语句库中存储有各意图对应的至少一个语句。每个意图具有对应的至
少一个语句。例如，表达“已上车”的意图，可以包括“嗯，我在车上了”、“嗯，我上车了”、“是
的，已经上车了”、“对啊，车已经开了”等等。

[0049] 可选的，意图语句库中的各语句的特征向量可以基于与步骤S122A‑S122C类似的方法预先确定并存储，在此不再赘述。

[0050] 可选的，可以通过计算输入文本信息的特征向量分别与意图语句库中各语句的特征向量之间的余弦相似度、欧式距离、切比雪夫距离、曼哈顿距离等来计算对应的相似度，
也可以根据神经网络模型来计算输入文本信息的特征向量分别与意图语句库中各语句的
特征向量之间的相似度，本实施例并不对此进行限制。

[0051] 步骤S124，根据各相似度召回至少一个相似语句。在一种可选的实现方式中，对意图数据库中的各语句按照相似度从大到小进行排序，获取相似度最高的k个语句作为相似
语句，k大于等于1。

[0052] 由此，本实施例通过输入文本信息的特征向量和意图语句库中的各语句的相似度，召回至少一个相似语句，提高了召回效率。

[0053] 步骤S130，计算当前输入语音与各所述相似语句之间的相关参数。

[0054] 在一种可选的实现方式中，将当前输入语音分别与各相似语句形成的语句对输入至预先训练的相关参数确定模型中进行处理，获取各语句对中的当前数据语音与相似语句
之间的相关参数。

[0055] 假设当前输入语音对应的输入文本信息为A，相似语句包括语句B、语句C和语句D，则当前输入语音分别与各相似语句形成的语句对包括语句对(A,B)、语句对(A,C)和语句对
(A,D)。在本实施例中，将语句对(A,B)、语句对(A,C)和语句对(A,D)输入值预先训练的相关
参数确定模型中进行处理，获取语句对(A,B)中的当前输入语音A与相似语句B之间的相关
参数，语句对(A,C)中的当前输入语音A与相似语句C之间的相关参数，语句对(A,D)中的当
前输入语音A与相似语句D之间的相关参数。

[0056] 在一种可选的实现方式中，相关参数确定模型为有监督的深度学习模型，通过二分类损失函数得到各语句对中的两个句子的相关程度，从而得到用户的当前输入语音与相
似语句对应的意图的相关程度。

[0057] 可选的，相关参数模型为基于Sentence‑Bert算法的模型。Sentence‑Bert模型使用Siamese and Triplet Network(孪生网络和三胞胎网络)生成具有语义的语句
Embedding向量，并采用余弦相似度、曼哈顿距离、欧氏距离计算语句对之间的相关程度。

[0058] 由此，本实施例采用计算速度较快的粗粒度文本匹配算法(步骤S120)召回k个相似语句，并采用细粒度的文本匹配算法计算当前输入语句与各相似语句的相关参数并进行
排序，由此，根据基于粗粒度的文本匹配算法的计算结果和基于细粒度的文本匹配算法的
计算结果进行后验排序，获取当前输入语音对应的意图，这提高了意图识别的准确性。

[0059] 步骤S140，将当前特征信息输入至预先训练的意图确定模型中进行处理，以确定当前输入语音对应的意图。其中，当前特征信息至少包括当前输入语音的特征信息和各相
似语句对应的相关参数信息。其中，当前输入语音的特征信息包括当前输入语音对应的输
入文本信息，各相似语句对应的相关参数信息包括当前输入语音与各相似语句之间的相关
参数以及相关参数排序信息。

[0060] 在一种可选的实现方式中，当前特征信息包括输入文本信息、当前输入语音与各相似语句之间的相似度及相似度排序信息(也即召回步骤S120中计算的输入文本信息与相
似语句的相似度)、当前输入语音与各相似语句之间的相关参数及相关参数排序信息。在本
实施例中，先通过粗粒度的相似度计算从意图语句库中的大量语句中筛选出k个相似语句，
在对k个相似语句计算其与输入文本信息之间的相关参数，提高了数据处理效率。并且，本
实施例根据基于粗粒度的文本匹配算法的计算结果和基于细粒度的文本匹配算法的计算
结果进行后验排序，获取当前输入语音对应的意图，由此，可以提高意图识别的准确性。

[0061] 在另一种可选的实现方式中，当前特征信息还包括目标任务的当前任务状态和目标任务对应的历史交互信息。以网约车为例，目标任务的当前任务状态可以包括派单状态、
司机已接单状态、已上车状态和已下车状态等。以当前任务状态为“已上车状态”，历史交互
信息包括用户打通网约车预定的号码后的对话记录，例如网约车预定对话“我在xx小区东
门，要去xx大学西门”，“好的，正在为您派单”，“乘客您好，车牌号为xxxx的白色xx车已接
单，当前距您1km，请留意”，“乘客您好，您预约的网约车已到达上车点，请您确定是否已上
车”等。由此，本实施例可以根据目标任务的当前任务状态和目标任务对应的历史交互信息
进一步提高意图识别的准确性，进而进一步提高用户体验感。

[0062] 可选的，本实施例的意图确定模型为ensemble模型。ensemble模型是一种模型集成框架，其包括多种分类器，各分类器可以是不同的机器学习方法，也可以是相同的机器学
习方法，各分类器可以是互补的，拒用自己的位置。由此，在本实施例中，将输入文本信息、
当前输入语音与各相似语句之间的相似度及相似度排序信息、当前输入语音与各相似语句
之间的相关参数及相关参数排序信息、目标任务的当前任务状态和目标任务对应的历史交
互信息输入至ensemble模型，通过ensemble模型中的各分类器对各特征信息进行处理，以
对各相似语句进行综合排序，输出得分最高的相似语句对应的意图。由此，可以进一步提高
意图识别的准确性，进而提高用户体验感。

[0063] 步骤S150，根据意图控制返回对应的目标语音。以网约车应用场景为例，假设步骤S140获取的意图为“已上车”，则向目标用户返回“已上车结束语”，例如“确认您已上车，请
您注意安全”等。

[0064] 在一种可选的实现方式中，本实施例的信息交互方法还包括：根据获取意图和目标任务的当前任务状态跳转至新的任务状态。以网约车应用场景为例，假设获得的意图为
“已上车”，则将目标任务的当前任务状态跳转至新的节点，对应的状态可以包括“已下车”、
“未下车”和其它。

[0065] 本发明实施例通过召回当前输入语音对应的至少一个相似语句，计算当前输入语音与各相似语句之间的相关参数，将当前特征信息输入至预先训练的意图确定模型中进行
处理，以确定当前输入语音对应的意图，并根据所述意图控制返回对应的目标语音，其中，
当前特征信息至少包括所述当前输入语音的特征信息和各所述相似语句对应的相关参数
信息，由此，可以提高意图判断的准确性，并基于该意图做出正确的应答，进而可以提高用
户体验感。

[0066] 图5是本发明实施例的信息交互系统的示意图。如图5所示，本发明实施例的信息交互系统5包括对话管理模块51和语义理解模块52。其中，对话管理模块51用于接收用户终
端发送的当前输入语音，并基于语义理解模块52确定的意图确定该意图对应的答复，也即
目标语音，将目标语音发送至用户终端。语义理解模块52根据当前任务状态、历史交互信息
以及用户当前输入语音识别出用户意图，控制对话管理模块做出相应的动作，并控制返回
该意图对应的答复。其中，语义理解模块52可以基于上述步骤S110‑步骤S140确定当前输入
语句对应的意图，在此不再赘述。

[0067] 在本实施例的信息交互系统中，通过语义理解模块根据当前任务状态、历史交互信息以及用户当前输入语音识别出用户意图，通过对话管理模块根据语义理解模块确定的
意图获取该意图对应的答复，并发送至用户终端。其中，语义理解模块通过召回当前输入语
音对应的至少一个相似语句，计算当前输入语音与各相似语句之间的相关参数，将当前特
征信息输入至预先训练的意图确定模型中进行处理，以确定当前输入语音对应的意图，并
根据所述意图控制返回对应的目标语音，其中，当前特征信息至少包括所述当前输入语音
的特征信息和各所述相似语句对应的相关参数信息，由此，可以提高意图判断的准确性，并
基于该意图做出正确的应答，进而可以提高用户体验感。

[0068] 图6是本发明实施例的信息交互装置的示意图。如图6所示，本发明实施例的信息交互装置6包括接收单元61、召回单元62、相关参数计算单元63、意图确定单元64和语音返
回单元65。

[0069] 接收单元61被配置为接收目标用户的当前输入语音。召回单元62被配置为召回所述当前输入语音对应的至少一个相似语句，所述相似语句为预先存储的具有对应意图的语
句。相关参数计算单元63被配置为计算所述当前输入语音与各所述相似语句之间的相关参
数。意图确定单元64被配置为将当前特征信息输入至预先训练的意图确定模型中进行处
理，以确定所述当前输入语音对应的意图，所述当前特征信息至少包括所述当前输入语音
的特征信息和各所述相似语句对应的相关参数信息。语音返回单元65被配置为根据所述意
图控制返回对应的目标语音。

[0070] 在一种可选的实现方式中，所述当前特征信息包括所述输入文本信息、所述当前输入语音与各所述相似语句之间的相似度及相似度排序信息、所述当前输入语音与各所述
相似语句之间的相关参数及相关参数排序信息。可选的，所述当前特征信息还包括目标任
务的当前任务状态和所述目标任务对应的历史交互信息。

[0071] 在一种可选的实现方式中，所述召回单元62包括文本获取子单元、向量获取子单元、相似度计算子单元和召回子单元。文本获取子单元，被配置为对所述当前输入语音进行
处理，获取所述当前输入语音对应的输入文本信息。向量获取子单元，被配置为获取所述输
入文本信息的特征向量。相似度计算子单元，被配置为计算所述输入文本信息的特征向量
分别与意图语句库中各语句的特征向量的相似度，所述意图语句库中存储有各意图对应的
至少一个语句。召回子单元，被配置为根据各所述相似度召回至少一个所述相似语句。

[0072] 在一种可选的实现方式中，所述文本获取子单元包括初始文本获取模块和矫正模块。初始文本获取模块被配置为基于自动语音识别方法确定所述当前输入语音对应的初始
文本。矫正模块被配置为对所述初始文本进行矫正，获取所述输入文本信息。

[0073] 在一种可选的实现方式中，所述向量获取子单元包括第一向量获取模块、第二向量获取模块和特征向量获取模块。第一向量获取模块被配置为将所述输入文本信息输入至
第一向量计算模型中进行处理，获取第一向量。第二向量获取模块被配置为将所述输入文
本信息输入至第二向量计算模型中进行处理，获取第二向量。特征向量获取模块被配置为
将所述第一向量和所述第二向量进行拼接，获取所述输入文本信息的特征向量。

[0074] 在一种可选的实现方式中，所述相关参数计算单元63包括相关参数计算子单元。相关参数计算子单元被配置为将所述当前输入语音分别与各所述相似语句形成的语句对
输入至预先训练的相关参数确定模型中进行处理，获取各所述语句对中的当前数据语音与
相似语句之间的相关参数。

[0075] 在一种可选的实现方式中，信息交互装置6还包括状态跳转单元。状态跳转单元被配置为根据所述意图和目标任务的当前任务状态跳转至新的任务状态。

[0076] 在一种可选的实现方式中，信息交互装置6还包括转移关系创建单元。转移关系创建单元被配置为基于状态机创建各信息交互状态之间的转移关系。

[0077] 本发明实施例通过召回当前输入语音对应的至少一个相似语句，计算当前输入语音与各相似语句之间的相关参数，将当前特征信息输入至预先训练的意图确定模型中进行
处理，以确定当前输入语音对应的意图，并根据所述意图控制返回对应的目标语音，其中，
当前特征信息至少包括所述当前输入语音的特征信息和各所述相似语句对应的相关参数
信息，由此，可以提高意图判断的准确性，并基于该意图做出正确的应答，进而可以提高用
户体验感。

[0078] 图7是本发明实施例的电子设备的示意图。如图7所示，电子设备7为通用数据处理装置，其包括通用的计算机硬件结构，其至少包括处理器71和存储器72。处理器71和存储器
72通过总线73连接。存储器72适于存储处理器71可执行的指令或程序。处理器71可以是独
立的微处理器，也可以是一个或者多个微处理器集合。由此，处理器71通过执行存储器72所
存储的指令，从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其
它装置的控制。总线73将上述多个组件连接在一起，同时将上述组件连接到显示控制器74
和显示装置以及输入/输出(I/O)装置75。输入/输出(I/O)装置75可以是鼠标、键盘、调制解
调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型
地，输入/输出装置75通过输入/输出(I/O)控制器76与系统相连。

[0079] 本领域的技术人员应明白，本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的
实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算
机可读存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序
产品。

[0080] 本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。

[0081] 这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指
令装置的制造品，该指令装置实现流程图一个流程或多个流程中指定的功能。

[0082] 也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设
备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。

[0083] 本发明的另一实施例涉及一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述部分或全部的方法实施例。

[0084] 本发明的另一实施例涉及一种非易失性存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

[0085] 即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使
得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法
的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read‑Only
Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程
序代码的介质。

[0086] 以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同
替换、改进等，均应包含在本发明的保护范围之内。

一种信息交互方法、装置及电子设备转让专利

申请号 : CN202110172522.X

文献号 : CN112988992B

文献日 : 2022-04-08

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 赵瀚 , 贾朝阳 , 丁宁 , 颜廷旭

申请人 : 北京嘀嘀无限科技发展有限公司

摘要 :

权利要求 :

说明书 :