对话交互处理方法、装置、电子设备和存储介质转让专利

申请号 : CN201910817112.9

文献号 : CN110557451B

文献日 : 2021-02-05

本申请提出一种对话交互处理方法、装置、电子设备和存储介质，其中，方法包括：检测到智能呼叫设备建立对话交互连接时，通过全双工组件建立与代理控件的上下行通道；接收代理控件转发的文本信息和智能呼叫设备的播报状态；对文本信息和播报状态进行处理生成异步信号发送给代理控件，以使代理控件将异步信号发送给智能呼叫设备进行相对应的处理。解决了现有技术中对话交互方式存在的对话过程不流畅、错误理解用户的意图，导致对话交互效果比较差的问题，通过智能呼叫设备与代理控件建立连接，并通过全双工组件建立与代理控件的上下行通道来实现语音、文本和播放状态等数据的实时传输，提高对话交互效率的同时保证对话的流畅性，满足用户使用需求。

1.一种对话交互处理方法，其特征在于，包括以下步骤：检测到智能呼叫设备建立对话交互连接时，通过全双工组件建立与代理控件的上下行通道；

接收所述代理控件转发的文本信息和所述智能呼叫设备的播报状态；其中，所述智能呼叫设备接收语音信息发送给所述代理控件，对所述语音信息进行转换生成所述文本信息；

对所述文本信息和所述播报状态进行处理生成异步信号发送给所述代理控件，以使所述代理控件将所述异步信号发送给所述智能呼叫设备进行相对应的处理；其中，所述全双工组件生成所述异步信号。

2.如权利要求1所述的方法，其特征在于，所述对所述文本信息和所述播报状态进行处理生成异步信号发送给所述代理控件，以使所述代理控件将所述异步信号发送给所述智能呼叫设备进行相对应的处理，包括：对所述文本信息进行语义分析，并根据所述语义分析结果判断是否满足预设打断条件；

若根据所述语义分析结果判断满足预设打断条件，以及根据所述播报状态确定为正在播报状态，则生成打断信号；

将所述打断信号发送给所述代理控件，以使所述代理控件将所述打断信号发送给所述智能呼叫设备停止播报。

3.如权利要求2所述的方法，其特征在于，所述预设打断条件，包括：预设按压按键、意图打断和预设关键词打断中的一种或者多种。

4.如权利要求1所述的方法，其特征在于，所述对所述文本信息和所述播报状态进行处理生成异步信号发送给所述代理控件，以使所述代理控件将所述异步信号发送给所述智能呼叫设备进行相对应的处理，包括：根据所述播报状态确定为待播报状态，对所述文本信息进行语义识别为异常意图响应，则从预设数据库中调用预设回复文本；

将所述预设回复文本生成预设回复语音发送给所述代理控件，所述代理控件将所述预设回复语音发送给所述智能呼叫设备进行播报。

5.如权利要求4所述的方法，其特征在于，在所述将所述预设回复文本生成预设回复语音发送给所述代理控件，所述代理控件将所述预设回复语音发送给所述智能呼叫设备进行播报之后，还包括：在预设时间阈值内没有接收到所述代理控件转发的文本信息，则确定满足静默条件；

从预设数据库中调用目标文本，并将所述目标文本生成目标语音信息发送给所述代理控件，以使所述代理控件将所述目标语音信息发送给所述智能呼叫设备进行播报。

6.如权利要求1所述的方法，其特征在于，所述对所述文本信息和所述播报状态进行处理生成异步信号发送给所述代理控件，以使所述代理控件将所述异步信号发送给所述智能呼叫设备进行相对应的处理，包括：提取所述文本信息中关键词；

根据所述关键词生成回复文本，并将所述回复文本生成回复语音发送给所述代理控件，所述代理控件将所述回复语音发送给所述智能呼叫设备进行播报。

7.如权利要求1所述的方法，其特征在于，所述对所述文本信息和所述播报状态进行处理生成异步信号发送给所述代理控件，以使所述代理控件将所述异步信号发送给所述智能呼叫设备进行相对应的处理，包括：根据所述播报状态确定为待播报状态，对所述文本信息进行文本检测；

若所述文本检测的结果为文本错误，则对所述文本信息进行修改；

根据修改的文本信息生成待回复文本，并将所述待回复文本生成待回复语音发送给所述代理控件，所述代理控件将所述待回复语音发送给所述智能呼叫设备进行播报。

8.如权利要求1所述的方法，其特征在于，在所述接收所述代理控件转发的文本信息和所述智能呼叫设备的播报状态之后，还包括:对所述文本信息进行语义分析；

根据语义分析结果确定为触发控制事件，则生成对应的控制指令发送给所述代理控件，以使所述代理控件将所述控制指令发送给所述智能呼叫设备进行对应的控制操作。

9.一种对话交互处理装置，其特征在于，包括：

建立模块，用于检测到智能呼叫设备建立对话交互连接时，通过全双工组件建立与代理控件的上下行通道；

接收模块，用于接收所述代理控件转发的文本信息和所述智能呼叫设备的播报状态；

其中，所述智能呼叫设备接收语音信息发送给所述代理控件，对所述语音信息进行转换生成所述文本信息；

处理模块，用于对所述文本信息和所述播报状态进行处理生成异步信号发送给所述代理控件，以使所述代理控件将所述异步信号发送给所述智能呼叫设备进行相对应的处理；

其中，所述全双工组件生成所述异步信号。

10.如权利要求9所述的装置，其特征在于，所述处理模块，具体用于：对所述文本信息进行语义分析，并根据所述语义分析结果判断是否满足预设打断条件；

若根据所述语义分析结果判断满足预设打断条件，以及根据所述播报状态确定为正在播报状态，则生成打断信号；

将所述打断信号发送给所述代理控件，以使所述代理控件将所述打断信号发送给所述智能呼叫设备停止播报。

11.如权利要求10所述的装置，其特征在于，所述预设打断条件，包括：预设按压按键、意图打断和预设关键词打断中的一种或者多种。

12.如权利要求9所述的装置，其特征在于，所述处理模块，具体用于：根据所述播报状态确定为待播报状态，对所述文本信息进行语义识别为异常意图响应，则从预设数据库中调用预设回复文本；

将所述预设回复文本生成预设回复语音发送给所述代理控件，所述代理控件将所述预设回复语音发送给所述智能呼叫设备进行播报。

13.如权利要求12所述的装置，其特征在于，还包括：确定模块，用于在预设时间阈值内没有接收到所述代理控件转发的文本信息，则确定满足静默条件；

调用生成模块，用于从预设数据库中调用目标文本，并将所述目标文本生成目标语音信息发送给所述代理控件，以使所述代理控件将所述目标语音信息发送给所述智能呼叫设备进行播报。

14.如权利要求9所述的装置，其特征在于，所述处理模块，具体用于：提取所述文本信息中关键词；

15.如权利要求9所述的装置，其特征在于，所述处理模块，具体用于：根据所述播报状态确定为待播报状态，对所述文本信息进行文本检测；

若所述文本检测的结果为文本错误，则对所述文本信息进行修改；

16.如权利要求9所述的装置，其特征在于，还包括:

分析模块，用于对所述文本信息进行语义分析；

生成模块，用于根据语义分析结果确定为触发控制事件，则生成对应的控制指令发送给所述代理控件，以使所述代理控件将所述控制指令发送给所述智能呼叫设备进行对应的控制操作。

17.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-8任一所述的对话交互处理方法。

18.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-8任一所述的对话交互处理方法。

对话交互处理方法、装置、电子设备和存储介质

技术领域

[0001] 本申请涉及人工智能技术领域，尤其涉及一种对话交互处理方法、装置、电子设备和存储介质。

背景技术

[0002] 目前，随着人工智能技术的不断发展，越来越多的场景支持人机智能对话，比如用户与机器人客服的对话，人机智能对话已经成为人们生活中比较常见的一种对话交互方式。

[0003] 相关技术，在机器人客服的业务系统中，需要按顺序执行三次远程调用，分别调用ASR(Automatic Speech Recognition，自动语音识别)、语义理解及对话服务和TTS(Text To Speech，文本转换语音)来实现人机智能对话，这种调用方式中，存在三种服务接入协议多样、服务相互独立、调用顺序固化等问题，并因为简单的服务拼合，无法满足用户与机器人客服对话需要的完整功能，出现对话过程不流畅、错误理解用户的意图，导致对话交互效果比较差等问题。

[0004] 申请内容

[0005] 本申请旨在至少在一定程度上解决上述相关技术中的技术问题之一。

[0006] 为此，本申请的第一个目的在于提出一种对话交互处理方法，解决了现有技术中对话交互方式存在的对话过程不流畅、错误理解用户的意图，导致对话交互效果比较差的问题，通过智能呼叫设备与代理控件建立连接，并通过全双工组件建立与代理控件的上下行通道来实现语音、文本和播放状态等数据的实时传输，提高对话交互效率的同时保证对话的流畅性，满足用户使用需求。

[0007] 本申请的第二个目的在于提出一种对话交互处理装置。

[0008] 本申请的第三个目的在于提出一种计算机设备。

[0009] 本申请的第四个目的在于提出一种非临时性计算机可读存储介质。

[0010] 为达上述目的，本申请第一方面实施例提出了一种对话交互处理方法，包括：检测到智能呼叫设备建立对话交互连接时，通过全双工组件建立与代理控件的上下行通道；接收所述代理控件转发的文本信息和所述智能呼叫设备的播报状态；其中，所述智能呼叫设备接收语音信息发送给所述代理控件，对所述语音信息进行转换生成所述文本信息；对所述文本信息和所述播报状态进行处理生成异步信号发送给所述代理控件，以使所述代理控件将所述异步信号发送给所述智能呼叫设备进行相对应的处理。

[0011] 另外，本申请实施例的对话交互处理方法，还具有如下附加的技术特征：

[0012] 可选地，所述对所述文本信息和所述播报状态进行处理生成异步信号发送给所述代理控件，以使所述代理控件将所述异步信号发送给所述智能呼叫设备进行相对应的处理，包括：对所述文本信息进行语义分析，并根据所述语义分析结果判断是否满足预设打断条件；若根据所述语义分析结果判断满足预设打断条件，以及根据所述播报状态确定为正在播报状态，则生成打断信号；将所述打断信号发送给所述代理控件，以使所述代理控件将所述打断信号发送给所述智能呼叫设备停止播报。

[0013] 可选地，所述预设打断条件，包括：预设按压按键、意图打断和预设关键词打断中的一种或者多种。

[0014] 可选地，所述对所述文本信息和所述播报状态进行处理生成异步信号发送给所述代理控件，以使所述代理控件将所述异步信号发送给所述智能呼叫设备进行相对应的处理，包括：根据所述播报状态确定为待播报状态，对所述文本信息进行语义识别为异常意图响应，则从预设数据库中调用预设回复文本；将所述预设回复文本生成预设回复语音发送给所述代理控件，所述代理控件将所述预设回复语音发送给所述智能呼叫设备进行播报。

[0015] 可选地，在所述将所述预设回复文本生成预设回复语音发送给所述代理控件，所述代理控件将所述预设回复语音发送给所述智能呼叫设备进行播报之后，还包括：在预设时间阈值内没有接收到所述代理控件转发的文本信息，则确定满足静默条件；从预设数据库中调用目标文本，并将所述目标文本生成目标语音信息发送给所述代理控件，以使所述代理控件将所述目标语音信息发送给所述智能呼叫设备进行播报。

[0016] 可选地，所述对所述文本信息和所述播报状态进行处理生成异步信号发送给所述代理控件，以使所述代理控件将所述异步信号发送给所述智能呼叫设备进行相对应的处理，包括：提取所述文本信息中关键词；根据所述关键词生成回复文本，并将所述回复文本生成回复语音发送给所述代理控件，所述代理控件将所述回复语音发送给所述智能呼叫设备进行播报。

[0017] 可选地，所述对所述文本信息和所述播报状态进行处理生成异步信号发送给所述代理控件，以使所述代理控件将所述异步信号发送给所述智能呼叫设备进行相对应的处理，包括：根据所述播报状态确定为待播报状态，对所述文本信息进行文本检测；若所述文本检测的结果为文本错误，则对所述文本信息进行修改；根据修改的文本信息生成待回复文本，并将所述待回复文本生成所述待回复语音发送给所述代理控件，所述代理控件将所述待回复语音发送给所述智能呼叫设备进行播报。

[0018] 可选地，在所述接收所述代理控件转发的文本信息和所述智能呼叫设备的播报状态之后，还包括:对所述文本信息进行语义分析；根据语义分析结果确定为触发控制事件，则生成对应的控制指令发送给所述代理控件，以使所述代理控件将所述控制指令发送给所述智能呼叫设备进行对应的控制操作。

[0019] 为达上述目的，本申请第二方面实施例提出了一种对话交互处理装置，包括：建立模块，用于检测到智能呼叫设备建立对话交互连接时，通过全双工组件建立与代理控件的上下行通道；接收模块，用于接收所述代理控件转发的文本信息和所述智能呼叫设备的播报状态；其中，所述智能呼叫设备接收语音信息发送给所述代理控件，对所述语音信息进行转换生成所述文本信息；处理模块，用于对所述文本信息和所述播报状态进行处理生成异步信号发送给所述代理控件，以使所述代理控件将所述异步信号发送给所述智能呼叫设备进行相对应的处理。

[0020] 另外，本申请实施例的对话交互处理装置，还具有如下附加的技术特征：

[0021] 可选地，所述处理模块，具体用于：对所述文本信息进行语义分析，并根据所述语义分析结果判断是否满足预设打断条件；若根据所述语义分析结果判断满足预设打断条件，以及根据所述播报状态确定为正在播报状态，则生成打断信号；将所述打断信号发送给所述代理控件，以使所述代理控件将所述打断信号发送给所述智能呼叫设备停止播报。

[0022] 可选地，所述预设打断条件，包括：预设按压按键、意图打断和预设关键词打断中的一种或者多种。

[0023] 可选地，所述处理模块，具体用于：根据所述播报状态确定为待播报状态，对所述文本信息进行语义识别为异常意图响应，则从预设数据库中调用预设回复文本；将所述预设回复文本生成预设回复语音发送给所述代理控件，所述代理控件将所述预设回复语音发送给所述智能呼叫设备进行播报。

[0024] 可选地，所述的装置，还包括：确定模块，用于在预设时间阈值内没有接收到所述代理控件转发的文本信息，则确定满足静默条件；调用生成模块，用于从预设数据库中调用目标文本，并将所述目标文本生成目标语音信息发送给所述代理控件，以使所述代理控件将所述目标语音信息发送给所述智能呼叫设备进行播报。

[0025] 可选地，所述处理模块，具体用于：提取所述文本信息中关键词；根据所述关键词生成回复文本，并将所述回复文本生成回复语音发送给所述代理控件，所述代理控件将所述回复语音发送给所述智能呼叫设备进行播报。

[0026] 可选地，所述处理模块，具体用于：根据所述播报状态确定为待播报状态，对所述文本信息进行文本检测；若所述文本检测的结果为文本错误，则对所述文本信息进行修改；根据修改的文本信息生成待回复文本，并将所述待回复文本生成所述待回复语音发送给所述代理控件，所述代理控件将所述待回复语音发送给所述智能呼叫设备进行播报。

[0027] 可选地，所述的装置，还包括:分析模块，用于对所述文本信息进行语义分析；生成模块，用于根据语义分析结果确定为触发控制事件，则生成对应的控制指令发送给所述代理控件，以使所述代理控件将所述控制指令发送给所述智能呼叫设备进行对应的控制操作。

[0028] 为达上述目的，本申请第三方面实施例提出了一种计算机设备，包括：处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如第一方面实施例所述的对话交互处理方法。

[0029] 为达上述目的，本申请第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例所述的对话交互处理方法。

[0030] 为达上述目的，本申请第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，实现如第一方面实施例所述的对话交互处理方法。

[0031] 本申请实施例提供的技术方案可以包含如下的有益效果：

[0032] 检测到智能呼叫设备建立对话交互连接时，通过全双工组件建立与代理控件的上下行通道；接收代理控件转发的文本信息和智能呼叫设备的播报状态；对文本信息和播报状态进行处理生成异步信号发送给代理控件，以使代理控件将异步信号发送给智能呼叫设备进行相对应的处理。解决了现有技术中对话交互方式存在的对话过程不流畅、错误理解用户的意图，导致对话交互效果比较差的问题，通过智能呼叫设备与代理控件建立连接，并通过全双工组件建立与代理控件的上下行通道来实现语音、文本和播放状态等数据的实时传输，提高对话交互效率的同时保证对话的流畅性，满足用户使用需求。

[0033] 本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

[0034] 本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

[0035] 图1是根据本申请一个实施例的对话交互处理方法的流程图；

[0036] 图2是根据本申请一个实施例的对话交互处理各个模块连接的示例图；

[0037] 图3是根据本申请一个实施例的全双工组件的结构示例图；

[0038] 图4是根据本申请另一个实施例的对话交互处理方法的流程图；

[0039] 图5是根据本申请又一个实施例的对话交互处理方法的流程图；

[0040] 图6是根据本申请再一个实施例的对话交互处理方法的流程图；

[0041] 图7是根据本申请一个实施例的对话交互处理装置的结构示意图；

[0042] 图8是根据本申请另一个实施例的对话交互处理装置的结构示意图；

[0043] 图9是根据本申请又一个实施例的对话交互处理装置的结构示意图。

具体实施方式

[0044] 下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

[0045] 下面参考附图描述本申请实施例的对话交互处理方法、装置、电子设备和存储介质。

[0046] 针对背景技术中提到的，现有技术中对话交互处理方式存在的对话过程不流畅、错误理解用户的意图，导致对话交互效果比较差的技术问题，本申请提出了一种对话交互处理的方法，通过智能呼叫设备与代理控件建立连接，并通过全双工组件建立与代理控件的上下行通道来实现语音、文本和播放状态等数据的实时传输，提高对话交互效率的同时保证对话的流畅性，满足用户使用需求。

[0047] 具体而言，图1是根据本申请一个实施例的对话交互处理方法的流程图，如图1所示，该方法包括：

[0048] 步骤101，检测到智能呼叫设备建立对话交互连接时，通过全双工组件建立与代理控件的上下行通道。

[0049] 具体地，如图2所示，本申请实施例中，智能呼叫设备可以基于标准的MRCP(v2)协议的对话接口与代理控件建立连接，代理控件分别与ASR、语义理解及对话服务和TTS连接，实现以用户的音频为输出，输出为智能呼叫设备的音频。

[0050] 更具体地，如图3所示，语义理解及对话服务中包括全双工组件，检测到智能呼叫设备建立对话交互连接时，通过全双工组件建立与代理控件的上下行通道，其中，检测到智能呼叫设备建立对话交互连接可以理解的是，用户向智能呼叫设备发送连接请求，在智能呼叫设备反馈回确认信息后，两者建立连接，即智能呼叫设备处于可以与用户进行对话交互的状态。

[0051] 如图3所示，全双工组件与代理控件之间具有上行通道和下行通道，可以同时进行工作，通过上行通道接收代理控件发送的文本信息、语音信息和智能呼叫设备的播报状态等信息，通过下行通道向代理控件发送打断信号、回复语音等事件流信息，以及全双工组件还包括接收和发送、语义实时转发和计算等模块实现文本信息及播报状态的计算、实现打断条件判断、静默条件和播报进度等计算，在满足设置条件时，产生异步信号通过代理控件发送给智能呼叫设备，由此，可以完成上、下行文本信息、事件的实时传输，打通语音、语义交互，实现联动ASR和TTS的控制。

[0052] 步骤102，接收代理控件转发的文本信息和智能呼叫设备的播报状态；其中，智能呼叫设备接收语音信息发送给代理控件，对语音信息进行转换生成文本信息。

[0053] 具体地，在对话交互开始后，用户可以根据需要向智能呼叫设备发送语音信息，智能呼叫设备接收语音信息发送给代理控件，代理控件通过ASR对语音信息进行转换生成文本信息，并获取智能呼叫设备的播放状态，从而通过上行通道可以接收代理控件转发的文本信息和智能呼叫设备的播报状态。

[0054] 其中，播报状态可以是正在播报状态、待播报状态和停止播报状态等。

[0055] 步骤103，对文本信息和播报状态进行处理生成异步信号发送给代理控件，以使代理控件将异步信号发送给智能呼叫设备进行相对应的处理。

[0056] 具体，对文本信息和播报状态进行处理生成异步信号发送给代理控件，以使代理控件将异步信号发送给智能呼叫设备进行相对应的处理的方式有很多种，可以根据实际应用需要进行选择设置，举例说明如下：

[0057] 第一种示例，对文本信息进行语义分析，并根据语义分析结果判断满足预设打断条件，以及根据播报状态确定为正在播报状态，则生成打断信号，将打断信号发送给代理控件，以使代理控件将打断信号发送给智能呼叫设备停止播报。

[0058] 第二种示例，根据播报状态确定为待播报状态，对文本信息进行语义识别为异常意图响应，则从预设数据库中调用预设回复文本，将预设回复文本生成预设回复语音发送给代理控件，代理控件将预设回复语音发送给智能呼叫设备进行播报。

[0059] 第三种示例，提取文本信息中关键词，根据关键词生成回复文本，并将回复文本生成回复语音发送给代理控件，代理控件将回复语音发送给智能呼叫设备进行播报。

[0060] 第四种示例，根据播报状态确定为待播报状态，对文本信息进行文本检测，若文本检测的结果为文本错误，则对文本信息进行修改，根据修改的文本信息生成待回复文本，并将待回复文本生成待回复语音发送给代理控件，代理控件将待回复语音发送给智能呼叫设备进行播报。

[0061] 具体地，结合语义纠错的技术，纠正语音识别错误，ASR识别后的文本信息错误，支持在送入语义识别之前，根据中文表达的顺畅性进行语义纠错，提升端到端语义理解的准确性。场景距离如下：用户：用户：我是形式在后厂村路上撞车了(形式->行驶)，智能呼叫设备：好的，出险地址已为您记录。

[0062] 综上，本申请实施例的对话交互处理方法，通过检测到智能呼叫设备建立对话交互连接时，通过全双工组件建立与代理控件的上下行通道；接收代理控件转发的文本信息和智能呼叫设备的播报状态；其中，智能呼叫设备接收语音信息发送给代理控件，对语音信息进行转换生成所述文本信息；对文本信息和播报状态进行处理生成异步信号发送给代理控件，以使代理控件将异步信号发送给智能呼叫设备进行相对应的处理。解决了现有技术中对话交互方式存在的对话过程不流畅、错误理解用户的意图，导致对话交互效果比较差的问题，通过智能呼叫设备与代理控件建立连接，并通过全双工组件建立与代理控件的上下行通道来实现语音、文本和播放状态等数据的实时传输，提高对话交互效率的同时保证对话的流畅性，满足用户使用需求。

[0063] 图4是根据本申请另一个实施例的对话交互处理方法的流程图，如图4所示，该方法包括：

[0064] 步骤201，检测到智能呼叫设备建立对话交互连接时，通过全双工组件建立与代理控件的上下行通道。

[0065] 步骤202接收代理控件转发的文本信息和智能呼叫设备的播报状态；其中，智能呼叫设备接收语音信息发送给代理控件，对语音信息进行转换生成文本信息。

[0066] 需要说明的是，步骤201-步骤202与步骤101-步骤102相同，具体参见步骤101-步骤102的描述，此处不再详述。

[0067] 步骤203，对文本信息进行语义分析，并根据语义分析结果判断是否满足预设打断条件。

[0068] 步骤204，若根据语义分析结果判断满足预设打断条件，以及根据播报状态确定为正在播报状态，则生成打断信号。

[0069] 步骤205，将打断信号发送给代理控件，以使代理控件将打断信号发送给智能呼叫设备停止播报。

[0070] 具体地，对话交互打断，在智能呼叫设备正在播报状态，当用户输入语音信息，代理控件在接收语音信息后ASR识别到有效语音信息，并将文本信息进行语义分析，判断语义分析结果是否为预设按压按键即按定制逻辑判断(例如按字数的无意义打断)、判断语义分析结果是否为有意义打断、判断语义分析结果是否为预设关键词打断即可以是用户自定义词表的关键词打断等打断，在满足打断条件下，全双工生成用于智能呼叫设备的打断信号下发到代理控件，并转发到智能呼叫设备，立即停止智能呼叫设备播报内容。

[0071] 场景举例如下，智能呼叫设备：先生您好，我们这里……，用户：等一下，你该不会是个机器人吧，智能呼叫设备：不好意思被你发现了呢，先生您好，我们这里是XX客服中心。

[0072] 由此，能够完成对人机对话过程用户打断场景下的及时响应，控制ASR和TTS输入和输出的节奏，实现人机对话和人与人对话一样自然流畅。

[0073] 图5是根据本申请又一个实施例的对话交互处理方法的流程图，如图5所示，该方法包括：

[0074] 步骤301，检测到智能呼叫设备建立对话交互连接时，通过全双工组件建立与代理控件的上下行通道。

[0075] 步骤302接收代理控件转发的文本信息和智能呼叫设备的播报状态；其中，智能呼叫设备接收语音信息发送给代理控件，对语音信息进行转换生成文本信息。

[0076] 需要说明的是，步骤301-步骤302与步骤101-步骤102相同，具体参见步骤101-步骤102的描述，此处不再详述。

[0077] 步骤303，根据播报状态确定为待播报状态，对文本信息进行语义识别为异常意图响应，则从预设数据库中调用预设回复文本。

[0078] 步骤304，将预设回复文本生成预设回复语音发送给代理控件，代理控件将预设回复语音发送给智能呼叫设备进行播报。

[0079] 具体地，常见通话异常意图响应，比如用户忙、不需要、未听清、调侃、辱骂、质疑智能呼叫设备等，对文本信息进行语义识别为异常意图响应，从预设数据库中调用预设回复文本，将预设回复文本生成预设回复语音发送给代理控件，代理控件将预设回复语音发送给智能呼叫设备进行播报。

[0080] 场景举例如下，智能呼叫设备：用户：我现在很忙，智能呼叫设备：抱歉，那我稍后再打过来吧；用户：我现在不需要你这个产品，智能呼叫设备：没关系，可以先了解一下嘛；用户：你刚说什么我没听清，智能呼叫设备：好的，那我重述一遍；用户：声音很甜美啊加个微信吧，智能呼叫设备：不好意思，我这边只能聊工作哦。

[0081] 步骤305，在预设时间阈值内没有接收到代理控件转发的文本信息，则确定满足静默条件。

[0082] 步骤306，从预设数据库中调用目标文本，并将目标文本生成目标语音信息发送给代理控件，以使代理控件将目标语音信息发送给智能呼叫设备进行播报。

[0083] 具体地，对话中，用户沉默时间过长，智能呼叫设备需要主动发问来继续对话，该技术可支持开发者配置单次沉默时长、以及多次沉默的话术、触发沉默后的对话流程响应等，比如上述播报结束后，在预设时间阈值内没有接收到代理控件转发的文本信息，则确定满足静默条件，从预设数据库中调用目标文本，并将目标文本生成目标语音信息发送给代理控件，以使代理控件将目标语音信息发送给智能呼叫设备进行播报。

[0084] 场景举例如下，智能呼叫设备；经过刚才的介绍，想问下您是否感兴趣？用户：……；智能呼叫设备：抱歉问下您还在吗？用户：……，智能呼叫设备：您好，还在吗？经过刚才的介绍，想问下您是否感兴趣？

[0085] 由此，能够完成对人机对话过程用户静默场景下的及时响应，控制ASR和TTS输入和输出的节奏，实现人机对话和人与人对话一样自然流畅。

[0086] 图6是根据本申请再一个实施例的对话交互处理方法的流程图，如图5所示，该方法包括：

[0087] 步骤401，检测到智能呼叫设备建立对话交互连接时，通过全双工组件建立与代理控件的上下行通道。

[0088] 步骤402接收代理控件转发的文本信息和智能呼叫设备的播报状态；其中，智能呼叫设备接收语音信息发送给代理控件，对语音信息进行转换生成文本信息。

[0089] 需要说明的是，步骤401-步骤402与步骤101-步骤102相同，具体参见步骤101-步骤102的描述，此处不再详述。

[0090] 步骤403，提取文本信息中关键词。

[0091] 步骤404，根据关键词生成回复文本，并将回复文本生成回复语音发送给代理控件，代理控件将回复语音发送给智能呼叫设备进行播报。

[0092] 具体地，结合语义纠错的技术，提取文本信息中关键词去噪，文本信息中包括长串数字或字母时会掺杂无关字词，如报手机号、身份证号、订单号等会夹杂“嗯/啊/额/那个/逗号”等文本噪声，支持提取关键信息时去除“噪声片段”，并与用户二次确认。

[0093] 场景举例如下，用户：帮我打电话给138额xxxx，1725，智能呼叫设备：好的，正在为你拨打电话138xxxx1725；用户：我的订单号是DQ636等我看一下哈456WOK5嗯就是这个，智能呼叫设备：好的，确认一下您的订单号是DQ636456WOK5。

[0094] 步骤405，对文本信息进行语义分析。

[0095] 步骤406，根据语义分析结果确定为触发控制事件，则生成对应的控制指令发送给代理控件，以使代理控件将控制指令发送给智能呼叫设备进行对应的控制操作。

[0096] 具体地，对文本信息进行语义分析可以生成新的事件，由全双工计算进行转换，生成控制指令发送到呼叫中心，比如在对话交互中用户触发事件为帮我转接XXX，或者是帮我为XX充值一百块等触发控制事件，生成对应的控制指令发送给代理控件，以使代理控件将控制指令发送给智能呼叫设备进行对应的控制操作。

[0097] 由此，在整个通话过程中，给用户带来好的体验，需要实现ASR、TTS与语义理解对话技术的深度配合，实现端到端的控制。

[0098] 本申请实施例的对话交互处理方法，在语义部分，采用全双工机制，完成上、下行文本信息、事件的实时传输，打通语音、语义交互，实现联动ASR和TTS的控制，场景功能支持对ASR识别文本优化，以及纠错、打断、静默等逻辑，与对语义理解与对话管理完美结合，是机器人更智能，通话过程更流畅，缩减了每次调用的鉴权、数据转发、流控等多次环节的重复调用，从而可以缩减端到端调用的时延，大大提升调用效率，可以非常大的降低客户系统集成的成本，比如智能客服中集成语音语义能力进入智能呼叫设备时需要做的大量单独集成的工作，仅需要传入一次音频，即可最终拿到回复给用户的TTS音频，中间所有处理的步骤都交给了一体化系统，而不是呼叫平台做非常多的AI技术管理工作，实现语义理解及对话与ASR、TTS打通后，可以完成对人机对话过程中，“用户静默”、“用户打断”等场景下的及时响应，控制ASR和TTS输入和输出的节奏，实现人机对话和人与人对话一样自然流畅。

[0099] 为了实现上述实施例，本申请还提出了一种对话交互处理装置。图7是根据本申请一个实施例的对话交互处理装置的结构示意图，如图7所示，该对话交互处理装置包括：建立模块701、接收模块702和处理模块703，其中，

[0100] 建立模块701，用于检测到智能呼叫设备建立对话交互连接时，通过全双工组件建立与代理控件的上下行通道；

[0101] 接收模块702，用于接收所述代理控件转发的文本信息和所述智能呼叫设备的播报状态；其中，所述智能呼叫设备接收语音信息发送给所述代理控件，对所述语音信息进行转换生成所述文本信息；

[0102] 处理模块703，用于对所述文本信息和所述播报状态进行处理生成异步信号发送给所述代理控件，以使所述代理控件将所述异步信号发送给所述智能呼叫设备进行相对应的处理。

[0103] 在本申请的一个实施例中，处理模块703，具体用于：对所述文本信息进行语义分析，并根据所述语义分析结果判断是否满足预设打断条件；若根据所述语义分析结果判断满足预设打断条件，以及根据所述播报状态确定为正在播报状态，则生成打断信号；将所述打断信号发送给所述代理控件，以使所述代理控件将所述打断信号发送给所述智能呼叫设备停止播报。

[0104] 在本申请的一个实施例中，所述预设打断条件，包括：预设按压按键、意图打断和预设关键词打断中的一种或者多种。

[0105] 在本申请的一个实施例中，所述处理模块，具体用于：根据所述播报状态确定为待播报状态，对所述文本信息进行语义识别为异常意图响应，则从预设数据库中调用预设回复文本；将所述预设回复文本生成预设回复语音发送给所述代理控件，所述代理控件将所述预设回复语音发送给所述智能呼叫设备进行播报。

[0106] 在本申请的一个实施例中，如图8所示，在如图7所示的基础上，还包括：确定模块704和调用生成模块705。

[0107] 其中，确定模块704，用于在预设时间阈值内没有接收到所述代理控件转发的文本信息，则确定满足静默条件。

[0108] 调用生成模块705，用于从预设数据库中调用目标文本，并将所述目标文本生成目标语音信息发送给所述代理控件，以使所述代理控件将所述目标语音信息发送给所述智能呼叫设备进行播报。

[0109] 在本申请的一个实施例中，所述处理模块703，具体用于：提取所述文本信息中关键词；根据所述关键词生成回复文本，并将所述回复文本生成回复语音发送给所述代理控件，所述代理控件将所述回复语音发送给所述智能呼叫设备进行播报。

[0110] 在本申请的一个实施例中，所述处理模块703，具体用于：根据所述播报状态确定为待播报状态，对所述文本信息进行文本检测；若所述文本检测的结果为文本错误，则对所述文本信息进行修改；根据修改的文本信息生成待回复文本，并将所述待回复文本生成所述待回复语音发送给所述代理控件，所述代理控件将所述待回复语音发送给所述智能呼叫设备进行播报。

[0111] 在本申请的一个实施例中，如图9所示，在如图7所示的基础上，还包括：分析模块706和生成模块707。

[0112] 其中，分析模块706，用于对所述文本信息进行语义分析。

[0113] 生成模块707，用于根据语义分析结果确定为触发控制事件，则生成对应的控制指令发送给所述代理控件，以使所述代理控件将所述控制指令发送给所述智能呼叫设备进行对应的控制操作。

[0114] 需要说明的是，前述对对话交互处理方法实施例的解释说明也适用于该实施例的对话交互处理装置，此处不再赘述。

[0115] 综上，本申请实施例的对话交互处理装置，检测到智能呼叫设备建立对话交互连接时，通过全双工组件建立与代理控件的上下行通道；接收代理控件转发的文本信息和智能呼叫设备的播报状态；对文本信息和播报状态进行处理生成异步信号发送给代理控件，以使代理控件将异步信号发送给智能呼叫设备进行相对应的处理。解决了现有技术中对话交互方式存在的对话过程不流畅、错误理解用户的意图，导致对话交互效果比较差的问题，通过智能呼叫设备与代理控件建立连接，并通过全双工组件建立与代理控件的上下行通道来实现语音、文本和播放状态等数据的实时传输，提高对话交互效率的同时保证对话的流畅性，满足用户使用需求。

[0116] 为了实现上述实施例，本申请还提出一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时，实现如前述实施例所描述的对话交互处理方法。

[0117] 为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述方法实施例所描述的对话交互处理方法。

[0118] 在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

[0119] 此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

[0120] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

[0121] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

[0122] 应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

[0123] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

[0124] 此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

[0125] 上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

对话交互处理方法、装置、电子设备和存储介质转让专利

申请号 : CN201910817112.9

文献号 : CN110557451B

文献日 : 2021-02-05

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 刘瑛 , 孙珂 , 赵媛媛 , 孙叔琦 , 常月 , 孙辉丰 , 陈雷 , 李婷婷

申请人 : 北京百度网讯科技有限公司

摘要 :

权利要求 :

说明书 :

对话交互处理方法、装置、电子设备和存储介质

技术领域

背景技术

附图说明

具体实施方式