语音流程质检的方法及装置转让专利

申请号 : CN202010552865.4

文献号 : CN111883115B

文献日 : 2022-01-28

本发明实施例提供一种语音流程质检的方法及装置，该方法包括：获取原始语音文件，所述原始语音文件包括：用户和坐席的语音对话；根据所述原始语音文件，识别得到用户的意图列表，所述意图列表中包括一个或多个所述用户的意图，每个意图对应一个流程节点标识；获取与所述原始语音文件对应的所述用户办理实际业务的标准路径，所述标准路径包括一个或多个流程节点，每个节点对应一个流程节点标识；根据所述意图列表和标准路径，分析得到所述原始语音文件的质检结果。在本发明实施例中，可以实现全自动检测，大大的提高了质检效率，提升质检覆盖率，同时也可以大大的解放人力，降低公司客服成本。

1.一种语音流程质检的方法，其特征在于，包括：获取原始语音文件，所述原始语音文件包括：用户和坐席的语音对话；

根据所述原始语音文件，识别得到所述用户的意图列表，所述意图列表中包括一个或多个所述用户的意图，每个意图对应一个流程节点标识；

获取与所述原始语音文件对应的所述用户办理实际业务的标准路径，所述标准路径包括一个或多个流程节点，每个节点对应一个流程节点标识；

根据所述意图列表和所述标准路径，分析得到所述原始语音文件的质检结果；

所述根据所述原始语音文件，识别得到所述用户的意图列表，包括：将所述原始语音文件转换为文本文件；

根据所述文本文件中的角色标签，得到所述用户的对话内容和/或所述坐席的对话内容；

根据所述用户的对话内容和/或所述坐席的对话内容，识别得到所述用户的意图列表。

2.根据权利要求1所述的方法，其特征在于，所述根据所述用户的对话内容和/或所述坐席的对话内容，识别得到所述用户的意图列表，包括：根据所述用户的对话内容，获取所述用户的每句对话和所述对话的上下文；

根据所述用户的每句对话和所述对话的上下文，识别得到所述用户的意图列表；

或者，

根据所述坐席的对话内容，获取所述坐席的每句对话和所述对话的上下文；

根据所述坐席的每句对话和所述对话的上下文，识别得到所述用户的意图列表；

或者，

根据所述用户的对话内容，获取所述用户的每句对话和所述对话的上下文；

根据所述坐席的对话内容，获取所述坐席的每句对话和所述对话的上下文；

根据所述用户的每句对话和所述对话的上下文，以及所述坐席的每句对话和所述对话的上下文，识别得到所述用户的意图列表。

3.根据权利要求2所述的方法，其特征在于，所述根据所述原始语音文件，识别得到所述用户的意图列表，包括：

将每句对话和所述对话的上下文输入模型的双向循环神经网络，通过所述双向循环神经网络进行编码分别得到当前句子和上下文的高维度特征向量；

将所述当前句子和上下文的高维度特征输入所述模型中的注意力层，输出当前句子和上下文的联合表示；

对所述联合表示进行分类，得到每句话的意图标签，输出所述原始语音文件中所述用户的意图列表。

4.根据权利要求3所述的方法，其特征在于，所述对所述联合表示进行分类，得到每句话的意图标签，包括：

将当前句子和上下文的联合表示输入全连接神经网络，输出所述当前句子在预设标签下的概率，得到每句话的意图标签。

5.根据权利要求1所述的方法，其特征在于，所述根据所述意图列表和标准路径，分析得到所述原始语音文件的质检结果，包括：根据所述意图列表，得到所述用户的待质检路径；

通过字符串匹配的方式，将所述用户的待质检路径与所述标准路径进行匹配，计算所述用户的待质检路径的合规性；

根据所述用户的待质检路径的合规性，得到原始语音文件的质检结果。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：根据所述原始语音文件的质检结果，定位出所述待质检路径中缺少的流程节点；

根据所述缺少的流程节点，确定所述原始语音文件中坐席的违规原因。

7.一种语音流程质检的装置，其特征在于，包括：第一获取模块，用于获取原始语音文件，所述原始语音文件包括：用户和坐席的语音对话；

识别模块，用于根据所述原始语音文件，识别得到所述用户的意图列表，所述意图列表中包括一个或多个所述用户的意图，每个意图对应一个流程节点标识；

第二获取模块，用于获取与所述原始语音文件对应的所述用户办理实际业务的标准路径，所述标准路径包括一个或多个流程节点，每个节点对应一个流程节点标识；

质检模块，用于根据所述意图列表和所述标准路径，分析得到所述原始语音文件的质检结果；

所述识别模块包括：

转换单元，用于将所述原始语音文件转换为文本文件；

第一处理单元，用于根据所述文本文件中的角色标签，得到所述用户的对话内容和/或所述坐席的对话内容；

识别单元，用于根据所述用户的对话内容和/或所述坐席的对话内容，识别得到所述用户的意图列表。

8.一种服务器，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至6中任一项所述的语音流程质检的方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序，所述程序被处理器执行时实现包括如权利要求1至6中任一项所述的语音流程质检的方法的步骤。

语音流程质检的方法及装置

技术领域

[0001] 本发明实施例涉及计算机技术领域，具体涉及一种语音流程质检的方法及装置。

背景技术

[0002] 随着互联网信息技术在金融领域的应用程度越来越深，各企业在创新力度上的不断加强，市场竞争也在变得越来越激烈，在这种激烈的市场竞争中，用户服务已经越来越成
为体现竞争差异、提升公司形象、增加用户满意度的重要举措，因此对客服体系服务质量的
管理和控制已经变成了企业经营管理者日常的重要工作，而智能质检就是其中的主要组成
部分。日常客服系统中产生大量的语音数据，如果能很好的利用好这些数据，依据规范要
求，开展智能质检工作，检测出客服通话中不规范的点，就可以很好的提高客服服务的质量
及用户满意度，减少人工作业，同时也可以对客服人员进行考评，完善客服人员工作考评体
系。

[0003] 语音流程质检是智能质检的一个重要组成部分，目前智能质检系统检测点多集中在语速检测、静音检测、情感检测等方面，针对流程节点的检测的研究较少，而在实际中，客
服是否按照标准和规范进行通话往往是企业关注的重点。目前语音流程质检常用的方法主
要有基于人工的质检，这种方法主要采用人工抽查监听对话录音的方式进行质检，该方法
优点是实行简单，公司内部人员就能组织执行，不需要太多专业技术人员就可以开展，但这
种方法覆盖率极低(1％)，漏检率高，成本高，主观性强，误判率高，耗费大量人力物力财力。

发明内容

[0004] 本发明实施例的一个目的在于提供一种语音流程质检的方法及装置，解决人工语音质检效率较低的问题。

[0005] 第一方面，本发明实施例提供一种语音流程质检的方法，包括：

[0006] 获取原始语音文件，所述原始语音文件包括：用户和坐席的语音对话；

[0007] 根据所述原始语音文件，识别得到用户的意图列表，所述意图列表中包括一个或多个所述用户的意图，每个意图对应一个流程节点标识；

[0008] 获取与所述原始语音文件对应的所述用户办理实际业务的标准路径，所述标准路径包括一个或多个流程节点，每个节点对应一个流程节点标识；

[0009] 根据所述意图列表和标准路径，分析得到所述原始语音文件的质检结果。

[0010] 可选地，所述根据所述原始语音文件，识别得到所述用户的意图列表，包括：

[0011] 将所述原始语音文件转换为文本文件；

[0012] 根据所述文本文件中的角色标签，得到所述用户的对话内容和/或所述坐席的对话内容；

[0013] 根据所述用户的对话内容和/或所述坐席的对话内容，识别得到所述用户的意图列表。

[0014] 可选地，所述根据所述用户的对话内容和/或所述坐席的对话内容，识别得到所述用户的意图列表，包括：

[0015] 根据所述用户的对话内容，获取所述用户的每句对话和所述对话的上下文；

[0016] 根据所述用户的每句对话和所述对话的上下文，识别得到所述用户的意图列表；

[0017] 或者，

[0018] 根据所述坐席的对话内容，获取所述坐席的每句对话和所述对话的上下文；

[0019] 根据所述坐席的每句对话和所述对话的上下文，识别得到所述用户的意图列表；

[0020] 或者，

[0021] 根据所述用户的对话内容，获取所述用户的每句对话和所述对话的上下文；

[0022] 根据所述坐席的对话内容，获取所述坐席的每句对话和所述对话的上下文；

[0023] 根据所述用户的每句对话和所述对话的上下文，以及所述坐席的每句对话和所述对话的上下文，识别得到所述用户的意图列表。

[0024] 可选地，所述根据所述原始语音文件，识别得到所述用户的意图列表，包括：

[0025] 将每句对话和所述对话的上下文输入模型的双向循环神经网络，通过所述双向循环神经网络进行编码分别得到当前句子和上下文的高维度特征向量；

[0026] 将所述当前句子和上下文的高维度特征输入所述模型中的注意力层，输出当前句子和上下文的联合表示；

[0027] 对所述联合表示进行分类，得到每句话的意图标签，输出所述原始语音文件中所述用户的意图列表。

[0028] 可选地，所述对所述联合表示进行分类，得到每句话的意图标签，包括：

[0029] 将当前句子和上下文的联合表示输入全连接神经网络，输出所述当前句子在预设标签下的概率，得到每句话的意图标签。

[0030] 可选地，所述根据所述意图列表和标准路径，分析得到所述原始语音文件的质检结果，包括：

[0031] 根据所述意图列表，得到所述用户的待质检路径；

[0032] 通过字符串匹配的方式，将所述用户的待质检路径与所述标准路径进行匹配，计算所述用户的待质检路径的合规性；

[0033] 根据所述用户的待质检路径的合规性，得到原始语音文件的质检结果。

[0034] 可选地，所述方法还包括：

[0035] 根据所述原始语音文件的质检结果，定位出所述待质检路径中缺少的流程节点；

[0036] 根据所述缺少的流程节点，确定所述原始语音文件中坐席的违规原因。

[0037] 第二方面，本发明实施例提供一种语音流程质检的装置，包括：

[0038] 第一获取模块，用于获取原始语音文件，所述原始语音文件包括：用户和坐席的语音对话；

[0039] 识别模块，用于根据所述原始语音文件，识别得到用户的意图列表，所述意图列表中包括一个或多个所述用户的意图，每个意图对应一个流程节点标识；

[0040] 第二获取模块，用于与所述原始语音文件对应的获取所述用户办理实际业务的标准路径，所述标准路径包括一个或多个流程节点，每个节点对应一个流程节点标识；

[0041] 质检模块，用于根据所述意图列表和标准路径，分析得到所述原始语音文件的质检结果。

[0042] 可选地，所述识别模块包括：

[0043] 转换单元，用于将所述原始语音文件转换为文本文件；

[0044] 第一处理单元，用于根据所述文本文件中的角色标签，得到所述用户的对话内容和/或所述坐席的对话内容；

[0045] 识别单元，用于根据所述用户的对话内容和/或所述坐席的对话内容，识别得到所述用户的意图列表。

[0046] 可选地，所述识别单元进一步用于：

[0047] 根据所述用户的对话内容，获取所述用户的每句对话和所述对话的上下文；

[0048] 根据所述用户的每句对话和所述对话的上下文，识别得到所述用户的意图列表；

[0049] 或者，

[0050] 根据所述坐席的对话内容，获取所述坐席的每句对话和所述对话的上下文；

[0051] 根据所述坐席的每句对话和所述对话的上下文，识别得到所述用户的意图列表；

[0052] 或者，

[0053] 根据所述用户的对话内容，获取所述用户的每句对话和所述对话的上下文；

[0054] 根据所述坐席的对话内容，获取所述坐席的每句对话和所述对话的上下文；

[0055] 根据所述用户的每句对话和所述对话的上下文，以及所述坐席的每句对话和所述对话的上下文，识别得到所述用户的意图列表。

[0056] 可选地，所述质检模块包括：

[0057] 第二处理单元，用于根据所述意图列表，得到所述用户的待质检路径；

[0058] 匹配单元，用于通过字符串匹配的方式，将所述用户的待质检路径与所述标准路径进行匹配，计算所述用户的待质检路径的合规性；

[0059] 第三处理单元，用于根据所述用户的待质检路径的合规性，得到原始语音文件的质检结果。

[0060] 第三方面，本发明实施例提供一种服务器，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如第一方面所
述的语音流程质检的方法的步骤。

[0061] 第四方面，本发明实施例提供一种可读存储介质，所述可读存储介质上存储有程序，所述程序被处理器执行时如第一方面所述的语音流程质检的方法的步骤。

[0062] 在本发明实施例中，基于用户和坐席的语音对话识别得到用户的意图列表，再根据用户办理实际业务的标准路径与该意图列表进行比对分析，得到包括用户和坐席的语音
对话的原始语音文件的质检结果，可以实现对语音文件全自动检测，大大的提高了质检效
率，提升质检覆盖率。

附图说明

[0063] 通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明
的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

[0064] 图1为本发明实施例的语音流程质检的方法的流程图之一；

[0065] 图2为本发明实施例的语音流程质检的方法的流程图之二；

[0066] 图3为本发明实施例的语音流程质检的示意图；

[0067] 图4为本发明实施例的文本分类模型示意图；

[0068] 图5为本发明实施例的文本上下文交互图；

[0069] 图6为本发明实施例的语音流程质检的装置示意图

[0070] 图7为本发明实施例的服务器的示意图。

具体实施方式

[0071] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发
明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施
例，都属于本发明保护的范围。

[0072] 本申请的说明书和权利要求书中的术语“包括”以及它的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清
楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或
设备固有的其它步骤或单元。此外，说明书以及权利要求中使用“和/或”表示所连接对象的
至少其中之一，例如A和/或B，表示包含单独A，单独B，以及A和B都存在三种情况。

[0073] 在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比
其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨
在以具体方式呈现相关概念。

[0074] 参见图1，本发明实施例提供一种语音流程质检的方法，具体步骤包括：步骤101～步骤104。

[0075] 步骤101：获取原始语音文件，所述原始语音文件包括：用户和坐席的语音对话；

[0076] 步骤102：根据所述原始语音文件，识别得到用户的意图列表，所述意图列表中包括一个或多个所述用户的意图，每个意图对应一个流程节点标识；

[0077] 可以理解的是，角色意图识别可以采用基于双向循环神经网络的模型(比如，长短期记忆网络(Long Short‑Term Memory，LSTM)是一种时间循环神经网络)，该模型的输入是
文本中的一个句子，经过该模型编码分别得到当前句子的高维度特征向量，将得到的高维
度特征向量通过分类算法(比如softmax分类器)得到意图标签。

[0078] 需要说明的是，在本发明实施例中还可以采用transformer，bert等模型识别用户的意图，也就是说，在本发明实施例中对识别意图的模型不做具体限定。

[0079] 可选地，预先配置意图与流程节点标识的对应关系。其中，意图是指基于对话内容分析出用户想要选择哪种流程。

[0080] 步骤103：获取与所述原始语音文件对应的所述用户办理实际业务的标准路径，所述标准路径包括一个或多个流程节点，每个节点对应一个流程节点标识；

[0081] 步骤104：根据所述意图列表和标准路径，分析得到所述原始语音文件的质检结果。

[0082] 为了便于理解步骤101～步骤104，下面提供一种原始语音文件的举例性说明。

[0083] 坐席：你好，我是xx公司坐席人员。

[0084] 用户：嗯，你好。

[0085] 坐席：请问你是李xx吗？

[0086] 用户：是呀，我是李xx。

[0087] 坐席：李先生你好，你在我们单位办理的业务即将到期，请问你需要延期吗？

[0088] 用户：延期需要什么条件呀？

[0089] 坐席：李先生你要是想延期的话需要在app上申请，并200元钱。

[0090] 用户：这么麻烦呀，我不想办理了。

[0091] 坐席：李先生，我们也可以帮你办理延期业务的。

[0092] 用户：哦，你那你们帮我办理吧。

[0093] 坐席：李先生，我们需要核实一下你的身份，请问你的身份证后四位是什么呢？

[0094] 用户：呃呃，你说什么？

[0095] 坐席：我们需要核实一下你的身份，请问你的身份证后四位是什么呢？

[0096] 用户：一二三四。

[0097] 坐席：好的，李先生，我们这边稍后会帮您办理，办理之后你会收到我们短信提醒

[0098] 用户：哦，好

[0099] 坐席：李先生还有什么我们可以帮你的吗？

[0100] 用户：没有了，就这些

[0101] 坐席：好的，李先生，感谢您的接听，祝您生活愉快，再见。

[0102] 基于上述语音内容，意图识别结果：8‑1‑2‑3‑5‑9‑1‑4‑8‑2‑4‑9‑3‑6，其中每个数字表示流程节点标识。

[0103] 而用户办理业务的标准路径包括：8‑3‑5‑7‑1‑4‑2‑9‑6。

[0104] 路径匹配：根据意图识别结果和标准路径，可以分析对话的流程合规性，即判断坐席是否按照规范要求与用户进行沟通，如果意图识别结果与标准路径完全匹配，且意图识
别结果中节点标识的数量与标准路径总节点标识的数量相同，则认为该坐席完全按照规范
要求与用户进行沟通，原始语音文件的质检结果为符合要求，如果意图识别结果与标准路
径完全匹配，且意图识别结果中节点标识的数量大于标准路径总节点标识的数量相同，则
认为该坐席并未按照规范要求与用户进行沟通，但原始语音文件的质检结果也可以认定为
符合要求，如果意图识别结果与标准路径不匹配，则认为该坐席未按照规范要求与用户进
行沟通，原始语音文件的质检结果可以认定为不符合要求。

[0105] 进一步地，可以根据意图识别结果和标准路径，确定坐席与客户沟通时，是哪个节点出现了问题。

[0106] 本发明的实施例把录音流程质检分解为意图识别及流程合规性检测，其中意图识别可以采用transformer，bert等模型，流程合规性检测可以采用字符串匹配的方式，也可
以采用字典树进行路径查找方式进行路径检测。这种方式检测效率高，且可以准确的定位
出路径中缺少的流程节点，让质检人员能准确快速的定位录音违规原因。

[0107] 本发明实施例的语音流程质检方式可以实现全自动检测，100％覆盖，0漏检，大大的提高了质检效率，提升质检覆盖率(至少50倍的提升)，同时也可以大大的解放人力，降低
公司客服成本。

[0108] 下面结合图2和图3，介绍语音流程质检的方法，参见图3具体步骤包括：步骤301～步骤307。

[0109] 步骤301：获取原始语音文件，所述原始语音文件包括：用户和坐席的语音对话；

[0110] 步骤302：将所述原始语音文件转换为文本文件；

[0111] 参见图2，比如采用现有的语音识别技术，将原始语音文件转换为文本文件，然后对文本文件进行预处理，预处理一般包括但不限于：分词、词干提取、去停用词、词向量、数
据均衡处理等。

[0112] 可选地，预处理主要包括：

[0113] (1)合并同一角色的相邻句子和标签，这样能保证在固定上下文窗口下获取足够的信息，减少同一关键词因停顿出现在不同句子的现象，保证语义的连贯性；

[0114] (2)对步骤302处理好的文本进行分词、词性提取、词向量表示等操作；

[0115] (3)样本均衡，针对样本分布不均衡导致的模型泛化能力减弱问题，对相应意图的样本进行降采样和过采样，这样可以有效的提高模型的泛化能力。

[0116] 比如，经过预处理之后，可以得到文本中的每句话和它的上下文表示，然后通过双向循环神经网络对当前句子和它的上下文分别编码(BiLSTM编码)，得到高维特征表示，通
过注意力机制(Attention)获取当前句和上下文的联合表示，最后通过softmax进行分类
(分类层)，得到文本中每句话的意图标签，输出意图列表。

[0117] 步骤303：根据所述文本文件中的角色标签，得到所述用户的对话内容和/或所述坐席的对话内容；

[0118] 步骤304：根据所述用户的对话内容和/或所述坐席的对话内容，识别得到所述用户的意图列表；

[0119] 方式1：根据所述用户的对话内容，获取所述用户的每句对话和所述对话的上下文；根据所述用户的每句对话和所述对话的上下文，识别得到所述用户的意图列表；

[0120] 方式2：根据所述坐席的对话内容，获取所述坐席的每句对话和所述对话的上下文；根据所述坐席的每句对话和所述对话的上下文，识别得到所述用户的意图列表；

[0121] 方式3：根据所述用户的对话内容，获取所述用户的每句对话和所述对话的上下文；根据所述坐席的对话内容，获取所述坐席的每句对话和所述对话的上下文；根据所述用
户的每句对话和所述对话的上下文，以及所述坐席的每句对话和所述对话的上下文，识别
得到所述用户的意图列表。

[0122] 继续参见图2，编码层采用BiLSTM模型，该BiLSTM模型可以很好的利用同一句子中上下文文本信息，其次，上下文语句交互采用attention机制，这样可以很好的利用上下文
句子间的信息，能有效的提取文本语义信息。进一步地，分角色对意图进行识别，每种角色
的意图可分别采用不同方法策略进行识别，这样一方面可以提高意图识别准确率，另一方
面可以有效解决坐席及用户语音转写准确率不一致产生的问题(由于坐席人员经过专业培
训，发音及语速都比较标准，语音识别准确率较高，而用户分布全国各地，口音不同，年龄段
也不同，用户语音识别准确率相对要低)。

[0123] 也就是说，角色意图识别采用文本分类模型可以是基于双向循环神经网络加注意力机制的模型(bilstm‑attention)，参见图4，该模型的输入是文本中的一个句子或者该句
子的上下文，经过一个双向bilstm进行编码分别得到当前句子和上下文的高维度特征向
量，然后经过一个注意力层(attention)，该层计算当前句和上下文句子的相关性，然后将
当前句和上下文加权求和向量进行拼接得到一个联合向量，权重即为前面所说注意力层计
算出来的相关性得分，最后将得到的联合向量通过softmax分类得到意图标签。

[0124] 本发明实施例使用的bilstm‑attention模型，模型搭建主要包括四部分，即特征表示、语义编码、上下文交互、分类。

[0125] (1)特征表示

[0126] 特征表示主要体现在输入层，即选择什么样的特征来表示文本，可选的特征有字向量、词向量、词性等。本发明主要采用以下特征：a.词向量：预训练的词向量来表征分词后
的语言单元；b.字向量：为缓解分词错误带来的噪声问题，以及集外词问题；c.词性标签：引
入词法先验知识；d.角色标签：用于上下文交互层，来区分上下文的角色信息。

[0127] (2)语义编码

[0128] 本发明采用双向循环神经网络(BRNN)，先输入文本的embedding，经过一个双向的bilstm层，然后合并正反方向的输出，即可得到文本的编码(参见图5的LSTM Layer)，该方
法可以获取序列的时序特征，也可以很好的获取上下文信息。

[0129] (3)上下文交互

[0130] 在一通对话中，句与句之间存在连贯性，当前语句的意图是与前后文的语句有着很大联系的，因此本发明会综合结合前后文多句话来预测当前语句的意图。句子与句子之
间的关联采用attention机制，即当前句子和上下文句子采用注意力机制进行相关性计算，
加权得到新的上下文表征，然后与当前句子特征级联，作为上下文信息的状态表征(参见图
5Attention Layer)。

[0131] 首先根据当前句子的语句编码hi，分别与其上下文语句编码进行相关性计算，参见公式(1)：

[0132] eij＝score(hi,hj) (1)

[0133] 其中i表示当前语句的编号，hi表示当前语句的编码，hj为当前语句前后文序号编号，取值范围为[i‑M,i+N]且i！＝j，M，N表示参与上下文交互的句子数。

[0134] 然后，计算前后文语句的权重系数，利用公式(2)和公式(3)对各语句的编码进行加权求和，最后得到上下文向量(context vector)：

[0135]

[0136]

[0137] 其中，αij表示当前句子与上下文语句的权重系数，ci表示加权后的包含上下文信息的文本向量，Tx表示上下文的文本数。

[0138] (4)分类层

[0139] 根据上述的文本表示结果，经过一层全连接神经网络，然后通过采用softmax计算样本在各标签下的概率，得出文本的意图结果(相当于意图列表)。

[0140] 步骤305：根据所述意图列表，得到所述用户的待质检路径；

[0141] 步骤306：将所述用户的待质检路径与标准路径进行匹配，计算所述用户的待质检路径的合规性；

[0142] 上述标准路径为所述原始语音文件对应的用户办理实际业务的标准路径。

[0143] 比如，通过字符串匹配的方式，将所述用户的待质检路径与所述标准路径进行匹配，计算所述用户的待质检路径的合规性；

[0144] 步骤307：根据所述用户的待质检路径的合规性，得到原始语音文件的质检结果。

[0145] 进一步地，所述方法还包括：根据所述原始语音文件的质检结果，定位出所述待质检路径中缺少的流程节点；根据所述缺少的流程节点，确定所述原始语音文件中坐席的违
规原因。

[0146] 在本发明实施例中，将语音流程质检流程分解为角色意图识别及路径合规性检测两大部分。角色意图识别采用基于双向循环神经网络加注意力机制的模型(bilstm‑
attention)，该模型的输入是文本中的一个句子或者该句子的上下文，经过一个双向lstm
进行编码分别得到当前句子和上下文的高维度特征向量，然后经过一个注意力层
(attention)，该层计算当前句和上下文句子的相关性，然后将当前句和上下文加权求和向
量进行拼接得到一个联合向量，权重即为前面所说注意力层计算出来的相关性得分，最后
将得到的联合向量通过softmax分类得到意图标签，这样一方面可以有效利用同一句子中
上下文词语的信息，也可以利用上下文不同句子的信息，能有效提高模型的准确率及泛化
能力；路径合规性检测采用字符串匹配的方法，该方法检测效率高，且可以准确的定位出路
径中缺少的流程节点，让质检人员能准确快速的定位录音违规原因，使方案具有较高的可
描述性。相对于传统的人工抽检方法，该方案可实现全自动检测，100％覆盖，0漏检，大大的
提高了质检效率，提升质检覆盖率(至少50倍的提升)，同时也可以大大的解放人力，降低公
司客服成本；相对于基于规则的质检方法，本方案具有较高的准确率，维护成本低，泛化能
力强。

[0147] 参见图6，本发明实施例提供一种语音流程质检的装置，该装置600包括：

[0148] 第一获取模块601，用于获取原始语音文件，所述原始语音文件包括：用户和坐席的语音对话；

[0149] 识别模块602，用于根据所述原始语音文件，识别得到用户的意图列表，所述意图列表中包括一个或多个所述用户的意图，每个意图对应一个流程节点标识；

[0150] 第二获取模块603，用于获取与所述原始语音文件对应的所述用户办理实际业务的标准路径，所述标准路径包括一个或多个流程节点，每个节点对应一个流程节点标识；

[0151] 质检模块604，用于根据所述意图列表和标准路径，分析得到所述原始语音文件的质检结果。

[0152] 在一些实施方式中，识别模块602包括：

[0153] 转换单元，用于将所述原始语音文件转换为文本文件；

[0154] 第一处理单元，用于根据所述文本文件中的角色标签，得到所述用户的对话内容和/或所述坐席的对话内容；

[0155] 识别单元，用于根据所述用户的对话内容和/或所述坐席的对话内容，识别得到所述用户的意图列表。

[0156] 在一些实施方式中，所述识别单元进一步用于：

[0157] 根据所述用户的对话内容，获取所述用户的每句对话和所述对话的上下文；

[0158] 根据所述用户的每句对话和所述对话的上下文，识别得到所述用户的意图列表；

[0159] 或者，

[0160] 根据所述坐席的对话内容，获取所述坐席的每句对话和所述对话的上下文；

[0161] 根据所述坐席的每句对话和所述对话的上下文，识别得到所述用户的意图列表；

[0162] 或者，

[0163] 根据所述用户的对话内容，获取所述用户的每句对话和所述对话的上下文；

[0164] 根据所述坐席的对话内容，获取所述坐席的每句对话和所述对话的上下文；

[0165] 根据所述用户的每句对话和所述对话的上下文，以及所述坐席的每句对话和所述对话的上下文，识别得到所述用户的意图列表。

[0166] 在一些实施方式中，识别单元进一步用于：将每句对话和所述对话的上下文作为双向循环神经网络加注意力机制的模型的输入；通过所述模型中的双向循环神经网络进行
编码分别得到当前句子和上下文的高维度特征向量；将当前句子和上下文的高维度特征输
入所述模型中的注意力层，输出当前句子和上下文的联合表示；对所述联合表示进行分类，
得到每句话的意图标签，输出所述原始语音文件中所述用户的意图列表。

[0167] 在一些实施方式中，识别单元进一步用于：根据当前句子和上下文的联合表示，经过一层全连接神经网络，通过分类器计算所述当前句子在预设标签下的概率，得到每句话
的意图标签。

[0168] 在一些实施方式中，所述质检模块604包括：

[0169] 第二处理单元，用于根据所述意图列表，得到所述用户的待质检路径；

[0170] 匹配单元，用于将所述用户的待质检路径与所述标准路径进行匹配，计算所述用户的待质检路径的合规性；

[0171] 第三处理单元，用于根据所述用户的待质检路径的合规性，得到原始语音文件的质检结果。

[0172] 在一些实施方式中，质检模块604还包括：

[0173] 定位单元，用于根据所述原始语音文件的质检结果，定位出所述待质检路径中缺少的流程节点；

[0174] 第四处理单元，用于根据所述缺少的流程节点，确定所述原始语音文件中坐席的违规原因。

[0175] 本发明实施例提供的装置，可以执行上述图1或图2所示方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

[0176] 请参阅图7，图7是本发明实施例提供的一种服务器的结构图，如图7所示，测试应用程序的装置700包括：处理器701、收发机702、存储器703和总线接口，其中：

[0177] 在本发明的一个实施例中，测试应用程序的装置700还包括：存储在存储器上703并可在处理器701上运行的程序，程序被处理器701执行时实现如图1或图2所示的步骤。

[0178] 在图7中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器701代表的一个或多个处理器和存储器703代表的存储器的各种电路链接在一起。总线架构还可以
将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本
领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机702可以是
多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。

[0179] 处理器701负责管理总线架构和通常的处理，存储器703可以存储处理器701在执行操作时所使用的数据。

[0180] 本发明实施例提供的服务器，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

[0181] 本发明实施例还提供一种可读存储介质，可读存储介质上存储有程序，该程序被处理器执行时实现上述语音流程质检的方法的实施例的各个过程，且能达到相同的技术效
果，为避免重复，这里不再赘述。其中，所述的可读存储介质，如只读存储器(Read‑Only
Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

[0182] 结合本发明公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模
块可以被存放于RAM、闪存、ROM、EPROM、EEPROM、寄存器、硬盘、移动硬盘、只读光盘或者本领
域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理
器能从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器
的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于核心网接口设备
中。当然，处理器和存储介质也可以作为分立组件存在于核心网接口设备中。

[0183] 本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能
存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另
一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能存取的任何可
用介质。

[0184] 以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明
的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应
包括在本发明的保护范围之内。

[0185] 本领域内的技术人员应明白，本发明实施例可提供为方法、系统、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面
的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代
码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计
算机程序产品的形式。

[0186] 本发明实施例是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的
每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算
机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理
器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生
用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的
装置。

[0187] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指
令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或
多个方框中指定的功能。

[0188] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。

[0189] 显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等
同技术的范围之内，则本发明也意图包含这些改动和变型在内。

语音流程质检的方法及装置转让专利

申请号 : CN202010552865.4

文献号 : CN111883115B

文献日 : 2022-01-28

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 曹磊 , 杜冰竹 , 白安琪 , 赵立军

申请人 : 马上消费金融股份有限公司

摘要 :

权利要求 :

说明书 :