一种基于文本和语音信息融合的智能客服意图理解方法转让专利

申请号 : CN202011589715.7

文献号 : CN112287675B

文献日 : 2021-04-30

本发明提出了一种基于文本和语音信息融合的智能客服意图理解方法，涉及应用于金融、教育、医疗等垂直行业的智能客服产品，在智能客服应用场景下，本发明的处理过程主要分为用户输入、文本编码、语音编码、特征融合、意图理解、执行反馈六个部分，在采用双向长短时记忆深度神经网络BiLSTM对文本进行意图理解的基础上，引入语音特征，以多模态信息融合的形式，达到提升意图理解效果的目的；同时利用文本、语音信息，能最大程度上避免语音识别错误带来的级联影响。

1.一种基于文本和语音信息融合的智能客服意图理解方法，其特征在于：包括以下步骤：

步骤1：用户输入：用户通过网页、微信、小程序或公众号中的渠道接入智能客服系统，以语音通话的形式发起问答或对话；

步骤2：文本编码：利用语音识别技术，将用户输入的语音转换为文本，采用BiLSTM神经网络对文本进行编码，从正向和反向同时对输入文本进行编码，准确捕获每个词的上下文语境信息，得到特征向量；具体为：步骤2.1：采用LSTM深度神经网络正向扫描文本，得到正向特征向量步骤2.2：采用LSTM深度神经网络反向扫描文本，得到反向特征向量步骤2.3：拼接文本两部分特征向量，得到gttext：其中，是t时刻正向编码文本得到的向量，是t时刻反向编码文本得到的向量，pt是文本中从左到右第t个词，是正向编码t‑1时刻的隐状态，是反向编码t+

1时刻的隐状态，表示两个向量的拼接，gttext表示t时刻文本的双向编码向量；

步骤3：语音编码：采用BiLSTM神经网络对语音音频进行编码，从正向和反向同时对输入语音进行编码，准确捕获每段音频的上下文语境信息，得到特征向量；具体为：步骤3.1：采用LSTM深度神经网络正向扫描语音音频，得到正向特征向量步骤3.2：采用LSTM深度神经网络反向扫描语音音频，得到反向特征向量步骤3.3：拼接语音音频两部分特征向量，得到htspeech：其中，是t时刻正向编码语音音频得到的向量，是t时刻反向编码语音音频得到的向量，xt是音频中从左到右第t个片段，是正向编码t‑1时刻的隐状态，是反向编码t+1时刻的隐状态，表示两个向量的拼接，htspeech表示t时刻语音音频的双向编码向量；

步骤4：特征融合：对步骤2和步骤3中得到的两个独立特征向量通过函数计算进行加权融合；具体过程如下：

ht＝[gttext：htspeech]s0＝ht

si＝f(si‑1，yi‑1，ci)其中，

其中，s0是初始时刻解码器的状态，si‑1表示上一时刻解码器的隐状态，yi‑1是上一时刻解码得到的词，ci是注意力向量，αij是注意力权重，hj是源语言句子中第j个词，hk表示编码器在K时刻的隐状态，ht表示编码器在T时刻的隐状态；

步骤5：意图理解：将融合后的特征向量输入到softmax函数，在智能客服系统中进行用户意图的识别；具体为：

其中，si表示第i时刻解码器的隐状态，yi是i时刻解码得到的词，Vk表示词表V中的第k个词，bk表示隐状态si的置信度，exp是以自然常数e为底的指数函数，P(yi)表示当前生成目标词yi的概率；

步骤6：执行反馈：当智能客服系统正确理解用户的提问意图后，与后台维护的知识库进行匹配，为用户推荐解决方案。

一种基于文本和语音信息融合的智能客服意图理解方法

技术领域

[0001] 本发明涉及应用于金融、教育、医疗等垂直行业的智能客服产品，主要借助自然语言处理和语音处理方法共同优化产品中的意图理解算法。

背景技术

[0002] 意图理解是指基于用户偏好、时空特性、上下文、交互、以及文本、手势、图像和视频等在内的多模态信息等内容，在语义级上准确理解用户的意图。近年来，互联网上产生了
大量的用户参与的、对于诸如人物、事件、产品等有价值的表达和评论信息，这些评论信息
表达了人们的各种说话意图，如问题咨询、请求援助，或表达不满和投诉等。现实世界是多
模态交互式的，因此用户查询对象的信息数据普遍也是多模态的。因此，除了最为普遍的文
字以外，图片、视频、音频等多模态的数据也能够应用于辅助理解用户意图，以此提高信息
服务的准确度。意图理解是衡量智能客服产品智能化的四大维度（意图理解、服务提供、交
互流畅、人格特质）之一，准确的意图理解能大幅提升智能客服的问题解决率和任务完成
率，并且有效提升智能客服的用户满意度。

[0003] 信息的来源或形式，都可称为模态。例如，感觉有触觉，听觉，视觉，嗅觉等；信息媒介有语音、视频、文字等；传感器有雷达、红外、加速度计等。多模态融合任务通常需要融合
两个及以上模态的特征，特征融合即输入两个模态的特征向量，输出融合后的向量。

[0004] 传统方法存在的问题是，只以文本作为智能客服系统的输入，如果用户输入是语音，也只是经由语音识别技术，将语音简单直白转换为文本，这会造成用户语音中的语气、
语速、重音等重要特征无法进行有效分析。

发明内容

[0005] 针对上述问题，本发明旨在利用多模态融合技术，在采用双向长短时记忆深度神经网络BiLSTM对文本进行意图识别的基础上，充分抽取语音、文本等模态特征，以文本和语
音等多模态信息融合的方法，最终提升智能客服等场景中意图识别的效果。

[0006] 为了实现上述目的，本发明提出了一种基于文本和语音信息融合的智能客服意图理解方法，在采用双向长短时记忆深度神经网络BiLSTM对文本进行意图理解的基础上，引
入语音特征，以多模态信息融合的形式，达到提升意图理解效果的目的。在智能客服应用场
景下，本提案处理过程主要包括用户输入、文本编码、语音编码、特征融合、意图理解和执行
反馈六个步骤。

[0007] 步骤1：用户输入：

[0008] （1）由用户通过网页、微信、小程序、公众号等渠道接入智能客服系统，以语音通话或文字的形式发起问答或对话。如果用户输入是语音，那么会经由语音识别技术，将语音转
换为文本，以做进一步处理和分析。

[0009] 步骤2：文本编码：

[0010] 采用BiLSTM神经网络对文本进行编码，能够从正向、反向同时对输入文本进行编码，保证捕获每个词的上下文语境信息，具体为；

[0011] （1）采用LSTM深度神经网络正向扫描文本，得到正向特征向量；

[0012] （2）采用LSTM深度神经网络反向扫描文本，得到反向特征向量；

[0013] （3）拼接文本两部分特征向量，得到：

[0014]

[0015]

[0016]

[0017] 其中，是t时刻正向编码文本得到的向量，是t时刻反向编码文本得到的向量，是文本中从左到右第t个词，是正向编码t时刻的隐状态，是反向编码
t+1时刻的隐状态，表示两个向量的拼接，表示t时刻文本的双向编码向量。

[0018] 步骤3：语音编码：

[0019] 采用BiLSTM神经网络对语音音频进行编码，其优势是能够从正向、反向同时对输入语音进行编码，保证准确捕获每段音频的上下文语境信息，具体如下；

[0020] （1）采用LSTM深度神经网络正向扫描语音音频，得到正向特征向量；

[0021] （2）采用LSTM深度神经网络反向扫描语音音频，得到反向特征向量；

[0022] （3）拼接语音两部分特征向量，得到：

[0023]

[0024]

[0025]

[0026] 其中，是t时刻正向编码音频得到的向量，是t时刻反向编码文本得到的向量，是音频中从左到右第t个片段，是正向编码t时刻的隐状态，是反向
编码t+1时刻的隐状态，表示两个向量的拼接，表示t时刻文本的双向编码
向量。

[0027] 步骤4：特征融合：

[0028] 对步骤2和步骤3中得到的两个独立特征向量通过函数计算进行加权融合：

[0029] ht=[gttext:htspeech]

[0030]

[0031]

[0032]

[0033] 其中，

[0034] 其中，是初始时刻解码器的状态，表示第上一时刻解码器的隐状态，是上一时刻解码得到的词，是注意力向量，是注意力权重，是源语言句子中第j个词，
是源语言句子中第k个词，表示编码器在T时刻的隐状态。

[0035] 步骤5：意图理解：

[0036] 将融合后的特征向量输入到softmax函数，即可在智能客服系统中进行用户意图的识别；

[0037]

[0038] 其中，表示第i时刻解码器的隐状态，是i时刻解码得到的词，表示词表V中的第k个词，表示隐状态的置信度。exp是以自然常数e为底的指数函数，P(yi)表示当前
生成目标词yi的概率。

[0039] 步骤6：执行反馈：

[0040] 当智能客服系统正确理解用户的提问意图后，将与后台维护的知识库进行匹配，为用户推荐相关解决方案。

[0041] 与现有技术相比，本发明的主要优点在于：

[0042] （1）本发明通过采用文本和语音多模态编码技术，充分利用了文本和语音两部分的特征，从而提升智能客服中意图理解的效果；

[0043] （2）本发明能保证在智能客服等场景未引入其余模态信息的前提下，充分结合了语音和文本互补信息；

[0044] （3）对于智能客服产品而言，基本都是以语音交互为主。因此，本发明同时利用文本、语音信息，能最大程度上避免语音识别错误带来的级联影响。

附图说明

[0045] 图1是本发明的智能客服意图理解方法的流程图。

具体实施方式

[0046] 下面结合附图和具体实施例来进一步解释本发明。

[0047] 如图1所示，本实施例提出了一种基于文本和语音信息融合的智能客服意图理解方法，在采用双向长短时记忆深度神经网络BiLSTM对文本进行意图理解的基础上，引入语
音特征，以多模态信息融合的形式，达到提升意图理解效果的目的。在智能客服应用场景
下，本方法主要分为用户输入、文本编码、语音编码、特征融合、意图理解和执行反馈六个部
分。

[0048] 步骤1：用户输入：

[0049] 由用户通过网页、微信、小程序、公众号等渠道接入智能客服系统，以语音通话或文字的形式发起问答或对话。

[0050] 传统方法存在的问题是，只以文本作为智能客服系统的输入，造成用户语音中的语气、语速、重音等重要特征无法分析。本发明的最大优势是，在智能客服应用场景下，充分
利用深度神经网络抽取用户的语音、文本两类输入信息特征，以有效提升意图识别效果。

[0051] 步骤2：文本编码：

[0052] 文本编码是传统智能客服系统中常用的策略，抽取文本特征进行意图分析和理解；

[0053] 采用BiLSTM神经网络对文本进行编码，其优势是能够从正向、反向同时对输入文本进行编码，保证捕获每个词的上下文语境信息；

[0054] 采用LSTM深度神经网络正向扫描文本，得到正向特征向量；

[0055] 采用LSTM深度神经网络反向扫描文本，得到反向特征向量；

[0056] 拼接文本两部分特征向量，得到：

[0057]

[0058]

[0059]

[0060] 其中，是t时刻正向编码文本得到的向量，是t时刻反向编码文本得到的向量，是文本中从左到右第t个词，是正向编码t时刻的隐状态，是反向编
码t+1时刻的隐状态，表示两个向量的拼接，表示t时刻文本的双向编码向
量。

[0061] 步骤3：语音编码：

[0062] 语音编码是本提案的优化策略，抽取语音特征进行意图分析和理解；

[0063] 采用BiLSTM神经网络对语音进行编码，其优势是能够从正向、反向同时对输入语音进行编码，保证准确捕获每段音频的上下文语境信息；

[0064] 采用LSTM深度神经网络正向扫描语音，得到正向特征向量；

[0065] 采用LSTM深度神经网络反向扫描语音，得到反向特征向量；

[0066] 拼接语音两部分特征向量，得到：

[0067]

[0068]

[0069]

[0070] 其中，是t时刻正向编码音频得到的向量，是t时刻反向编码文本得到的向量，是音频中从左到右第t个片段，是正向编码t时刻的隐状态，是反向
编码t+1时刻的隐状态，表示两个向量的拼接，表示t时刻文本的双向编码
向量。

[0071] 步骤4：特征融合：

[0072] 特征融合是本提案的核心策略，抽取文本和语音特征进行意图分析和理解，以保证充分利用用户表达文本中的语义，以及语音中的语气、语速、重音等重要特征；

[0073] 利用步骤3得到的特征向量，进行解码：

[0074] ht=[gttext:htspeech]

[0075]

[0076]

[0077]

[0078] 其中，

[0079] 其中，是初始时刻解码器的状态，表示上一时刻解码器的隐状态，是上一时刻解码得到的词，是注意力向量，是注意力权重，是源语言句子中第j个词，是
源语言句子中第k个词，表示编码器在T时刻的隐状态。

[0080] 步骤5：意图理解：

[0081] 经过步骤1‑4，已获得文本和语音的融合特征向量，将该向量输入到softmax函数，即可在智能客服系统中进行用户意图的识别，以精准了解用户想法，提供优质服务，营造更
优的用户体验。

[0082]

[0083] 其中，表示第i时刻解码器的隐状态，是i时刻解码得到的词，表示词表V中的第k个词，表示隐状态，的置信度。exp是以自然常数e为底的指数函数，P(yi)表示当
前生成目标词yi的概率。

[0084] 步骤6：执行反馈：

[0085] 当智能客服系统正确理解用户的提问意图后，将与后台维护的知识库进行匹配，并为用户推荐相关解决方案；

[0086] 本实施例在智能客服应用产品中提出文本和语音信息融合的方法，通过结合两部分的特征，联合推理用户的提问意图，以有效提升智能客服中的效果。

[0087] 以上仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。本
发明未涉及的技术均可通过现有的技术加以实现。

一种基于文本和语音信息融合的智能客服意图理解方法转让专利

申请号 : CN202011589715.7

文献号 : CN112287675B

文献日 : 2021-04-30

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 张学强 , 董晓飞 , 张丹 , 曹峰 , 石霖 , 孙明俊

申请人 : 南京新一代人工智能研究院有限公司

摘要 :

权利要求 :

说明书 :