意图识别系统及方法转让专利

申请号 : CN202010147562.4

文献号 : CN111382231B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 曹家波

申请人 : 思必驰科技股份有限公司

摘要 :

本发明公开一种意图识别系统,包括:顺序连接的编码模块和分类模块,其中,所述编码模块配置为获取待识别文本的语义特征向量;所述分类模块配置为根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图。本发明实现了对于小样本领域的文本的意图识别,解决了现有技术中对小样本领域的文本进行意图识别所存在的耗时耗力,且泛化性差,训练成本太高的问题。

权利要求 :

1.一种意图识别系统,包括:顺序连接的编码模块和分类模块,其中,所述编码模块配置为获取待识别文本的语义特征向量;

所述分类模块配置为根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图,其中,所述系统还包括设置于所述编码模块和所述分类模块之间的映射模块,所述编码模块、映射模块和分类模块构成端到端意图识别模型,所述多个样本意图类别原型基于小样本训练集训练得到;

所述映射模块配置为将所述待识别文本的语义特征向量映射到意图类别原型;

所述根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图包括:根据所述待识别文本的意图类别原型从预设的多个样本意图类别原型中确定所述待识别文本的文本意图。

2.根据权利要求1所述的系统,其中,所述多个样本意图类别原型中的每一个样本意图类别原型由各自对应的多个样本待识别文本的语义特征向量的均值确定;

所述根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图包括:计算所述待识别文本的语义特征向量与预设的多个样本意图类别原型之间的相似度值;

根据计算得到的最大相似度值所对应的样本意图类别原型确定所述待识别文本的文本意图。

3.根据权利要求1所述的系统,其中,所述编码模块采用CNN神经网络或者RNN神经网络或者Transformer网络结构;所述分类模块基于前馈神经网络构成。

4.根据权利要求1至3中任一项所述的系统,其中,所述映射模块基于CNN神经网络和残差网络构成。

5.一种意图识别方法,应用于意图识别系统,所述意图识别系统包括顺序连接的编码模块和分类模块,所述方法包括:所述编码模块获取待识别文本的语义特征向量;

所述分类模块根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图,其中,所述系统还包括设置于所述编码模块和所述分类模块之间的映射模块,所述编码模块、映射模块和分类模块构成端到端意图识别模型,所述多个样本意图类别原型基于小样本训练集训练得到;

所述映射模块配置为将所述待识别文本的语义特征向量映射到意图类别原型;

所述根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图包括:根据所述待识别文本的意图类别原型从预设的多个样本意图类别原型中确定所述待识别文本的文本意图。

6.根据权利要求5所述的方法,其中,所述多个样本意图类别原型中的每一个样本意图类别原型由各自对应的多个样本待识别文本的语义特征向量的均值确定;

所述根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图包括:计算所述待识别文本的语义特征向量与预设的多个样本意图类别原型之间的相似度值;

根据计算得到的最大相似度值所对应的样本意图类别原型确定所述待识别文本的文本意图。

7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求5‑6中任意一项所述方法的步骤。

8.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求5‑6中任意一项所述方法的步骤。

说明书 :

意图识别系统及方法

技术领域

[0001] 本发明涉及人工智能技术领域,尤其涉及一种意图识别系统及方法。

背景技术

[0002] 现有技术中实现小样本意图识别的方法有:基于数据增强的小样本意图识别和基于语言模型fine‑tune的小样本意图识别。
[0003] 基于数据增强的小样本意图识别:意图识别本质就是文本分类,文本分类的性能好坏与人工标注数据的多少有着直接的关系。实际的项目研究中,特别是刚起步阶段,每种意图的人工标注数据特别少,一是标注成本太高,二是冷启动项目的待标注样本本身就很少。基于数据增强的算法,大多是采用规则、回译等手段来增加每种意图的样本个数。其中,规则指的是使用正则表达式对每种意图样本中的关键词做同义词替换,以此来增加样本的个数;回译指的是通过翻译软件把中文样本翻译成各种第三方语言,然后再翻译回来,通过这种方式增加每种意图的样本个数。最后,当所有意图的样本个数达到要求之后,就可以采用传统文本分类算法如 SVM、LR、GBDT或者深度学习算法如CNN、LSTM、Transformer等完成意图的识别。
[0004] 基于语言模型fine‑tune的小样本意图识别:这种方法是首先在大规模、通用的无监督数据中,训练一个语言模型。这个语言模型网络参数不是随机初始化的,而是在大量文本中,通过学习语言的先验知识学习得到的。这是个通用模块,在具体的项目开发中,虽然每种意图的人工标注数量很少,但是在这个先验的网络结构的基础之上开始做具体领域的 fine‑tune训练,可以利用语言的通用知识,让网络结构更好的捕获样本的语义信息,从而提升小样本的意图识别性能。
[0005] 基于数据增强的小样本意图识别:需耗费大量人力设计替换规则,完善同义词字典。同时,回译软件质量的高低也对结果影响很大,翻译过来的句子一般都是比较正式的书面语,对口语意图识别不适用,应用场景受限。耗时耗力,且泛化性差,维护成本高,可移植性差。
[0006] 基于语言模型fine‑tune的小样本意图识别:基于海量文本(100G以上)的语言模型训练需要大量的GPU或者TPU参与,训练一次的代价很大,以目前最先进的基于BERT的语言模型为例,谷歌用了16个自己的 TPU集群(一共64块TPU)来训练BERT,一共花了约4天的时间,花费1.2万美金,如果训练XLNET,花费高达6.1万美金。目前只有少数的大公司才能完成语言模型的训练。语言模型在具体应用场景的最终性能好坏与特定领域的语料多少有关系,需要自定义训练,代价太大。基于海量文本的语言模型训练成本太高,在特定领域不一定有很好的性能。

发明内容

[0007] 本发明实施例提供一种意图识别系统及方法,用于至少解决上述技术问题之一。
[0008] 第一方面,本发明实施例提供一种意图识别系统,包括:顺序连接的编码模块和分类模块,其中,
[0009] 所述编码模块配置为获取待识别文本的语义特征向量;
[0010] 所述分类模块配置为根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图。
[0011] 在一些实施例中,所述多个样本意图类别原型中的每一个样本意图类别原型由各自对应的多个样本待识别文本的语义特征向量的均值确定;
[0012] 所述根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图包括:
[0013] 计算所述待识别文本的语义特征向量与预设的多个样本意图类别原型之间的相似度值;
[0014] 根据计算得到的最大相似度值所对应的样本意图类别原型确定所述待识别文本的文本意图。
[0015] 在一些实施例中,所述系统还包括设置于所述编码模块和所述分类模块之间的映射模块,所述编码模块、映射模块和分类模块构成端到端意图识别模型,所述多个样本意图识别原型基于小样本训练集训练得到;
[0016] 所述映射模块配置为将所述待识别文本的语义特征向量映射到意图类别原型;
[0017] 所述根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图包括:
[0018] 根据所述待识别文本的意图类别原型从预设的多个样本意图类别原型中确定所述待识别文本的文本意图。
[0019] 在一些实施例中,所述编码器采用CNN神经网络或者RNN神经网络或者Transformer网络结构;所述分类模块基于前馈神经网络构成。
[0020] 在一些实施例中,所述映射模块基于CNN神经网络和残差网络构成。
[0021] 第二方面,本发明实施例提供一种意图识别方法,应用于意图识别系统,所述意图识别系统包括顺序连接的编码模块和分类模块,所述方法包括:所述编码模块获取待识别文本的语义特征向量;
[0022] 所述分类模块根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图。
[0023] 在一些实施例中,所述多个样本意图类别原型中的每一个样本意图类别原型由各自对应的多个样本待识别文本的语义特征向量的均值确定;
[0024] 所述根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图包括:
[0025] 计算所述待识别文本的语义特征向量与预设的多个样本意图类别原型之间的相似度值;
[0026] 根据计算得到的最大相似度值所对应的样本意图类别原型确定所述待识别文本的文本意图。
[0027] 在一些实施例中,所述系统还包括设置于所述编码模块和所述分类模块之间的映射模块,所述编码模块、映射模块和分类模块构成端到端意图识别模型,所述多个样本意图识别原型基于小样本训练集训练得到;
[0028] 所述映射模块配置为将所述待识别文本的语义特征向量映射到意图类别原型;
[0029] 所述根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图包括:
[0030] 根据所述待识别文本的意图类别原型从预设的多个样本意图类别原型中确定所述待识别文本的文本意图。
[0031] 第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项语义识别方法。
[0032] 第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项语义识别方法。
[0033] 第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项语义识别方法。
[0034] 本发明实施例的有益效果在于:实现了对于小样本领域的文本的意图识别,解决了现有技术中对小样本领域的文本进行意图识别所存在的耗时耗力,且泛化性差,训练成本太高的问题。

附图说明

[0035] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036] 图1为本发明的意图识别系统的一实施例的原理框图;
[0037] 图2为本发明的意图识别系统的另一实施例的原理框图;
[0038] 图3为本发明的意图识别系统的训练及应用的一实施例的流程图;
[0039] 图4为本发明中训练所述意图识别系统的映射模块一实施例的原理框图;
[0040] 图5为本发明中的基于残差结构的Mapping模块的一实施例的结构示意图;
[0041] 图6为本发明中的卷积块的一实施例的结构示意图;
[0042] 图7为本发明中的残差网络结构的一实施例的示意图;
[0043] 图8为本发明的意图识别方法的一实施例的流程图;
[0044] 图9为本发明的电子设备的一实施例的结构示意图。

具体实施方式

[0045] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0046] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0047] 本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0048] 在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
[0049] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0050] 如图1所示,本发明的实施例提供一种意图识别系统100,包括:顺序连接的编码模块110和分类模块120,其中,
[0051] 所述编码模块110配置为获取待识别文本的语义特征向量;
[0052] 所述分类模块120配置为根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图。
[0053] 本发明实现了对于小样本领域的文本的意图识别,解决了现有技术中对小样本领域的文本进行意图识别所存在的耗时耗力,且泛化性差,训练成本太高的问题。
[0054] 在一些实施例中,所述多个样本意图类别原型中的每一个样本意图类别原型由各自对应的多个样本待识别文本的语义特征向量的均值确定;
[0055] 所述根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图包括:
[0056] 计算所述待识别文本的语义特征向量与预设的多个样本意图类别原型之间的相似度值;
[0057] 根据计算得到的最大相似度值所对应的样本意图类别原型确定所述待识别文本的文本意图。
[0058] 如图2所示为本发明的意图识别系统的另一实施例的原理框图,在该实施例中意图识别系统还包括设置于所述编码模块110和所述分类模块 120之间的映射模块130,所述编码模块110、映射模块130和分类模块 120构成端到端意图识别模型,所述多个样本意图识别原型基于小样本训练集训练得到;
[0059] 所述映射模块130配置为将所述待识别文本的语义特征向量映射到意图类别原型,示例性地,所述映射模块基于CNN神经网络和残差网络构成;所述编码器采用CNN神经网络或者RNN神经网络或者Transformer 网络结构;所述分类模块基于前馈神经网络构成。
[0060] 示例性地,所述根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图包括:
[0061] 根据所述待识别文本的意图类别原型从预设的多个样本意图类别原型中确定所述待识别文本的文本意图。
[0062] 现有技术中基于有监督文本分类算法有很多,都是在大量标注数据的情况下进行的,如果每个类别的样本非常少,只有几个到几十个,传统的文本分类算法很容易过拟合。本文提出的小样本意图识别方法,系统的网络结构主要有Encoder‑Mapping‑Similarity三个模块组成。
[0063] 第一个Encoder模块,是语义表征模块,这个是用来提取样本的语义表示,采用的是Transformer结构,这种结构可以有效的捕获句子的上下文结构和词语之间的关联性,语义表征能力很强;
[0064] 第二个Mapping模块,是样本向量到意图类别原型的映射层,采用的是CNN网络+残差网络,加入残差网络结构,是一种创新,可以把网络层做的相对深一点,可以更好的提取这种映射关系,比简单的样本语义向量的均值效果好很多;
[0065] 第三个Similarity模块,是相似度计算模块,这个模块的功能就是计算新样本和哪个意图的原型最相似,没有采用余弦夹角的计算方式,而是把相似度计算嵌入到整个网络中,参与整个网络的优化,效果更好。
[0066] 如图3所示,为本发明的意图识别系统的训练及应用的一实施例的流程图,其中包括四个部分,分别是数据清洗、模型训练、模型性能验证、提供服务。其中数据清洗包括文本中的特殊符号处理、文本分词、划分训练集、验证集、测试集。模型训练包括样本输入、参数更新、日志处理、模型保存。模型性能验证包括模型在测试集上的性能表现,主要的参考指标是分类的F1值。提供服务主要是模型上线,对新的样本提供分类服务。
[0067] 如图4所示,为本发明中训练所述意图识别系统的一实施例的原理框图。其中包括:
[0068] 基于Transformer的Encoder模块:这个是整个网络结构的开始部分,用来表征样本的语义特征。在模型训练阶段主要是用来提取训练集样本的语义表示,测试阶段主要是提取新样本的语义表示,样本的初始化词向量可以是随机的,也可以是进过word2vect训练的。这个Encoder模块也可以采用CNN、RNN,但是Transformer性能最好。
[0069] 基于残差结构的Mapping模块:残差网络在图像领域应用比较多,在小样本意图分类中使用非常少。样本到意图原型的映射本质就是多维向量到单一向量的映射。这种关系映射一般使用前馈神经网络或者CNN、RNN 来做,层数都不是很深,加入残差网络以后,为高级语义特征提取提供了可行性。残差网络能够通过增加相当的深度来提高准确率。核心是解决了增加深度带来的副作用(网络退化问题),这样能够通过单纯地增加网络深度,来提高网络性能。本方法采用的是CNN+残差网络共同构成Mapping 模块,因为CNN能够提取low/mid/high‑level的特征,网络的层数越多,意味着能够提取到不同level的特征越丰富。并且,越深的网络提取的特征越抽象,越具有语义信息。对于原来的CNN网络,如果简单地增加深度,会导致梯度弥散或梯度爆炸。如果中间新增Batch Normalization可以初步解决这个问题,但是也会导致退化问题,网络层数增加,但是在训练集上的准确率却饱和甚至下降了。加入残差网络结构可以很好的解决上面问题。这种映射关系比传统的原型网络中使用的样本向量均值要好很多。
[0070] 基于前馈神经网络的Similarity模块:语义相似度计算的方法有很多,可以采用传统的余弦相似度,也可以使用欧几里德距离,但是本文的网络结构在相似度计算上,与固定度量指标不同,而是把相似度计算嵌入到整体网络中,成为整个网络结构的一部分,是一种端到端的网络结构,让模型自己学会相似度计算。
[0071] 如图5所示,为本发明中的基于残差结构的Mapping模块的一实施例的结构示意图,包括第一组卷积块(两个Convolutional block(3,64)),第二组卷积块(两个Convolutional block(3,128)),第三组卷积块(两个Convolutional block(3,256))和第四组卷积块(两个Convolutional block (3,512))。图6为本发明中的卷积块的一实施例的结构示意图,图7 为本发明中的残差网络结构的一实施例的示意图,其中,F(x)表示神经网络当前的输出,F(x)+x表示的是当前神经网络的输出+数据的输入的融合,整体表示一种特征增强方式。
[0072] 需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0073] 为解决现有技术中所存在的技术问题,本领域技术人员通常采用的方法有:设计更多的替换规则,丰富同义词字典,优化关键词抽取算法;建造自己的GPU集群,花费更多的资金采购大量GPU或者TPU;人工收集并标注大量的数据;优化每种意图的原型表示,设计更加复杂的相似度计算算法,这个需要引入新的标注任务。
[0074] 本发明的并非本领域技术人员所能够容易想到的,具体原因如下:
[0075] a、小样本意图分类,首先想到的就是增加每种意图的样本个数,使小样本变成多样本,因为文本分类算法本身有很多,只要人工标注的样本足够多,都可以取得很好的性能。所以大部分人都会从这个角度出发,思路简单明了,结果可控。
[0076] b、还有一部分人会从模型角度思考,让模型本身适应小样本意图分类,所以通过每种意图的有限个样本找到这种意图的原型表示,但是目前大多数的模型结构都是采用所有样本意图的均值来表示各自的意图的原型,这种方式比较容易实现,也比较容易理解。但是,语义表征不够,效果一般。
[0077] c、本发明从模型结构本身出发,通过设计不同的网络结构来实现意图的原型表示,充分挖掘每种意图的原型表示,同时优化相似度计算算法,把相似度计算融入到网络结构中,随着整体网络一起训练,实现端到端的小样本意图识别。和目前常见小样本意图识别算法相比,首先,重点差异在于网络结构的不同,这种新的网络结构是不容易想到的;其次,系统的不同功能模块之间的搭配、优化方式也是不容易想到的。
[0078] 如图8所示,本发明的实施例还提供一种意图识别方法,应用于意图识别系统,所述意图识别系统包括顺序连接的编码模块和分类模块,所述方法包括:
[0079] S10、所述编码模块获取待识别文本的语义特征向量;
[0080] S20、所述分类模块根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图。
[0081] 本发明实现了对于小样本领域的文本的意图识别,解决了现有技术中对小样本领域的文本进行意图识别所存在的耗时耗力,且泛化性差,训练成本太高的问题。
[0082] 在一些实施例中,所述多个样本意图类别原型中的每一个样本意图类别原型由各自对应的多个样本待识别文本的语义特征向量的均值确定;
[0083] 所述根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图包括:
[0084] 计算所述待识别文本的语义特征向量与预设的多个样本意图类别原型之间的相似度值;
[0085] 根据计算得到的最大相似度值所对应的样本意图类别原型确定所述待识别文本的文本意图。
[0086] 在一些实施例中,所述系统还包括设置于所述编码模块和所述分类模块之间的映射模块,所述编码模块、映射模块和分类模块构成端到端意图识别模型,所述多个样本意图识别原型基于小样本训练集训练得到;
[0087] 所述映射模块配置为将所述待识别文本的语义特征向量映射到意图类别原型;
[0088] 所述根据所述待识别文本的语义特征向量从预设的多个样本意图类别原型中确定所述待识别文本的文本意图包括:
[0089] 根据所述待识别文本的意图类别原型从预设的多个样本意图类别原型中确定所述待识别文本的文本意图。
[0090] 在一些实施例中,所述编码器采用CNN神经网络或者RNN神经网络或者Transformer网络结构;所述分类模块基于前馈神经网络构成。
[0091] 在一些实施例中,所述映射模块基于CNN神经网络和残差网络构成。
[0092] 本发明提出的小样本意图识别方法采用Encoder‑Mapping‑Similarity 的三级框架。Encoder负责语义编码、Mapping负责样本到意图类别的语义映射、Similarity负责计算新样本和意图原型的相似度,完成小样本分类。
[0093] 本发明提出的小样本意图识别方法,无需对数据做特别的处理,不需要对数据进行增强操作,每种意图只需要几十个人工标注样本,所以不需要花费大量的人力去标注数据和维护关键词替换规则,也不需要维护语义字典,对项目领域没有特殊要求,可移植性好。
[0094] 本发明提出的小样本意图识别方法,没有使用基于BERT的海量的无监督语料训练语言模型,可以使用传统的基于fasttext或者word2vect的方式训练词向量,训练代价很小。
[0095] 本发明提出的小样本意图识别方法,主要应用在智能客服场景中,直接达到的效果就是意图识别性能的提升,使意图分类算法的F1性能评价指标获得提升,更深层次的效果就是,有助于提升对话的成功率,提升任务型对话的完成率。
[0096] 在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项意图识别方法。
[0097] 在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项意图识别方法。
[0098] 在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行意图识别方法。
[0099] 在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现意图识别方法。
[0100] 图9是本申请另一实施例提供的执行意图识别方法的电子设备的硬件结构示意图,如图9所示,该设备包括:
[0101] 一个或多个处理器910以及存储器920,图9中以一个处理器910为例。
[0102] 执行意图识别方法的设备还可以包括:输入装置930和输出装置940。
[0103] 处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接,图9中以通过总线连接为例。
[0104] 存储器920作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的意图识别方法对应的程序指令/模块。处理器910通过运行存储在存储器 920中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例意图识别方法。
[0105] 存储器920可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据意图识别装置的使用所创建的数据等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器920 可选包括相对于处理器910远程设置的存储器,这些远程存储器可以通过网络连接至意图识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0106] 输入装置930可接收输入的数字或字符信息,以及产生与意图识别装置的用户设置以及功能控制有关的信号。输出装置940可包括显示屏等显示设备。
[0107] 所述一个或者多个模块存储在所述存储器920中,当被所述一个或者多个处理器910执行时,执行上述任意方法实施例中的意图识别方法。
[0108] 上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
[0109] 本申请实施例的电子设备以多种形式存在,包括但不限于:
[0110] (1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
[0111] (2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC 设备等,例如iPad。
[0112] (3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
[0113] (4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
[0114] (5)其他具有数据交互功能的电子装置。
[0115] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0116] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0117] 最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。