解析语义的方法和装置转让专利

申请号 : CN201610338834.2

文献号 : CN107402912B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张喜周鑫

申请人 : 北京京东尚科信息技术有限公司北京京东世纪贸易有限公司

摘要 :

本申请公开了解析语义的方法和装置。所述方法的一具体实施方式包括:接收用户输入的语义信息;解析语义信息,得到关联业务的一次文本特征;计算一次文本特征与语料库中的语料特征的相似度;将与一次文本特征相似度最高的语料特征所属的语料作为一次解析文本;提取一次解析文本的特征,得到二次文本特征;获取业务特征库中与二次文本特征相匹配的业务特征及获取的业务特征所属的业务领域;获取业务特征的权重库中与获取的业务特征相关联的权重值;将权重值最高的业务特征所属的业务领域作为一次解析文本所属的业务领域;在一次解析文本所属的业务领域中解析一次解析文本,得到二次解析文本。该实施方式提高了解析语义的结果的准确性。

权利要求 :

1.一种解析语义的方法,其特征在于,所述方法包括:接收用户输入的语义信息;

解析所述语义信息,得到关联业务的一次文本特征;

计算所述一次文本特征与语料库中的语料特征的相似度;

将与所述一次文本特征相似度最高的语料特征所属的语料作为一次解析文本;

提取所述一次解析文本的特征,得到二次文本特征;

获取业务特征库中与所述二次文本特征相匹配的业务特征及获取的业务特征所属的业务领域;

获取业务特征的权重库中与获取的业务特征相关联的权重值;

将权重值最高的业务特征所属的业务领域作为所述一次解析文本所属的业务领域;

在所述一次解析文本所属的业务领域中解析所述一次解析文本,得到二次解析文本。

2.根据权利要求1所述的解析语义的方法,其特征在于,所述方法还包括:在所述一次解析文本所属的业务领域对应的答案集中查询与所述二次解析文本对应的答案;

呈现所述与所述二次解析文本对应的答案。

3.根据权利要求1所述的解析语义的方法,其特征在于,所述解析所述语义信息,得到关联业务的一次文本特征包括:获取所述语义信息的文本信息;对所述文本信息进行清洗和降维;对清洗和降维后的文本信息进行语义和句法分析,得到文本信息特征,提取所述文本信息特征中关联业务的特征,得到所述一次文本特征;和/或所述提取所述一次解析文本的特征,得到二次文本特征包括:获取所述一次解析文本;

对所述一次解析文本进行清洗和降维;对清洗和降维后的一次解析文本进行语义和句法分析,得到所述二次文本特征。

4.根据权利要求1或3所述的解析语义的方法,其特征在于,所述获取业务特征库中与所述二次文本特征相匹配的业务特征包括:获取业务特征库中与所述二次文本特征相匹配的业务特征;

对所述与所述二次文本特征相匹配的业务特征进行指代消解,得到指代消解后的业务特征;

将指代消解后的业务特征作为获取的业务特征。

5.根据权利要求4所述的解析语义的方法,其特征在于,所述方法还包括:获取已标记业务领域的业务信息的样本;

对所述样本进行基于统计和机器学习的分词并确定所述分词的词性;

根据所述分词出现的频率和所述词性,确定所述业务特征库中的业务特征及业务特征所属的业务领域。

6.根据权利要求5所述的解析语义的方法,其特征在于,所述方法还包括:根据业务特征的粒度和预设的粒度与权重的对应关系,设定所述业务特征的权重库中业务特征的权重。

7.一种解析语义的装置,其特征在于,所述装置包括:语义接收单元,用于接收用户输入的语义信息;

一次解析单元,用于解析所述语义信息,得到关联业务的一次文本特征;

相似度计算单元,用于计算所述一次文本特征与语料库中的语料特征的相似度;

语料确定单元,用于将与所述一次文本特征相似度最高的语料特征所属的语料作为一次解析文本;

特征提取单元,用于提取所述一次解析文本的特征,得到二次文本特征;

特征获取单元,用于获取业务特征库中与所述二次文本特征相匹配的业务特征及获取的业务特征所属的业务领域;

权重获取单元,用于获取业务特征的权重库中与获取的业务特征相关联的权重值;

领域确定单元,用于将权重值最高的业务特征所属的业务领域作为所述一次解析文本所属的业务领域;

二次解析单元,用于在所述一次解析文本所属的业务领域中解析所述一次解析文本,得到二次解析文本。

8.根据权利要求7所述的解析语义的装置,其特征在于,所述装置还包括:答案查询单元,用于在所述一次解析文本所属的业务领域对应的答案集中查询与所述二次解析文本对应的答案;

答案呈现单元,用于呈现所述与所述二次解析文本对应的答案。

9.根据权利要求7所述的解析语义的装置,其特征在于,所述一次解析单元进一步用于:获取所述语义信息的文本信息;对所述文本信息进行清洗和降维;对清洗和降维后的文本信息进行语义和句法分析,得到文本信息特征,提取所述文本信息特征中关联业务的特征,得到所述一次文本特征;和/或所述特征提取单元进一步用于:获取所述一次解析文本;对所述一次解析文本进行清洗和降维;对清洗和降维后的一次解析文本进行语义和句法分析,得到所述二次文本特征。

10.根据权利要求7或9所述的解析语义的装置,其特征在于,所述特征获取单元进一步用于:获取业务特征库中与所述二次文本特征相匹配的业务特征;对所述与所述二次文本特征相匹配的业务特征进行指代消解,得到指代消解后的业务特征;将指代消解后的业务特征作为获取的业务特征。

11.根据权利要求10所述的解析语义的装置,其特征在于,所述装置还包括:样本获取单元,用于获取已标记业务领域的业务信息的样本;

词性确定单元,用于对所述样本进行基于统计和机器学习的分词并确定所述分词的词性;

特征确定单元,用于根据所述分词出现的频率和所述词性,确定所述业务特征库中的业务特征及业务特征所属的业务领域。

12.根据权利要求11所述的解析语义的装置,其特征在于,所述装置还包括:权重设定单元,用于根据业务特征的粒度和预设的粒度与权重的对应关系,设定所述业务特征的权重库中业务特征的权重。

13.一种解析语义的装置,其特征在于,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至6中任一项所述的解析语义的方法。

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如权利要求1至6中任一项所述的解析语义的方法。

说明书 :

解析语义的方法和装置

技术领域

[0001] 本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及解析语义的方法和装置。

背景技术

[0002] 近几年,作为科学领域和人工智能领域一个重要方向的自然语言处理技术发展迅速,随之带动了智能机器人理论研究和应用的发展,越来越多的电子商务网站或涉及咨询业务的商业领域开始应用这一技术来代替传统的人工服务。
[0003] 当前,智能机器人技术在互联网产品的应用相对比较集中,如:银行业务咨询、电子商务的售前售后业务答疑等。在这些业务中,机器人解析语义的方法通常包括:首先由人工整理业务知识,对业务知识分类,配置好问题和答案,之后在人工“监督”的情况下,“教会”机器人,最后由机器人替换人工来提供服务。
[0004] 然而,在某一服务的业务点较多的情况下,采用上述机器人解析用户语义的方法,只能解析用户语义的大致意图,解析语义的精确度较低。

发明内容

[0005] 本申请的目的在于提出一种改进的解析语义的方法和装置,来解决以上背景技术部分提到的技术问题。
[0006] 第一方面,本申请提供了一种解析语义的方法,所述方法包括:接收用户输入的语义信息;解析所述语义信息,得到关联业务的一次文本特征;计算所述一次文本特征与语料库中的语料特征的相似度;将与所述一次文本特征相似度最高的语料特征所属的语料作为一次解析文本;提取所述一次解析文本的特征,得到二次文本特征;获取业务特征库中与所述二次文本特征相匹配的业务特征及获取的业务特征所属的业务领域;获取业务特征的权重库中与获取的业务特征相关联的权重值;将权重值最高的业务特征所属的业务领域作为所述一次解析文本所属的业务领域;在所述一次解析文本所属的业务领域中解析所述一次解析文本,得到二次解析文本。
[0007] 第二方面,本申请提供了一种解析语义的装置,所述装置包括:语义接收单元,用于接收用户输入的语义信息;一次解析单元,用于解析所述语义信息,得到关联业务的一次文本特征;相似度计算单元,用于计算所述一次文本特征与语料库中的语料特征的相似度;语料确定单元,用于将与所述一次文本特征相似度最高的语料特征所属的语料作为一次解析文本;特征提取单元,用于提取所述一次解析文本的特征,得到二次文本特征;特征获取单元,用于获取业务特征库中与所述二次文本特征相匹配的业务特征及获取的业务特征所属的业务领域;权重获取单元,用于获取业务特征的权重库中与获取的业务特征相关联的权重值;领域确定单元,用于将权重值最高的业务特征所属的业务领域作为所述一次解析文本所属的业务领域;二次解析单元,用于在所述一次解析文本所属的业务领域中解析所述一次解析文本,得到二次解析文本。
[0008] 本申请提供的解析语义的方法和装置,通过对用户输入的语义信息提取关联业务的文本特征得到一次文本特征,而后计算一次文本特征与语料库中的语料特征的相似度,之后将与一次文本特征相似度最高的语料特征所属的语料作为一次解析文本,之后提取一次解析文本的特征,得到二次文本特征,之后获取业务特征库中与二次文本特征相匹配的业务特征及获取的业务特征所属的业务领域,之后获取业务特征的权重库中与获取的业务特征相关联的权重值,之后将权重值最高的业务特征所属的业务领域作为一次解析文本所属的业务领域,之后在一次解析文本所属的业务领域中解析一次解析文本,得到二次解析文本,从而提高了解析语义的结果的准确性。

附图说明

[0009] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0010] 图1是本申请可以应用于其中的示例性系统架构图;
[0011] 图2是根据本申请的解析语义的方法的一个实施例的流程图;
[0012] 图3是根据本申请的解析语义的方法的一个应用场景的示意性流程图;
[0013] 图4是根据本申请的解析语义的装置的一个实施例的结构示意图;
[0014] 图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

[0015] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
[0016] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0017] 图1示出了可以应用本申请的解析语义的方法或解析语义的装置的实施例的示例性系统架构100。
[0018] 如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105、106。网络104用以在终端设备101、102、103和服务器105、106之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0019] 用户110可以使用终端设备101、102、103通过网络104与服务器105、106交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
[0020] 终端设备101、102、103可以是具有显示屏并且支持用户输入语义信息的各种电子设备,包括但不限于智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
[0021] 服务器105、106可以是提供各种服务的服务器,例如对终端设备101、102、103上用户输入的语义信息进行解析并提供答案信息的后台服务器。后台服务器可以对接收到的用户输入的语义信息等数据进行分析等处理,并将处理结果(例如答案)反馈给终端设备。
[0022] 需要说明的是,本申请实施例所提供的解析语义的方法一般由服务器105、106执行,相应地,解析语义的装置一般设置于服务器105、106中。
[0023] 应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0024] 继续参考图2,示出了根据本申请的解析语义的方法的一个实施例的流程200。所述的解析语义的方法,包括以下步骤:
[0025] 步骤201,接收用户输入的语义信息。
[0026] 在本实施例中,解析语义的方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从用户利用其进行输入的终端接收语义信息。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
[0027] 通常,用户利用终端上安装的网页浏览器应用、购物类应用、搜索类应用、即时通信工具等来浏览网页,这时,用户可以通过语音信息、文本信息和唇动信息中的一种或多种来输入语义信息。在本实施例中,上述语义信息可以包括文字格式、音频格式、图片格式、或者其它未来将开发的格式的语义信息。
[0028] 步骤202,解析语义信息,得到关联业务的一次文本特征。
[0029] 在本实施例中,基于步骤201中接收的语义信息,可以对语义信息进行解析,以得到关联业务的一次文本特征。在这里,若语义信息为文本信息,则可以直接提取文本信息的特征,并在提取的特征中筛选出关联业务的一次文本特征;若语义信息为语音信息和/或唇动信息,则需要先对语音信息和/或唇动信息进行解析以得到其对应的文本信息,之后对文本信息提取特征,并在提取的特征中筛选出关联业务的一次文本特征。
[0030] 在这里,可以采用现有技术中或未来发展的技术中的基于统计的特征提取方法来提取文本信息的特征。例如,可以采用词频-逆向文件频率方法、词频方法、文件频次方法等来提取文本信息的特征。这些基于统计的特征提取方法,可以通过构造评估函数来对特征集合中的每个特征进行评估,并对每个特征打分,这样每个词语都获得一个评估值,又称为权值。然后将所有特征按权值大小排序,提取预定数目的最优特征作为提取结果的特征子集。
[0031] 在本实施例的一些可选实现方式中,解析语义信息,得到关联业务的一次文本特征可以包括:首先获取语义信息的文本信息;之后对文本信息进行清洗和降维;然后对清洗和降维后的文本信息进行语义和句法分析,得到文本信息特征;最后提取文本信息特征中关联业务的特征,得到一次文本特征。
[0032] 在这里,对文本信息进行清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。数据清洗的任务是过滤那些不符合要求的数据,不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。例如,对文本信息中的中英文符号进行转换、对简繁体进行转换以及清洗重复数据、冲突数据及无意义字符等,这里的无意义字符是指有不影响分类的特征,如“你好”、“请问”以及脏话等。对文本信息进行降维是将样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个关于原数据集紧致的低维表示。例如采用以下方法对文本信息进行降维:缺失值比率法、高相关滤波法、主成分分析法等。
[0033] 在这里,对清洗和降维后的文本信息进行语义和句法分析,可以得到标记多维度的文本信息特征。这里的句法分析,是指对句法结构中词语与词语之间发生的种种语法关系进行分析:主谓、述补、述宾、偏正、联合等。这里的语义关系,在语义学中是指语言成分所表示的客观对象之间的关系,我们所说的语义关系是指动作和动作者、动作和受动者、动作和工具、动作和处所、事物和事物之间的关系等。在进行语义和句法分析时,可以采用预先建立的分词模型来完成分析,训练分词模型的数据可以为包含业务知识的历史问答数据,也可以是人工添加的数据。
[0034] 在这里,提取文本信息特征中关联业务的特征,是指在文本信息特征的基础上,放弃一部分无业务特征的文本特征词并提高另一部分文本特征词的权重。
[0035] 步骤203,计算一次文本特征与语料库中的语料特征的相似度。
[0036] 在本实施例中,语料库是指预先由人工标记的书写文本或口语转写的集合体,可以用于语言分析和语言描写。语料库也可以认为是电子机读文本的有限集合,从最大程度上代表了某种语言或语言变体。计算一次文本特征与语料库中的语料特征的相似度,可以确定与一次文本特征相似度最高的语料特征所属的语料,也即一次解析文本。
[0037] 步骤204,将与一次文本特征相似度最高的语料特征所属的语料作为一次解析文本。
[0038] 在本实施例中,基于步骤203中计算得到的一次文本特征与语料库中的语料特征的相似度,可以选择与一次文本特征相似度最高的语料特征所属的语料,并将选择的语料作为一次解析文本。
[0039] 步骤205,提取一次解析文本的特征,得到二次文本特征。
[0040] 在本实施例中,在步骤204得到的一次解析文本的基础上,可以提取一次解析文本的特征,并将提取的一次解析文本的特征作为二次文本特征。
[0041] 在这里,提取一次解析文本的特征的方法,与上述的提取文本特征的方法可以相同,也可以不同,可以采用现有技术中或未来发展的技术中的基于统计的特征提取方法来提取一次解析文本的特征。例如,可以采用词频-逆向文件频率方法、词频方法、文件频次方法等来提取一次解析文本的特征。这些基于统计的特征提取方法,可以通过构造评估函数来对特征集合中的每个特征进行评估,并对每个特征打分,这样每个词语都获得一个评估值,又称为权值。然后将所有特征按权值大小排序,提取预定数目的最优特征作为提取结果的特征子集。
[0042] 在本实施例的一些可选实现方式中,提取一次解析文本的特征,得到二次文本特征可以包括:首先获取一次解析文本;之后对一次解析文本进行清洗和降维;然后对清洗和降维后的一次解析文本进行语义和句法分析,得到二次文本特征。
[0043] 这里的清洗和降维,同上述对文本信息进行清洗和降维的方法相同,在此不再赘述。
[0044] 步骤206,获取业务特征库中与二次文本特征相匹配的业务特征及获取的业务特征所属的业务领域。
[0045] 在本实施例中,业务特征库中包括预先从用户问题中提取的业务特征以及该特征所属的业务领域。基于步骤205中得到的二次文本特征,可以在业务特征库中获取与二次文本特征相匹配的业务特征,并获取该业务特征所属的业务领域。应当理解,业务特征库中可能有一个或多个业务领域的业务特征与二次文本特征相匹配。
[0046] 在本实施例的一些可选实现方式中,为了获取精简的业务特征,可以在二次文本特征与业务特征库中的特征进行匹配后对获取的业务特征进行指代消解,也即获取业务特征库中与二次文本特征相匹配的业务特征可以包括:首先获取业务特征库中与二次文本特征相匹配的业务特征;之后对与二次文本特征相匹配的业务特征进行指代消解,得到指代消解后的业务特征;最后将指代消解后的业务特征作为获取的业务特征。
[0047] 在这里,指代消解的规则可以包括以下几种情况:
[0048] 1、包含代词,如:“这个”、“这款”、“该款”、“本款”,且代词修饰名词、动名词,消解代词;2、业务词是名词、动名词,前有形容词、动名词,消解掉形容词、动名词;3、业务词是名词、动名词,前有动词,后面有动词,则前面动词消解掉;4、业务词是动词,且句子里面只包含一个名词,一个动词,则消解掉其他词性词,如:“系统/n是不是兼容/v(业务词)很好”消解为“系统兼容”;5、业务词是名词,且句子里面只有一个名词,则消解掉其他词性词,如:“这个尺寸/n(业务词)是多少”消解为“尺寸”;6、业务词是形容词,如果前后都是业务词,比较权重,留权重大的业务词。
[0049] 在本实施例的一些可选实现方式中,上述解析语义的方法还包括:可以通过以下步骤获取确定业务特征库中的业务特征及业务特征所属的业务领域:获取已标记业务领域的业务信息的样本;对样本进行基于统计和机器学习的分词并确定分词的词性;根据分词出现的频率和词性,确定业务特征库中的业务特征及业务特征所属的业务领域。例如,在业务领域为尺寸的模型中,文本“商品/n的/uj尺寸/n是/v多大/a”和“宝贝/n的/uj厚度/n是/v多少/r”,其中,n为名词,nj为结构助词的,v是动词,a是形容词,因此这里的“尺寸”、“厚度”即为业务特征。然后,分析业务词之间的从属关系,如,{厚度}∈{尺寸},因此业务特征所属的业务领域为尺寸。
[0050] 步骤207,获取业务特征的权重库中与获取的业务特征相关联的权重值。
[0051] 在本实施例中,对应于步骤206中获取的业务特征为一个,可以在业务特征的权重库中获取该业务特征对应的权重,对应于步骤206中获取的业务特征为多个,可以在业务特征的权重库中对应每一个业务特征分别获取其对应的权重。
[0052] 这里的权重库,为预先根据业务特征及业务特征所属的业务领域预设的权重。在预设权重时,通常考虑给那些能表达主题的业务特征赋予较高的权重,在赋予业务特征权重时,可以充分考虑业务特征的词频、词性、词长、位置以及同义词现象等因素。例如,将意义相同或相近的词视为一个,并将它们的词频相加;赋予名词或者含有名词的组合词较高的权重;赋予4个或者4个字以上的词较高的权重。
[0053] 在本实施例的一些可选实现方式中,上述解析语义的方法还包括:根据业务特征的粒度和预设的粒度与权重的对应关系,设定业务特征的权重库中业务特征的权重。
[0054] 这里的粒度,是指业务特征的细化和综合程度。例如,可以根据业务特征的划分标准,可以将业务特征的权重库中的权重划分为:详细数据、轻度总结、高度总结三级。在确定数据粒度时应注意一条原则:细化程度越高,粒度越小;细化程度越低,粒度越大。
[0055] 在确定业务特征的粒度之后,可以根据预设的粒度与权重的对应关系,设定业务特征的权重库中业务特征的权重。
[0056] 步骤208,将权重值最高的业务特征所属的业务领域作为一次解析文本所属的业务领域。
[0057] 在本实施例中,若步骤207中获取的业务特征的权重为单个,则将该业务特征所属的业务领域作为一次解析文本所属的业务领域;若步骤207中获取的业务特征的权重为多个,则对多个权重从大到小进行排序,选择排序第一的权重对应的业务特征所属的业务领域作为一次解析文本所属的业务领域,从而更为精确的确定了用户意图所属的领域。
[0058] 步骤209,在一次解析文本所属的业务领域中解析一次解析文本,得到二次解析文本。
[0059] 在本实施例中,基于步骤208中获取的一次解析文本所属的业务领域,将一次解析文本进行基于统计的分词,然后将分词与一次解析文本所属的业务领域中的特征进行比对,得到一次解析文本在其所属的业务领域内的二次解析文本。
[0060] 在本实施例的一些可选实现方式中,在得到二次解析文本之后,还可以根据二次解析文本获取答复二次解析文本的答案:首先根据一次解析文本所属的业务领域确定答案集中对应该业务领域的答案子集,之后在该答案子集中查询与二次解析文本对应的问题,之后获取对应该问题的答案,并将该答案作为二次解析文本对应的答案,也即上述的解析语义的方法还包括:在一次解析文本所属的业务领域对应的答案集中查询与二次解析文本对应的答案;呈现与二次解析文本对应的答案。
[0061] 应当理解,这里的答案集通常可以包括预先确定的附有领域标记的问答对,问答对包括问题以及对应问题的答案,问答对可以来自于官网常见的问题项目与对应问题的解答,也可以来自于从人工客服的聊天记录筛选的问答对,还可以是人工根据问题编写的问答对。
[0062] 继续参见图3,图3是根据本实施例的解析语义的方法的应用场景的一个示意性流程图。
[0063] 如图3所示,解析语义的方法包括以下步骤:
[0064] 在步骤301中,接收用户问题,之后执行步骤302;
[0065] 在步骤302中,对接收的用户问题的文本信息进行数据清洗和降维,之后执行步骤303;
[0066] 在步骤303中,对清洗和降维后的文本信息进行意图识别:对清洗和降维后的文本信息进行语义和句法分析,得到文本信息特征,提取文本信息中关联业务的特征,得到一次文本特征,之后计算一次文本特征与语料库中的语料特征的相似度,将与一次文本特征相似度最高的语料特征所属的语料作为意图识别的结果,之后执行步骤307;
[0067] 在步骤304中,将上述意图识别的结果作为一次解析文本;
[0068] 在步骤305中,离线计算包括业务特征和业务领域的业务特征库以及包括业务特征和权重的业务特征的权重库;
[0069] 在步骤306中,从业务特征库中提取业务特征及业务特征的权重;
[0070] 在步骤307中,对一次解析文本进行基于统计的分词,之后匹配分词和提取的业务特征,若匹配,则记录该分词的位置,同时,搜索和判断该分词与前面相邻分词的词性类型是否一致或者可消解,如都是代词、形容词、动名词等,如果是,则从该词位置起,到搜索结束的位置合并为一个短语,消解为关键业务词,并附对应权重;当消解到文本结尾,重新合并消解后的文本,将权重值最高的业务特征所属的业务领域作为一次解析文本所属的业务领域,并为合并的文本标记业务领域,之后执行步骤309和310;
[0071] 在步骤308中,预先确定答案集,答案集包括附有领域标记的问答对;
[0072] 在步骤309中,将一次解析文本在合并后的文本所标记的业务领域中重新进行解析,得到二次解析文本,之后执行步骤311;
[0073] 在步骤310中,从步骤308中确定的答案集中提取符合上述合并的文本所标记的业务领域的答案子集,之后执行步骤311;
[0074] 在步骤311中,从答案子集中查询与二次解析文本的特征对应的答案特征,并将答案特征组装为答案,之后执行步骤312;
[0075] 在步骤312中,返回组装的答案。
[0076] 在与上述图3的流程图对应的一个应用场景中,首先接收用户输入的“你好,请问这款红石榴免洗睡眠面膜可以改善暗黄的肤质吗?”经过数据清洗、降维以及与语料库的匹配,输入变为一次解析文本“这款红石榴免洗睡眠面膜可以改善暗黄的肤质?”,之后分词,搜索到业务词,分别有“面膜{w=0.48}”、“暗黄{w=0.80}”和“肤质{w=0.6}”,“红”是形容词,修饰“石榴”,则合并“红石榴”,前面是代词“这款”,则消解“这款红石榴”为“红石榴”,业务词“面膜”前有动词(免洗、睡眠)和名词(红石榴),则消解掉变成“面膜”,形容词“暗黄”修饰“肤质”,因为一次解析文本所属的业务领域是“产品功效”,“暗黄”的权重高于“肤质”,则“暗黄的肤质”消解为“暗黄”,最终分析的句子为“面膜{w=0.48}可以改善暗黄{w=0.80}”,之后根据“面膜{w=0.48}可以改善暗黄{w=0.80}”,在产品功效领域中查询对应的答案,并返回组装的答案。
[0077] 本申请的上述实施例提供的方法通过确定一次解析文本所属的业务领域以及在细分的业务领域中解析一次解析文本以得到二次解析文本,提高了解析语义的结果的准确性。
[0078] 进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种解析语义的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0079] 如图4所示,本实施例所述的解析语义的装置400包括:语义接收单元410、一次解析单元420、相似度计算单元430、语料确定单元440、特征提取单元450、特征获取单元460、权重获取单元470、领域确定单元480和二次解析单元490。
[0080] 其中,语义接收单元410,配置用于接收用户输入的语义信息;一次解析单元420,配置用于解析语义信息,得到关联业务的一次文本特征;相似度计算单元430,配置用于计算一次文本特征与语料库中的语料特征的相似度;语料确定单元440,配置用于将与一次文本特征相似度最高的语料特征所属的语料作为一次解析文本;特征提取单元450,配置用于提取一次解析文本的特征,得到二次文本特征;特征获取单元460,配置用于获取业务特征库中与二次文本特征相匹配的业务特征及获取的业务特征所属的业务领域;权重获取单元470,配置用于获取业务特征的权重库中与获取的业务特征相关联的权重值;领域确定单元
480,配置用于将权重值最高的业务特征所属的业务领域作为一次解析文本所属的业务领域;二次解析单元490,配置用于在一次解析文本所属的业务领域中解析一次解析文本,得到二次解析文本。
[0081] 在本实施例的一些可选实现方式中,上述解析语义的装置还包括(图中未示出):答案查询单元,配置用于在一次解析文本所属的业务领域对应的答案集中查询与二次解析文本对应的答案;答案呈现单元,配置用于呈现与二次解析文本对应的答案。
[0082] 在本实施例的一些可选实现方式中,一次解析单元进一步配置用于:获取语义信息的文本信息;对文本信息进行清洗和降维;对清洗和降维后的文本信息进行语义和句法分析,得到文本信息特征,提取文本信息特征中关联业务的特征,得到一次文本特征;和/或特征提取单元进一步配置用于:获取一次解析文本;对一次解析文本进行清洗和降维;对清洗和降维后的一次解析文本进行语义和句法分析,得到二次文本特征。
[0083] 在本实施例的一些可选实现方式中,特征获取单元进一步配置用于:获取业务特征库中与二次文本特征相匹配的业务特征;对与二次文本特征相匹配的业务特征进行指代消解,得到指代消解后的业务特征;将指代消解后的业务特征作为获取的业务特征。
[0084] 在本实施例的一些可选实现方式中,上述解析语义的装置还包括(图中未示出):样本获取单元,配置用于获取已标记业务领域的业务信息的样本;词性确定单元,配置用于对样本进行基于统计和机器学习的分词并确定分词的词性;特征确定单元,配置用于根据分词出现的频率和词性,确定业务特征库中的业务特征及业务特征所属的业务领域。
[0085] 在本实施例的一些可选实现方式中,上述解析语义的装置还包括(图中未示出):权重设定单元,用于根据业务特征的粒度和预设的粒度与权重的对应关系,设定业务特征的权重库中业务特征的权重。
[0086] 本领域技术人员可以理解,上述解析语义的装置400还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图4中未示出。
[0087] 应当理解,装置400中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此,上文针对解析语义的方法描述的操作和特征同样适用于装置400及其中包含的单元,在此不再赘述。装置400中的相应单元可以与终端设备和/或服务器中的单元相互配合以实现本申请实施例的方案。
[0088] 在本申请的上述实施例中,一次文本特征及二次文本特征仅代表获得文本特征的源数据和得到的文本特征不同,获得文本特征的方法可以相同,也可以不同。本领域技术人员应当理解,其中的一次或二次并不构成对文本特征的特殊限定。
[0089] 在本申请的上述实施例中,一次解析文本及二次解析文本仅代表解析的源数据、方法以及得到的解析文本不同。本领域技术人员应当理解,其中的一次或二次并不构成对解析文本的特殊限定。
[0090] 下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。
[0091] 如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
[0092] 以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
[0093] 特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
[0094] 附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个单元、程序段、或代码的一部分,所述单元、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0095] 描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括语义接收单元、一次解析单元、相似度计算单元、语料确定单元、特征提取单元、特征获取单元、权重获取单元、领域确定单元和二次解析单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,语义接收单元还可以被描述为“接收用户输入的语义信息的单元”。
[0096] 作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:接收用户输入的语义信息;解析语义信息,得到关联业务的一次文本特征;计算一次文本特征与语料库中的语料特征的相似度;将与一次文本特征相似度最高的语料特征所属的语料作为一次解析文本;提取一次解析文本的特征,得到二次文本特征;获取业务特征库中与二次文本特征相匹配的业务特征及获取的业务特征所属的业务领域;获取业务特征的权重库中与获取的业务特征相关联的权重值;将权重值最高的业务特征所属的业务领域作为一次解析文本所属的业务领域;在一次解析文本所属的业务领域中解析一次解析文本,得到二次解析文本。
[0097] 以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。