一种知识图谱赋能的基于信息检索的问答系统和方法转让专利

申请号 : CN201910134021.5

文献号 : CN109885660B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 褚善博王昊奋

申请人 : 上海乐言信息科技有限公司

摘要 :

本发明公开了知识图谱赋能的基于信息检索的问答系统和方法,整体提升系统的问答效果,扩大用户咨询范围并提升问题反馈的准确度。其技术方案为:系统包括:知识图谱数据库存储领域知识图谱的信息;分词和词性标注模块将用户问题进行分词并对其词性标注;实体识别与链接模块将用户问题中的实体进行识别并将实体链接到知识图谱数据库中的节点上;意图理解模块基于实体链接结果及分布式表示向量得到用户问题的意图理解结果;检索模块基于检索数据源,根据用户问题中的信息检索出对应的多个问答对作为粗选结果;排序模块利用实体的分布式表示向量对粗选结果进行重排序;语义匹配模块利用实体的分布式表示向量对重排序结果进行打分并最终输出答案。

权利要求 :

1.一种知识图谱赋能的基于信息检索的问答系统,其特征在于,包括分词和词性标注模块、实体识别与链接模块、意图理解模块、检索模块、排序模块、语义匹配模块、知识图谱数据库,其中:知识图谱数据库,存储领域知识图谱和通用知识图谱的信息,其中知识图谱的信息包括知识图谱的节点、节点与实体的链接关系及其分布式表示向量;

分词和词性标注模块,连接知识图谱数据库,将用户问题进行分词并对每一个词进行词性标注;

实体识别与链接模块,连接分词和词性标注模块、知识图谱数据库,将经过分词和词性标注后的用户问题中的实体进行识别,并且将识别出的实体链接到知识图谱数据库中的知识图谱的相关节点上;

意图理解模块,连接实体识别与链接模块、知识图谱数据库,基于实体识别与链接模块的实体链接结果以及知识图谱数据库中的实体的分布式表示向量得到用户问题的意图理解结果;

检索模块,连接意图理解模块,基于包括多问答对的检索数据源,根据用户问题中的信息检索出对应的多个问答对作为粗选结果;

排序模块,连接检索模块和知识图谱数据库,利用知识图谱数据库的实体的分布式表示向量对检索模块输出的粗选结果进行重排序;

语义匹配模块,连接语义匹配模块和知识图谱数据库,利用知识图谱数据库的实体的分布式表示向量对排序模块的重排序结果进行打分并最终输出用户问题相应的答案;

其中实体识别与链接模块将实体识别建模成序列标注问题并采用条件随机场模型(CRF)来进行实现,其中实体链接部分先产生待链接的实体文本片段以及对应的候选实体列表,再使用排序模型对候选实体列表中的每一个候选实体与文本片段结合周边文本以及实体周边信息进行打分,得到最终的链接实体并将其链接到知识图谱数据库中相关的节点上;

知识图谱数据库中预先对整个领域知识图谱中的节点和边进行分布式的表示学习,并用分布式表示向量来存储,以便结合实体识别与链接模块得到用户问题中的每一个实体的分布式表示向量;

意图理解模块利用TextCNN模型建模为多分类问题,将知识图谱数据库中的实体对应的分布式表示向量加入到TextCNN模型的输入中以提升意图理解准确性。

2.根据权利要求1所述的知识图谱赋能的基于信息检索的问答系统,其特征在于,系统还包括:拼写纠错模块,拼写纠错模块的输出端连接分词和词性标注模块,用于将用户所输入的问题进行拼写纠错后输出为纠错后的问题,并将纠错后的问题输出至分词和词性标注模块。

3.根据权利要求2所述的知识图谱赋能的基于信息检索的问答系统,其特征在于,拼写纠错模块基于拼写规则和语言模型纠正包括拼音和五笔在内的输入法带来的拼写错误,其中根据用户输入习惯搜集常见的拼写错误并建立拼写规则,产生候选的可能正确的词列表,再使用语言模型对整个问题是否像自然语句进行打分得到最优的结果后将其作为纠错后的问题。

4.根据权利要求1所述的知识图谱赋能的基于信息检索的问答系统,其特征在于,分词和词性标注模块采用词典匹配与基于条件随机场的模型进行分词和词性标注。

5.根据权利要求1所述的知识图谱赋能的基于信息检索的问答系统,其特征在于,检索模块接收的用户问题中包括分词、词性、实体、意图的信息,先在对问答对进行索引构建的过程中设置问题、回答、意图、实体的多个字段,每一个字段设置不同的权重,再计算用户问题和索引的问答对之间的相似度并返回相似度高的问答对。

6.一种知识图谱赋能的基于信息检索的问答方法,其特征在于,包括:

将用户问题进行分词并对每一个词进行词性标注;

将经过分词和词性标注后的用户问题中的实体进行识别,并且将识别出的实体链接到知识图谱的相关节点上,其中知识图谱包括通用知识图谱和领域知识图谱;

基于实体链接结果以及知识图谱中的实体的分布式表示向量得到用户问题的意图理解结果;

基于包括多问答对的检索数据源,根据用户问题中的信息检索出对应的多个问答对作为粗选结果;

利用知识图谱的实体的分布式表示向量对粗选结果进行重排序;

利用知识图谱的实体的分布式表示向量对重排序结果进行打分并最终输出用户问题相应的答案;

在上述步骤中,实体识别与链接知识图谱的处理是将实体识别建模成序列标注问题并采用条件随机场模型进行实现,其中实体链接部分先产生待链接的实体文本片段以及对应的候选实体列表,再使用排序模型对候选实体列表中的每一个候选实体与文本片段结合周边文本以及实体周边信息进行打分,得到最终的链接实体并将其链接到知识图谱相关的节点上;

知识图谱中预先对整个领域知识图谱中的节点和边进行分布式的表示学习并用分布式表示向量来存储,以便结合实体识别与链接模块得到用户问题中的每一个实体的分布式表示向量;

意图理解的处理是利用TextCNN模型建模为多分类问题,将知识图谱数据库中的实体对应的分布式表示向量加入到TextCNN模型的输入中以提升意图理解准确性。

7.根据权利要求6所述的知识图谱赋能的基于信息检索的问答方法,其特征在于,方法还包括在分词和词性标注之前的处理:将用户所输入的问题进行拼写纠错处理。

8.根据权利要求7所述的知识图谱赋能的基于信息检索的问答方法,其特征在于,拼写纠错处理是基于拼写规则和语言模型纠正包括拼音和五笔在内的输入法带来的拼写错误,其中包括先根据用户输入习惯搜集常见的拼写错误并建立拼写规则,产生候选的可能正确的词列表,再使用语言模型对整个问题是否像自然语句进行打分得到最优的结果后将其作为纠错后的问题。

9.根据权利要求6所述的知识图谱赋能的基于信息检索的问答方法,其特征在于,分词和词性标注的处理是采用词典匹配与基于条件随机场的模型进行分词和词性标注。

10.根据权利要求6所述的知识图谱赋能的基于信息检索的问答方法,其特征在于,检索处理所接收的用户问题中包括分词、词性、实体、意图的信息,检索处理过程包括先在对问答对进行索引构建的过程中设置问题、回答、意图、实体的多个字段,每一个字段设置不同的权重,再计算用户问题和索引的问答对之间的相似度并返回相似度高的问答对。

11.一种非临时性计算机可读存储介质,其特征在于,所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当所述一系列可执行的指令被计算装置执行时,使得计算装置进行如权利要求6至10中任一项所述的方法。

12.一种计算设备,其特征在于,包括:

处理器;以及

存储器,所述存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据,其中,当所述一系列计算机可执行的指令被所述处理器执行时,使得所述处理器进行如权利要求6至10中任一项所述的方法。

说明书 :

一种知识图谱赋能的基于信息检索的问答系统和方法

技术领域

[0001] 本发明涉及一种人工智能和自然语言处理领域中的问答系统(Question Answering System,QA System)和方法,具体涉及知识图谱(Knowledge Graph,KG)赋能的基于信息检索(Information Retrieval)的问答系统和方法。

背景技术

[0002] 问答系统是目前人工智能和自然语言处理领域中一个倍受关注并具有广泛发展前景的研究方向。问答系统能用准确、简洁的自然语言回答用户用自然语言提出的问题。
[0003] 在实际应用场景中,存在大量的问答对,例如积累下来的FAQ数据,可以用来作为问答系统的构建基础,在这个领域相对而言只有基于信息检索(Information Retrieval)的问答方法比较适合,它基于成熟的信息检索技术,使得问答系统的实现方便且快速,工程落地性好,同时有着较好的召回效果。
[0004] 然而,现有基于信息检索的问答方法已不能满足用户对信息检索结果精准率日益提高的需求,现有基于信息检索的问答系统(Information Retrieval QA,IRQA)仅仅使用了字面或者语义层面的信息,对于一些常识等知识性信息利用较弱。
[0005] 而知识图谱的出现带来了解决这个问题的契机,知识图谱技术可以更好的赋能认知计算,极大提升认知计算的效果,构建好的知识图谱可用于辅助增强基于信息检索问答系统的功能,弥补其缺陷,提高用户体验。除此之外,和基于知识图谱的问答系统(Knowledge Based QA,KBQA)相比,采用知识图谱赋能的基于信息检索的问答系统应用范围更广,覆盖率更高,不受知识图谱的限制却具备知识图谱带来的高精准率回复,因此提供知识图谱赋能的基于检索的问答系统受到了更为广泛的关注。
[0006] 目前大部分公开的知识图谱都是百科型知识图谱,如zhishi.me、cn-dbpedia等,同时也有部分研究工作利用这些公开的百科知识图谱去赋能通用领域问答系统中的相关模块,如语义理解模块等,并取得了一定的性能提升。
[0007] 然而,目前还没有采用知识图谱赋能基于信息检索问答系统的整体研究,性能提升有限,并且目前通用知识图谱也无法对垂直领域的知识进行很好的覆盖,如政务、基金等领域知识图谱具有领域知识强相关的特性,现有的基于信息检索的问答技术并不能顺畅对接领域知识图谱。
[0008] 总的来说,目前市面上基于信息检索的问答系统具有如下缺陷:
[0009] (1)目前已有研究工作主要是利用构建好的通用知识图谱赋能基于信息检索问答系统中的语义信息模块,如意图识别模块,没有对基于信息检索的问答系统进行整体赋能,问答性能提升有限。
[0010] (2)目前公开的基于信息检索的问答系统,主要是对问答对,通过lucene、solr或者elastic-search等建立索引进行信息检索来实现问答,知识图谱赋能的模块也只是针对通用领域的知识,没有发现能够很好融入领域知识图谱的基于信息检索的问答系统。
[0011] 因此,目前采用基于信息检索的问答系统以及采用通用知识图谱赋能问答系统部分模块的方式都很难实现令人满意的问答任务,市场上急需采用知识图谱赋能的基于信息检索的问答系统。

发明内容

[0012] 以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
[0013] 本发明的目的在于解决上述问题,提供了一种知识图谱赋能的基于信息检索的问答系统和方法,整体提升系统的问答效果,不仅适用于通用知识的问答任务,也适用于领域知识的用户查询,扩大了用户的咨询范围并提升了问题反馈的准确程度。
[0014] 本发明的技术方案为:本发明揭示了一种知识图谱赋能的基于信息检索的问答系统,包括分词和词性标注模块、实体识别与链接模块、意图理解模块、检索模块、排序模块、语义匹配模块、知识图谱数据库,其中:
[0015] 知识图谱数据库,存储领域知识图谱的信息,其中知识图谱的信息包括知识图谱的节点、节点与实体的链接关系及其分布式表示向量;
[0016] 分词和词性标注模块,连接知识图谱数据库,将用户问题进行分词并对每一个词进行词性标注;
[0017] 实体识别与链接模块,连接分词和词性标注模块、知识图谱数据库,将经过分词和词性标注后的用户问题中的实体进行识别,并且将识别出的实体链接到知识图谱数据库中的知识图谱的相关节点上;
[0018] 意图理解模块,连接实体识别与链接模块、知识图谱数据库,基于实体识别与链接模块的实体链接结果以及知识图谱数据库中的实体的分布式表示向量得到用户问题的意图理解结果;
[0019] 检索模块,连接意图理解模块,基于包括多问答对的检索数据源,根据用户问题中的信息检索出对应的多个问答对作为粗选结果;
[0020] 排序模块,连接检索模块和知识图谱数据库,利用知识图谱数据库的实体的分布式表示向量对检索模块输出的粗选结果进行重排序;
[0021] 语义匹配模块,连接语义匹配模块和知识图谱数据库,利用知识图谱数据库的实体的分布式表示向量对排序模块的重排序结果进行打分并最终输出用户问题相应的答案。
[0022] 根据本发明的知识图谱赋能的基于信息检索的问答系统的一实施例,系统还包括:
[0023] 拼写纠错模块,拼写纠错模块的输出端连接分词和词性标注模块,用于将用户所输入的问题进行拼写纠错后输出为纠错后的问题,并将纠错后的问题输出至分词和词性标注模块。
[0024] 根据本发明的知识图谱赋能的基于信息检索的问答系统的一实施例,拼写纠错模块基于拼写规则和语言模型纠正包括拼音和五笔在内的输入法带来的拼写错误,其中根据用户输入习惯搜集常见的拼写错误并建立拼写规则,产生候选的可能正确的词列表,再使用语言模型对整个问题是否像自然语句进行打分得到最优的结果后将其作为纠错后的问题。
[0025] 根据本发明的知识图谱赋能的基于信息检索的问答系统的一实施例,分词和词性标注模块采用词典匹配与基于条件随机场的模型进行分词和词性标注。
[0026] 根据本发明的知识图谱赋能的基于信息检索的问答系统的一实施例,实体识别与链接模块将实体识别建模成序列标注问题并采用条件随机场模型(CRF)来进行实现,其中实体链接部分先产生待链接的实体文本片段以及对应的候选实体列表,再使用排序模型对候选实体列表中的每一个候选实体与文本片段结合周边文本以及实体周边信息进行打分,得到最终的链接实体并将其链接到知识图谱数据库中相关的节点上。
[0027] 根据本发明的知识图谱赋能的基于信息检索的问答系统的一实施例,知识图谱数据库中预先对整个领域知识图谱中的节点和边进行分布式的表示学习,并用分布式表示向量来存储,以便结合实体识别与链接模块得到用户问题中的每一个实体的分布式表示向量。
[0028] 根据本发明的知识图谱赋能的基于信息检索的问答系统的一实施例,意图理解模块利用TextCNN模型建模为多分类问题,将知识图谱数据库中的实体对应的分布式表示向量加入到TextCNN模型的输入中以提升意图理解准确性。
[0029] 根据本发明的知识图谱赋能的基于信息检索的问答系统的一实施例,检索模块接收的用户问题中包括分词、词性、实体、意图的信息,先在对问答对进行索引构建的过程中设置问题、回答、意图、实体的多个字段,每一个字段设置不同的权重,再计算用户问题和索引的问答对之间的相似度并返回相似度高的问答对。
[0030] 本发明还揭示了一种知识图谱赋能的基于信息检索的问答方法,包括:
[0031] 将用户问题进行分词并对每一个词进行词性标注;
[0032] 将经过分词和词性标注后的用户问题中的实体进行识别,并且将识别出的实体链接到知识图谱的相关节点上;
[0033] 基于实体链接结果以及知识图谱中的实体的分布式表示向量得到用户问题的意图理解结果;
[0034] 基于包括多问答对的检索数据源,根据用户问题中的信息检索出对应的多个问答对作为粗选结果;
[0035] 利用知识图谱的实体的分布式表示向量对粗选结果进行重排序;
[0036] 利用知识图谱的实体的分布式表示向量对重排序结果进行打分并最终输出用户问题相应的答案。
[0037] 根据本发明的知识图谱赋能的基于信息检索的问答方法的一实施例,方法还包括在分词和词性标注之前的处理:
[0038] 将用户所输入的问题进行拼写纠错处理。
[0039] 根据本发明的知识图谱赋能的基于信息检索的问答方法的一实施例,拼写纠错处理是基于拼写规则和语言模型纠正包括拼音和五笔在内的输入法带来的拼写错误,其中包括先根据用户输入习惯搜集常见的拼写错误并建立拼写规则,产生候选的可能正确的词列表,再使用语言模型对整个问题是否像自然语句进行打分得到最优的结果后将其作为纠错后的问题。
[0040] 根据本发明的知识图谱赋能的基于信息检索的问答方法的一实施例,分词和词性标注的处理是采用词典匹配与基于条件随机场的模型进行分词和词性标注。
[0041] 根据本发明的知识图谱赋能的基于信息检索的问答方法的一实施例,实体识别与链接知识图谱的处理是将实体识别建模成序列标注问题并采用条件随机场模型进行实现,其中实体链接部分先产生待链接的实体文本片段以及对应的候选实体列表,再使用排序模型对候选实体列表中的每一个候选实体与文本片段结合周边文本以及实体周边信息进行打分,得到最终的链接实体并将其链接到知识图谱相关的节点上。
[0042] 根据本发明的知识图谱赋能的基于信息检索的问答方法的一实施例,知识图谱中预先对整个领域知识图谱中的节点和边进行分布式的表示学习并用分布式表示向量来存储,以便结合实体识别与链接模块得到用户问题中的每一个实体的分布式表示向量。
[0043] 根据本发明的知识图谱赋能的基于信息检索的问答方法的一实施例,意图理解的处理是利用TextCNN模型建模为多分类问题,将知识图谱数据库中的实体对应的分布式表示向量加入到TextCNN模型的输入中以提升意图理解准确性。
[0044] 根据本发明的知识图谱赋能的基于信息检索的问答方法的一实施例,检索处理所接收的用户问题中包括分词、词性、实体、意图的信息,检索处理过程包括先在对问答对进行索引构建的过程中设置问题、回答、意图、实体的多个字段,每一个字段设置不同的权重,再计算用户问题和索引的问答对之间的相似度并返回相似度高的问答对。
[0045] 本发明揭示了一种非临时性计算机可读存储介质,所述非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当所述一系列可执行的指令被计算装置执行时,使得计算装置进行如前所述的方法。
[0046] 本发明还揭示了一种计算设备,包括:
[0047] 处理器;以及
[0048] 存储器,所述存储器被配置为存储一系列计算机可执行的指令以及与所述一系列计算机可执行的指令相关联的计算机可访问的数据,
[0049] 其中,当所述一系列计算机可执行的指令被所述处理器执行时,使得所述处理器进行如前述的方法。
[0050] 本发明对比现有技术有如下的有益效果:本发明的系统包括了拼写纠错模块、分词和词性标注模块、实体识别与链接模块、意图理解模块、检索模块、排序模块、语义匹配模块、知识图谱数据库。本发明在基于信息检索问答方法的整体框架下,提出一种可以很好的结合信息检索和知识图谱技术的方法,并将该方法进行问答系统实现。本发明的系统采用知识图谱赋能基于信息检索问答系统中的诸多相关语义信息模块,如意图理解模块、排序模块和语义匹配模块等,整体提升了系统的问答效果。此外,本发明的系统既采用通用知识图谱赋能又采用领域知识图谱赋能,提升了问答的准确程度。

附图说明

[0051] 在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
[0052] 图1示出了本发明的知识图谱赋能的基于信息检索的问答系统的一实施例的原理结构。
[0053] 图2示出了本发明的知识图谱赋能的基于信息检索的问答方法的一实施例的流程图。
[0054] 图3示出了本发明的问答系统中的意图理解模块的TextCNN网络模型的结构示意图。

具体实施方式

[0055] 以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
[0056] 图1示出了本发明的知识图谱赋能的基于信息检索的问答系统的一实施例的原理结构,请参见图1,本实施例的问答系统包括:拼写纠错模块、分词和词性标注模块、实体识别与链接模块、意图理解模块、检索模块、排序模块、语义匹配模块和知识图谱数据库。
[0057] 知识图谱数据库中的知识图谱赋能问答系统中的意图理解模块、排序模块和语义匹配模块。
[0058] 拼写纠错模块的输入为用户所输入的问题,输出为纠错后的问题,拼写纠错模块的输出端连接分词和词性标注模块的输入端。分词和词性标注模块的输入为拼写纠错模块所输出的纠错后的问题,输出为分词、词性标注的问题,分词和词性标注模块的输出端连接实体识别与链接模块的输入端。实体识别与链接模块的输入为分词和词性标注模块所输出的分词、词性标注的问题,输出为实体链接结果的问题,实体识别与链接模块的输出端分别连接知识图谱数据库和意图理解模块。意图理解模块的输入为实体链接结果的问题和知识图谱数据(实体的分布式表示),输出为意图理解结果的问题,意图理解模块的输出端连接检索模块。检索模块的输入为意图理解结果的问题,输出为粗选结果,检索模块的输出端连接排序模块。排序模块的输入为粗选结果和知识图谱数据(实体的分布式表示),输出为重排序结果,排序模块的输出端连接语义匹配模块。语义匹配模块的输入为重排序结果和知识图谱数据(实体的分布式表示),输出为最终答案。
[0059] 系统的运行流程简述如下。
[0060] 首先通过拼写纠错模块对用户的问题做纠错,然后通过分词和词性标注模块获得用户问题的分词和词性,通过实体识别与链接模块识别到用户问题中的实体并将该实体链接到知识图谱中的节点上,并获得该实体在知识图谱中提前训练好的分布式表示(distributed representation),实体的分布式表示会在意图理解模块、排序模块和语义匹配模块被用到。然后通过意图理解模块获得用户问题对应的用户意图,通过检索模块获得粗选的结果,通过排序模块对粗选的结果进行重排序,最后通过语义匹配模块对结果进行打分,最终返回给用户相应的答案。
[0061] 针对问答系统的各个模块的功能,下面以政务领域的用户输入问题“高新企业认定要在那里办理”为例分别进行说明。
[0062] 拼写纠错模块是系统的第一个模块,该模块并不是问答系统中必须的模块,但是有了该模块可以使问答系统达到更好的效果。通常用户的输入会包含拼写错误,拼写纠错模块用于将用户的拼写错误进行纠正,以使进入后续流程的输入是正确的。本实施例中的拼写纠错模块由拼写规则和语言模型实现,纠正各输入法(拼音、五笔等)带来的拼写错误。模块具体的实现是根据用户输入的习惯搜集常见的拼写错误(如“哪里”与“那里”,‘r’与‘n’,前后鼻音等)建立拼写规则,产生候选的可能正确的词列表,然后使用语言模型对整个问题是否像自然语句进行打分得到最优的结果作为纠错后的问题。拼写纠错模块作为系统的入口,其对用户输入的纠错对后续的流程有重要的作用,正确的问题输入对整个系统的性能有强有力的保证。例如,拼写纠错模块会将用户输入的问题修正为“高新企业认定要在哪里办理”。
[0063] 分词和词性标注模块的输入是拼写纠错模块所输出的纠错后的问题。分词和词性标注模块是本发明的问答系统中比不可少的模块。对于中文问题,需要分词得到词并对每一个词进行词性标注,从而更好的理解用户的问题。例如,“高新企业认定要在哪里办理”的分词与词性标注结果为“高新企业认定/n要/vr在/v哪里/r办理/v”,其中v为动词,n是名词,r为代词,vr为能愿动词。本实施例的分词和词性标注模块采用词典匹配与基于条件随机场的模型实现。模块将输入的问题建模为序列标注问题,使用词典匹配的方式具有精度高,速度快的优势,而基于条件随机场的模型能够有效的限制标注序列之间的约束,融合两种方式可以在有效提高分词和词性标注模块的性能。
[0064] 知识图谱数据库存储领域知识图谱,也可以存储通用知识图谱。
[0065] 实体识别与链接模块接收分词和词性标注模块所输出的分词、词性标注的问题,用于将问题中的实体(包括时间、地点、机构或领域相关的实体)进行识别,并且链接到知识图谱数据库中相关的节点上,链接完成后通过知识图谱中该节点的信息以及周边的节点信息加深对用户输入的语义理解。
[0066] 在本实施例的系统中,实体识别与链接模块将实体识别建模成序列标注问题,并采用条件随机场模型(CRF)来进行实现。实体链接部分先产生待链接的实体文本片段以及对应的可能的实体列表,使用排序模型对实体列表中的每一个候选实体与文本片段结合周边文本以及实体周边信息进行打分,得到最终的链接实体(或无)。
[0067] 例如,对于输入问题“苹果是水果吗?”,实体识别与链接模块对“苹果”形成两个候选实体:<苹果,苹果公司>,通过排序模型最终链接到“苹果”。对于输入“高新企业认定要去哪里办理”,实体识别与链接模块将“高新企业认定”链接到政务知识图谱中的节点上。在本实施例的系统中,使用pointwise的排序方式并基于xgboost方法来实现实体链接中的排序。
[0068] 在知识图谱数据库的领域知识图谱中,使用TransE方法事先对整个知识图谱中的节点和边进行了分布式的表示学习,并用100维的向量来存储。在实体链接后得到出现在用户问题中每一个实体的100维的向量表示。该向量表示在后续的意图理解模块、排序模块和语义匹配模块中均会被用到。
[0069] 上述的分词与词性标注模块以及实体识别从本质上来讲都属于结构预测(Structure Prediction)问题,在本发明中,对于它们的实现并不做特别的限制,除了本发明中使用的方法外,基于规则的方法,基于隐马尔可夫模型(HMM)的方法、基于条件随机场(CRF)的方法以及基于深度学习的方法都可以使用。
[0070] 意图理解模块接收实体识别与链接模块所输出的实体链接结果的问题。意图理解模块中建模一个多分类问题,并利用TextCNN来实现。例如,用户问题为“高新企业认定要去哪里办理”,会得到这句话的意图为“咨询办理地点”。
[0071] 值得一提的是,本实施例的意图理解模块将识别出的实体对应的分布式表示向量加到了TextCNN的输入中,如图3所示。在图3中,n表示句子分词后的长度,n'表示实体的个数,h为向量的维度(例如设置向量的纬度h为100),k为卷积窗口大小(例如设置卷积窗口大小k=2,3,4,5),在本实施例中使用预训练的word2vec来对用户句子中的词进行表示。
[0072] 本实施例中使用的TextCNN网络结构为一层卷积层,一层max-pooling层,两层全连接层,最后是softmax层。对于用户问题“高新企业认定要去哪里办理”,经过实体识别与链接模块识别出事项实体“高新企业认定”,且链接到知识图谱中“高新企业认定办理”的事项节点上,并得到预先训练好的关于该实体节点的100维分布式表示向量,即n′=1。用户问题“高新企业认定要在哪里办理”经过分词和词性标注模块之后得到“高新企业认定/n要vr在/v哪里/r办理/v”分词结果,其中v为动词,n是名词,r为代词,vr为能愿动词,进而n=6,并从预先训练好的word2vec词向量中找到每个词的100维向量表示。最后经过TextCNN模型的训练,得到TextCNN的一组最优参数用来预测。
[0073] 经过实验发现,引入领域知识图谱中实体的分布式表示向量可以取得1%左右F1值(F1-score)的提升。
[0074] 除此方法之外,本发明还可以对每一个词向量拼接上这个词作为实体在知识图谱中预训练好的分布式向量表示,如果该词不是实体,那么用零向量来拼接。这种方法使得实体预训练好的分布式向量维度和词向量维度不必一致。在实验中尝试了实体向量维度为50、100、200、500的情况,并发现在这种方法下,实体维度为50的效果最好,可以取得0.9%的F1值提升。
[0075] 检索模块的输入是意图理解模块输出的作为意图理解结果的用户问题,包括用户问题句子中的分词、词性、实体、意图等信息。信息检索的数据为问答对,此问答对来源为FAQ(问答对)以及人工整理的一些FAQ未覆盖到的问答对。在本实施例的系统中,使用elastic search来对问答对进行索引的构建,并设置问题、回答、意图、实体等多个Field(字段),每一个Field会设置不同的权重。问题和回答Field属于字面层面信息,意图和实体Field属于语义层面信息,问题和回答Field的权重会设置的比较大,以检索出字面上更相近的问答对;意图和实体Field的权重会设置的较小,意图和实体的引入使得检索时能融入一定语义信息,进而提升检索效果。采用BM25F来计算用户问题和索引的问答对之间的相似度,并返回和用户输入问题最接近的前50个问答对。例如,用户问题“高新企业认定要去哪里办理”,检索模块会检索出“高新企业认定办理地点”、“高新企业认定办理时间”、“高新企业认定可以去哪些地方办理”等问答对。
[0076] 排序模块接收检索模块输出的粗选结果,利用更多的特征,结合相应的训练数据,对检索模块的粗选结果进行重排序。本实施例的排序模块是基于pairwise的排序方式,采用xgboost方法来对检索模块的结果进行重排序。在本实施例中,基于q-q rank来构建特征,采用字面特征:unigram、bigram、trigram、tf-idf等信息,语义特征:意图类别、实体类型、实体的分布式表示向量等特征,领域特征:领域词等特征,其他特征:句子长度、业务特征等。和传统问答系统中的排序模块相比,本发明通过领域知识图谱引入了实体的分布式表示特征,这一特征的加入使得排序模块融入了更多的知识信息。在效果方面,通过领域知识图谱引入了实体的分布式表示特使得precision提高0.8%左右,可见领域知识图谱对问答系统中排序模块性能提升具有十分重要的作用。例如用户问题“高新企业认定要去哪里办理”,排序模块对检索结果重排序得出“高新企业认定办理地点”,“高新企业认定可以去哪些地方办理”,“高新企业认定办理时间”等问答对顺序。
[0077] 排序模块属于排序(ranking)问题,在本发明中,对于它的实现并不做特别的限制,除了本发明中使用的方法外,还可以使用基于随机森林的方法、基于GDBT的方法,基于深度学习的方法等。
[0078] 语义匹配模块接收排序模块输出的重排序结果,用于对每一个检索出来的问答对进行0-1之间打分,该分值用来判断是否该将相应问答对回复给用户。本实施例将语义匹配建模成matching问题,使用xgboost基于q-q match来进行实现。在特征构建方面,采用排序模块中提到的全部特征,除此之外,将排序位置信息也作为一种特征加入进去。和传统问答系统中的语义匹配模块相比,本发明通过领域知识图谱引入了实体的分布式表示特征,这一特征的加入使得语义匹配模块融入了更多的知识信息。在效果方面,通过领域知识图谱引入的实体的分布式表示向量对precision提高0.95%左右,可见领域知识图谱对问答系统中语义匹配模块性能提升具有十分重要的作用。例如用户问题“高新企业认定要去哪里办理”,语义匹配模块得出的得分为“高新企业认定办理地点”:0.90,“高新企业认定可以去哪些地方办理”:0.86,“高新企业认定办理时间”:0.42等。本实施例的回复阈值设置为0.75,如果top1问答对的得分超过该阈值,则将该问答对作为最终答案回复给用户,否则回复兜底话术给用户,在该例中会将“高新企业认定办理地点”对应的答案回复出去。
[0079] 语义匹配模块属于匹配(matching)问题,在本发明中,对于它的实现并不做特别的限制,除了本发明中使用的方法外,还可以使用基于随机森林的方法、基于GDBT的方法,基于LR的方法,基于深度学习的方法等。
[0080] 图2示出了本发明的知识图谱赋能的基于信息检索的问答方法的一实施例的流程。请参见图2,本实施例的问答方法的实施步骤详述如下。
[0081] 步骤S1:将用户所输入的问题进行拼写纠错处理。
[0082] 在本步骤中,拼写纠错处理是基于拼写规则和语言模型纠正包括拼音和五笔在内的输入法带来的拼写错误,其中包括先根据用户输入习惯搜集常见的拼写错误并建立拼写规则,产生候选的可能正确的词列表,再使用语言模型对整个问题是否像自然语句进行打分得到最优的结果后将其作为纠错后的问题。这一步骤对于本发明来说是非必要的优化效果的步骤。
[0083] 步骤S2:将用户问题进行分词并对每一个词进行词性标注。
[0084] 在本步骤中,分词和词性标注的处理是采用词典匹配与基于条件随机场的模型进行分词和词性标注。
[0085] 步骤S3:将经过分词和词性标注后的用户问题中的实体进行识别,并且将识别出的实体链接到知识图谱的相关节点上。
[0086] 在本步骤中,实体识别与链接知识图谱的处理是将实体识别建模成序列标注问题并采用条件随机场模型进行实现,其中实体链接部分先产生待链接的实体文本片段以及对应的候选实体列表,再使用排序模型对候选实体列表中的每一个候选实体与文本片段结合周边文本以及实体周边信息进行打分,得到最终的链接实体并将其链接到知识图谱相关的节点上。
[0087] 知识图谱中预先对整个领域知识图谱中的节点和边进行分布式的表示学习并用分布式表示向量来存储,以便结合实体识别与链接模块得到用户问题中的每一个实体的分布式表示向量。
[0088] 步骤S4:基于实体链接结果以及知识图谱中的实体的分布式表示向量得到用户问题的意图理解结果。
[0089] 在本步骤中,意图理解的处理是利用TextCNN模型建模为多分类问题,将知识图谱数据库中的实体对应的分布式表示向量加入到TextCNN模型的输入中以提升意图理解准确性。
[0090] 步骤S5:基于包括多问答对的检索数据源,根据用户问题中的信息检索出对应的多个问答对作为粗选结果。
[0091] 在本步骤中,检索处理所接收的用户问题中包括分词、词性、实体、意图的信息,检索处理过程包括先在对问答对进行索引构建的过程中设置问题、回答、意图、实体的多个字段,每一个字段设置不同的权重,再计算用户问题和索引的问答对之间的相似度并返回相似度高的问答对。
[0092] 步骤S6:利用知识图谱的实体的分布式表示向量对粗选结果进行重排序。
[0093] 步骤S7:利用知识图谱的实体的分布式表示向量对重排序结果进行打分并最终输出用户问题相应的答案。
[0094] 此外,本发明还公开了一种非临时性计算机可读存储介质,非临时性计算机可读存储介质上存储有一系列计算机可执行的指令,当这一系列可执行的指令被计算装置执行时,使得计算装置进行如图2所示实施例的方法。方法的具体实施步骤不再赘述。
[0095] 本发明还公开了一种计算设备,包括处理器以及存储器,存储器被配置为存储一系列计算机可执行的指令以及与这一系列计算机可执行的指令相关联的计算机可访问的数据。当这一系列计算机可执行的指令被这一处理器执行时,使得这一处理器进行如图2所示实施例的方法。方法的具体实施步骤不再赘述。
[0096] 综上,本发明具有如下的创新点:
[0097] 1.在信息检索的整体框架下,提出一种可以很好的结合信息检索和知识图谱技术的方法,并将该方法进行问答系统实现。
[0098] 2.在检索模块中,除了常用的问题和答案Field,还引入了意图Field、实体Field等知识性的Field,在检索模块中更好的引入了语义信息,提升了召回率。
[0099] 3.在意图识别模块中,通过领域知识图谱,引入了实体的分布式表示,使得F1-score提升了1%左右。
[0100] 4.在排序模块中,通过领域知识图谱,引入的实体的分布式表示等特征,使得Precision提高了0.8%左右。
[0101] 5.在语义匹配模块中,通过领域知识图谱,引入的实体的分布式表示等特征,使得Precision提高了0.95%左右。
[0102] 尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。
[0103] 本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
[0104] 结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
[0105] 结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
[0106] 在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。
[0107] 提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。