一种知识获取方法及装置转让专利

申请号 : CN202211241382.8

文献号 : CN115309870B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 袁泉龙海涛张嘉益

申请人 : 启元世界(北京)信息技术服务有限公司

摘要 :

本申请公开了一种知识获取方法及装置。该方法包括:响应于针对目标知识的查询请求,基于目标知识的知识图谱,确定目标知识的第一三元组;知识图谱预先基于目标知识关联的第一文本信息构建;根据查询请求,确定目标知识关联的第二文本信息;基于第一三元组和第二文本信息,生成目标知识的第二三元组。这样,通过获取目标知识的第一三元组,并以目标知识关联的第二文本信息和该第一三元组生成第二三元组,便可得到符合第二文本信息描述的知识,使得无需构建新的知识图谱即可简单、方便地获取新的知识,从而降低操作复杂度和成本。

权利要求 :

1.一种知识获取方法,其特征在于,包括:

响应于针对目标知识的查询请求,基于所述目标知识的知识图谱,确定所述目标知识的第一三元组;所述知识图谱预先基于所述目标知识关联的第一文本信息构建;

根据所述查询请求,确定所述目标知识关联的第二文本信息;

基于所述第一三元组和所述第二文本信息,生成所述目标知识的第二三元组;

其中,所述基于所述第一三元组和所述第二文本信息,生成所述目标知识的第二三元组,包括:基于所述第二文本信息更新所述第一三元组,得到所述第二三元组;

所述基于所述第二文本信息更新所述第一三元组,得到所述第二三元组,包括:将所述第一三元组和所述第二文本信息输入至语言适配模型;所述语言适配模型用于将文本信息与三元组进行适配;

获取所述语言适配模型输出的所述第二三元组。

2.根据权利要求1所述的方法,其特征在于,所述语言适配模型通过如下步骤获取:获取用于训练初始模型的样本数据;所述初始模型用于将文本信息与三元组进行适配;

在所述初始模型不满足预设条件时,基于所述样本数据继续训练所述初始模型,直至所述初始模型满足所述预设条件而得到所述语言适配模型。

3.根据权利要求1或2所述的方法,其特征在于,所述根据所述查询请求,确定所述目标知识关联的第二文本信息,包括:获取文本信息库;所述文本信息库中保存有除所述第一文本信息之外的多个文本信息;

根据所述查询请求,从所述文本信息库中检索所述目标知识关联的文本信息,作为所述第二文本信息。

4.一种知识获取装置,其特征在于,包括:

第一三元组确定模块,用于响应于针对目标知识的查询请求,基于所述目标知识的知识图谱,确定所述目标知识的第一三元组;所述知识图谱预先基于所述目标知识关联的第一文本信息构建;

第二文本信息确定模块,用于根据所述查询请求,确定所述目标知识关联的第二文本信息;

第二三元组生成模块,用于基于所述第一三元组和所述第二文本信息,生成所述目标知识的第二三元组;

其中,所述第二三元组生成模块,包括:

第一三元组更新模块,用于基于所述第二文本信息更新所述第一三元组,得到所述第二三元组;

所述第一三元组更新模块,包括:

语言适配模块,用于将所述第一三元组和所述第二文本信息输入至语言适配模型;所述语言适配模型用于将文本信息与三元组进行适配;

第二三元组获取模块,用于获取所述语言适配模型输出的所述第二三元组。

5.根据权利要求4所述的装置,其特征在于,所述语言适配模型通过如下模块获取:样本数据获取模块,用于获取用于训练初始模型的样本数据;所述初始模型用于将文本信息与三元组进行适配;

初始模型训练模块,用于在所述初始模型不满足预设条件时,基于所述样本数据继续训练所述初始模型,直至所述初始模型满足所述预设条件而得到所述语言适配模型。

6.根据权利要求4或5所述的装置,其特征在于,所述第二文本信息确定模块,包括:文本信息库获取模块,用于获取文本信息库;所述文本信息库中保存有除所述第一文本信息之外的多个文本信息;

文本信息检索模块,用于根据所述查询请求,从所述文本信息库中检索所述目标知识关联的文本信息,作为所述第二文本信息。

说明书 :

一种知识获取方法及装置

技术领域

[0001] 本申请涉及大数据技术领域,尤其涉及一种知识获取方法及装置。

背景技术

[0002] 知识图谱是一种展示知识发展进程与结构关系的图形,其用可视化技术描述知识资源及其载体,可以挖掘、分析、构建、绘制并显示知识以及知识之间的相互联系。目前,已有的知识图谱普遍是基于预先设定的世界观构建,知识图谱构建完成之后,利用该知识图谱便只能得到该世界观下的知识。
[0003] 举例来说,预先设定的世界观是真实世界观,那么基于该真实世界观构建出的知识图谱,可以得到“人类的平均寿命是80岁”这一知识。然而,如果某些小说的虚拟世界观中设定“人类的平均寿命是200岁”,那么利用已有的知识图谱就难以得到“人类的平均寿命是200岁”这一知识。在这种情况下,只能先基于该虚拟世界观构建新的知识图谱,再通过新的知识图谱获取上述新的知识,因此,操作复杂繁琐,成本较高。

发明内容

[0004] 本申请实施例提供了一种知识获取方法及装置,无需构建新的知识图谱即可简单、方便地获取新的知识。
[0005] 第一方面,本申请实施例提供了一种知识获取方法,包括:
[0006] 响应于针对目标知识的查询请求,基于所述目标知识的知识图谱,确定所述目标知识的第一三元组;所述知识图谱预先基于所述目标知识关联的第一文本信息构建;
[0007] 根据所述查询请求,确定所述目标知识关联的第二文本信息;
[0008] 基于所述第一三元组和所述第二文本信息,生成所述目标知识的第二三元组。
[0009] 可选地,所述基于所述第一三元组和所述第二文本信息,生成所述目标知识的第二三元组,包括:
[0010] 基于所述第二文本信息更新所述第一三元组,得到所述第二三元组。
[0011] 可选地,所述基于所述第二文本信息更新所述第一三元组,得到所述第二三元组,包括:
[0012] 将所述第一三元组和所述第二文本信息输入至语言适配模型;所述语言适配模型用于将文本信息与三元组进行适配;
[0013] 获取所述语言适配模型输出的所述第二三元组。
[0014] 可选地,所述语言适配模型通过如下步骤获取:
[0015] 获取用于训练初始模型的样本数据;所述初始模型用于将文本信息与三元组进行适配;
[0016] 基于所述样本数据训练所述初始模型,直至所述初始模型满足预设条件,得到所述语言适配模型。
[0017] 可选地,所述根据所述查询请求,确定所述目标知识关联的第二文本信息,包括:
[0018] 获取文本信息库;所述文本信息库中保存有除所述第一文本信息之外的多个文本信息;
[0019] 根据所述查询请求,从所述文本信息库中检索所述目标知识关联的文本信息,作为所述第二文本信息。
[0020] 第二方面,本申请实施例提供了一种知识获取装置,包括:
[0021] 第一三元组确定模块,用于响应于针对目标知识的查询请求,基于所述目标知识的知识图谱,确定所述目标知识的第一三元组;所述知识图谱预先基于所述目标知识关联的第一文本信息构建;
[0022] 第二文本信息确定模块,用于根据所述查询请求,确定所述目标知识关联的第二文本信息;
[0023] 第二三元组生成模块,用于基于所述第一三元组和所述第二文本信息,生成所述目标知识的第二三元组。
[0024] 可选地,所述第二三元组生成模块,包括:
[0025] 第一三元组更新模块,用于基于所述第二文本信息更新所述第一三元组,得到所述第二三元组。
[0026] 可选地,所述第一三元组更新模块,包括:
[0027] 语言适配模块,用于将所述第一三元组和所述第二文本信息输入至语言适配模型;所述语言适配模型用于将文本信息与三元组进行适配;
[0028] 第二三元组获取模块,用于获取所述语言适配模型输出的所述第二三元组。
[0029] 可选地,所述语言适配模型通过如下模块获取:
[0030] 样本数据获取模块,用于获取用于训练初始模型的样本数据;所述初始模型用于将文本信息与三元组进行适配;
[0031] 初始模型训练模块,用于基于所述样本数据训练所述初始模型,直至所述初始模型满足预设条件,得到所述语言适配模型。
[0032] 可选地,所述第二文本信息确定模块,包括:
[0033] 文本信息库获取模块,用于获取文本信息库;所述文本信息库中保存有除所述第一文本信息之外的多个文本信息;
[0034] 文本信息检索模块,用于根据所述查询请求,从所述文本信息库中检索所述目标知识关联的文本信息,作为所述第二文本信息。
[0035] 从以上技术方案可以看出,本申请实施例具有以下优点:
[0036] 本申请实施例中,响应于针对目标知识的查询请求,可以基于目标知识的知识图谱,确定目标知识的第一三元组,并根据查询请求,确定目标知识关联的第二文本信息,而后可以基于第一三元组和第二文本信息,生成目标知识的第二三元组。其中,该知识图谱预先基于目标知识关联的第一文本信息构建。这样,通过获取目标知识的第一三元组,并以目标知识关联的第二文本信息和该第一三元组生成第二三元组,便可得到符合第二文本信息描述的知识,使得无需构建新的知识图谱即可简单、方便地获取新的知识,从而降低操作复杂度和成本。

附图说明

[0037] 图1为本申请实施例提供的一种知识获取方法的流程图;
[0038] 图2为本申请实施例提供的另一种知识获取方法的流程图;
[0039] 图3为本申请实施例提供的一种知识获取装置的结构示意图。

具体实施方式

[0040] 正如前文所述,发明人在针对知识图谱的研究中发现:目前,已有的知识图谱普遍是基于预先设定的世界观构建,知识图谱构建完成之后,利用该知识图谱便只能得到该世界观下的知识。举例来说,预先设定的世界观是真实世界观,那么基于该真实世界观构建出的知识图谱,可以得到“人类的平均寿命是80岁”这一知识。然而,如果某些小说的虚拟世界观中设定“人类的平均寿命是200岁”,那么利用已有的知识图谱就难以得到“人类的平均寿命是200岁”这一知识。在这种情况下,只能先基于该虚拟世界观构建新的知识图谱,再通过新的知识图谱获取上述新的知识,因此,操作复杂繁琐,成本较高。
[0041] 为了解决上述问题,本申请实施例提供了一种知识获取方法,该方法可以包括:响应于针对目标知识的查询请求,可以基于目标知识的知识图谱,确定目标知识的第一三元组,并根据查询请求,确定目标知识关联的第二文本信息,而后可以基于第一三元组和第二文本信息,生成目标知识的第二三元组。其中,该知识图谱预先基于目标知识关联的第一文本信息构建。
[0042] 这样,通过获取目标知识的第一三元组,并以目标知识关联的第二文本信息和该第一三元组生成第二三元组,便可得到符合第二文本信息描述的知识,使得无需构建新的知识图谱即可简单、方便地获取新的知识,从而降低操作复杂度和成本。
[0043] 为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0044] 图1为本申请实施例提供的一种知识获取方法的流程图。结合图1所示,本申请实施例提供的知识获取方法,可以包括:
[0045] S101:响应于针对目标知识的查询请求,基于目标知识的知识图谱,确定目标知识的第一三元组。
[0046] 在本申请实施例中,该知识图谱可以预先基于目标知识关联的第一文本信息构建。如此,当需要针对目标知识进行查询时,便可从知识图谱中获取第一三元组。相应地,第一三元组可以包括该目标知识关联的第一实体、第二实体,以及第一实体和第二实体的关系。
[0047] S102:根据查询请求,确定目标知识关联的第二文本信息。
[0048] 举例来说,在实际应用中,第一文本信息可以是真实世界观所对应的常识文本信息,第二文本信息可以是某个小说或游戏情节设定的虚拟世界观所对应的文本信息。另外,本申请实施例对于第二文本信息的确定过程,也就是S102可不做具体限定。为了便于理解,下面提供一种可能的实施方式进行说明。
[0049] 在一种可能的实施方式中,S102具体可以包括:获取文本信息库;文本信息库中保存有除第一文本信息之外的多个文本信息;根据查询请求,从文本信息库中检索目标知识关联的文本信息,作为第二文本信息。结合上述真实世界观和虚拟世界观的示例,文本信息库可以体现为小说和/或游戏情节对应的文本信息库,库中保存有该小说和/或游戏情节中除常识文本信息之外的文本信息。如此,通过对该文本信息库进行检索,便可得到与目标知识相关的第二文本信息。
[0050] 另外,本申请实施例亦可不对文本信息库的获取方式进行限定。例如,文本信息库可以保存于该知识获取方法的执行主体(例如终端设备、服务器等数据处理设备),在需要确定第二文本信息时,通过本地读取的方式获取文本信息库。又如,文本信息库可以保存于其他数据存储服务器,该知识获取方法的执行主体可以在需要时,通过访问数据存储服务器的方式获取文本信息库。
[0051] S103:基于第一三元组和第二文本信息,生成目标知识的第二三元组。
[0052] 对于第二三元组的生成过程,这里可不做具体限定。为了便于理解,本申请实施例提供了一种可能的实施方式,技术详情请参见下文实施例所做的介绍。
[0053] 在实际应用中,针对目标知识的查询请求例如是查询“人大概可以活多少岁”,则第一文本信息则可以体现为真实世界观中的常识文本信息,知识图谱则可以体现为基于常识的知识图谱。相应地,第一三元组可以表示为(人类,平均寿命,80岁)。其中,“人类”为第一实体,“80岁”为第二实体,“平均寿命”为第一实体和第二实体的关系。第二文本信息可以体现为“在这个精灵大陆上,人类也可以有200年寿命”。进一步地,基于第一三元组和第二文本信息生成的第二三元组,可以表示为(人类,平均寿命,200岁)。
[0054] 基于以上S101‑S103的相关内容可知,本申请实施例中,响应于针对目标知识的查询请求,可以基于目标知识的知识图谱,确定目标知识的第一三元组,并根据查询请求,确定目标知识关联的第二文本信息,而后可以基于第一三元组和第二文本信息,生成目标知识的第二三元组。其中,该知识图谱预先基于目标知识关联的第一文本信息构建。这样,通过获取目标知识的第一三元组,并以目标知识关联的第二文本信息和该第一三元组生成第二三元组,便可得到符合第二文本信息描述的知识,使得无需构建新的知识图谱即可简单、方便地获取新的知识,从而降低操作复杂度和成本。
[0055] 为了得到符合第二文本信息描述的知识,使得无需构建新的知识图谱即可简单、方便地获取新的知识,本申请实施例可以提供另一种知识获取方式,其具体可以包括S201‑S203。下面分别结合实施例和附图进行描述。
[0056] 图2为本申请实施例提供的另一种知识获取方法的流程图。结合图2所示,本申请实施例提供的知识获取方法,可以包括:
[0057] S201:响应于针对目标知识的查询请求,基于目标知识的知识图谱,确定目标知识的第一三元组。
[0058] 在本申请实施例中,S201的相关内容可以参见上述实施例中S101的相关描述,在此不再赘述。
[0059] S102:根据查询请求,确定目标知识关联的第二文本信息。
[0060] 在本申请实施例中,S202的相关内容可以参见上述实施例中S102的相关描述,在此不再赘述。
[0061] S203:基于第二文本信息更新第一三元组,得到第二三元组。
[0062] 对于第一三元组的更新过程,也就是S203,本申请实施例可不做具体限定,为了便于理解,下面结合一种可能的实施方式进行说明。
[0063] 在一种可能的实施方式中,S203具体可以包括:将第一三元组和第二文本信息输入至语言适配模型;语言适配模型用于将文本信息与三元组进行适配;获取语言适配模型输出的第二三元组。通过语言适配模型,可以将第一三元组和第二文本信息进行适配,从而实现对第一三元组的更新而得到第二三元组。具体来说,可以在第一三元组和第二文本信息之间拼接字符[SEP],以该字符分割第一三元组和第二文本信息,并将拼接字符[SEP]之后的第一三元组和第二文本信息作为语言适配模型的输入,而后得到语言适配模型的输出数据,也就是第二三元组。举例来说,第一三元组表示为(人类,平均寿命,80岁),第二文本信息体现为“在这个精灵大陆上,人类也可以有200年寿命”,则输入数据可以表示为(人类,平均寿命,80岁)[SEP]在这个精灵大陆上,人类也可以有200年寿命。进一步地,输出数据可以表示为(人类,平均寿命,200岁)。另外,在本申请实施例中,语言适配模型例如是GPT(Generative Pretrained Transformer,生成预训练转换器)模型、ELMo(Embedding from Language Models,语言模型嵌入)模型等。
[0064] 进一步地,对于语言适配模型的获取方式,本申请实施例亦可不做具体限定,为了便于理解,下面结合一种可能的实施方式进行说明。
[0065] 在一种可能的实施方式中,语言适配模型可以通过如下步骤获取:获取用于训练初始模型的样本数据;初始模型用于将文本信息与三元组进行适配;基于样本数据训练初始模型,直至初始模型满足预设条件,得到语言适配模型。具体来说,预设条件可以体现为模型参数量大于或等于预设模型参数量,和/或,模型准确率大于等于预设模型准确率。如此,可以得到体量够大、效果足够好的模型,以准确地生成第二三元组,从而无需构建新的知识图谱即可简单、方便地获取新的知识,从而降低操作复杂度和成本。可以理解地,若未经训练的初始模型已满足预设条件,则可以直接以初始模型作为语言适配模型,例如是体量够大、效果足够好的GPT‑3(Generative Pretrained Transformer‑3,生成预训练转换器‑3)模型。
[0066] 基于以上S201‑S203的相关内容可知,在本申请实施例中,结合第二文本信息对第一三元组进行更新,便可得到第二三元组,从而得到符合第二文本信息描述的知识,使得无需构建新的知识图谱即可简单、方便地获取新的知识,从而降低操作复杂度和成本。
[0067] 基于上述实施例提供的知识获取方法,本申请实施例还提供了一种知识获取装置。下面分别结合实施例和附图,对该知识获取装置进行描述。
[0068] 图3为本申请实施例提供的一种知识获取装置的结构示意图。结合图3所示,本申请实施例提供的知识获取装置300。具体来说,该知识获取装置300可以包括:
[0069] 第一三元组确定模块301,用于响应于针对目标知识的查询请求,基于目标知识的知识图谱,确定目标知识的第一三元组;知识图谱预先基于目标知识关联的第一文本信息构建;
[0070] 第二文本信息确定模块302,用于根据查询请求,确定目标知识关联的第二文本信息;
[0071] 第二三元组生成模块303,用于基于第一三元组和第二文本信息,生成目标知识的第二三元组。
[0072] 作为一种实施方式,为了简单、方便地获取新的知识,第二三元组生成模块303,具体可以包括:
[0073] 第一三元组更新模块,用于基于第二文本信息更新第一三元组,得到第二三元组。
[0074] 作为一种实施方式,为了简单、方便地获取新的知识,第一三元组更新模块,具体可以包括:
[0075] 语言适配模块,用于将第一三元组和第二文本信息输入至语言适配模型;语言适配模型用于将文本信息与三元组进行适配;
[0076] 第二三元组获取模块,用于获取语言适配模型输出的第二三元组。
[0077] 作为一种实施方式,为了简单、方便地获取新的知识,语言适配模型可以通过如下模块获取:
[0078] 样本数据获取模块,用于获取用于训练初始模型的样本数据;初始模型用于将文本信息与三元组进行适配;
[0079] 初始模型训练模块,用于基于样本数据训练初始模型,直至初始模型满足预设条件,得到语言适配模型。
[0080] 作为一种实施方式,为了简单、方便地获取新的知识,第二文本信息确定模块302,具体可以包括:
[0081] 文本信息库获取模块,用于获取文本信息库;文本信息库中保存有除第一文本信息之外的多个文本信息;
[0082] 文本信息检索模块,用于根据查询请求,从文本信息库中检索目标知识关联的文本信息,作为第二文本信息。
[0083] 需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0084] 还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0085] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。