知识图谱的构建方法、装置、存储介质和电子设备转让专利

申请号 : CN201910882504.3

文献号 : CN110737779B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 万峻辰张富峥王仲远

申请人 : 北京三快在线科技有限公司

摘要 :

本公开涉及一种知识图谱的构建方法、装置、存储介质和电子设备,以解决相关技术中知识图谱构建过程中数据更新频率低、精确度差且人力成本较高的技术问题,该方法包括:获取用户输入的内容信息中的关键信息以及该内容信息对应的用户操作行为信息;根据该用户操作行为信息和该关键信息生成用于记录该用户、该关键信息和操作关联标识之间的关联关系的第一关系数组和用于记录该关键信息、该用户所关注的目标对象和操作关联标识之间的关联关系的第二关系数组;通过第一关系数组和第二关系数组构建知识图谱。能够在用户针对目标对象进行操作后,通过用户操作行为信息即时构建知识图谱,提高构建知识图谱的效率、数据更新频率和准确度,降低人力成本。

权利要求 :

1.一种知识图谱的构建方法,其特征在于,所述方法包括:获取用户输入的内容信息中的关键信息以及所述内容信息对应的用户操作行为信息;

根据所述用户操作行为信息和所述关键信息生成第一关系数组和第二关系数组,所述第一关系数组用于记录所述用户、所述关键信息和用于表征所述用户和所述关键信息之间的操作关联的第一操作关联标识三者之间的关联关系,所述第二关系数组用于记录所述关键信息、所述用户所关注的目标对象和用于表征所述目标对象和所述关键信息之间的操作关联的第二操作关联标识三者之间的关联关系;

通过所述第一关系数组和所述第二关系数组构建知识图谱,其中,所述知识图谱对应有关键信息库、属性类别库以及关系库,所述关键信息库包括多个候选关键信息,所述属性类别库包括预先设置的多个属性类别,所述关系库包括每个所述属性类别对应的操作关联标识;每个所述属性类别与一个或多个所述候选关键信息对应;

所述通过所述第一关系数组和所述第二关系数组构建知识图谱,包括:若所述属性类别库的多个属性类别中存在目标属性类别,确定所述关键信息库中的多个候选关键信息中是否存在所述关键信息,所述目标属性类别为所述关键信息对应的属性类别;

若所述多个候选关键信息中存在所述关键信息,将所述第二关系数组中的第二操作关联标识替换为所述目标属性类别对应的操作关联标识;

通过替换后的所述第二关系数组构建所述知识图谱。

2.根据权利要求1所述的方法,其特征在于,所述通过所述第一关系数组和所述第二关系数组构建知识图谱,包括:

若所述多个候选关键信息中不存在所述关键信息,将所述关键信息作为所述目标属性类别对应的候选关键信息添加至所述关键信息库中,以更新所述关键信息库;

将所述第二关系数组中的第二操作关联标识替换为所述目标属性类别对应的操作关联标识;

通过更新后的关键信息库、所述第一关系数组以及替换后的所述第二关系数组构建所述知识图谱。

3.根据权利要求1所述的方法,其特征在于,所述通过所述第一关系数组和所述第二关系数组构建知识图谱,包括:

若所述属性类别库的多个属性类别中不存在所述目标属性类别,将所述目标属性类别添加至所述属性类别库;

将所述关键信息作为所述目标属性类别对应的候选关键信息添加至所述关键信息库中,以更新所述关键信息库;

将所述目标属性类别对应的操作关系标识添加至所述关系库,以更新所述关系库;

将所述第二关系数组中的第二操作关联标识替换为所述目标属性类别对应的操作关联标识;

通过更新后的关系库、更新后的关键信息库、所述第一关系数组以及替换后的所述第二关系数组构建所述知识图谱。

4.根据权利要求1‑3任一项所述的方法,其特征在于,所述用户操作行为信息包括搜索行为信息,所述根据所述用户操作行为信息和所述关键信息生成第一关系数组和第二关系数组,包括:

将所述用户从所述内容信息对应的搜索结果中选定的对象,作为所述目标对象;

确定所述第一操作关联标识为用于表征搜索查询关系的标识,所述第二操作关联标识为用于表征搜索点击关系的标识;

生成包含所述用户的用户标识、所述关键信息和所述第一操作关联标识的第一关系数组,以及包含所述关键信息、所述目标对象的对象标识和所述第二操作关联标识的第二关系数组。

5.根据权利要求1‑3任一项所述的方法,其特征在于,所述用户操作行为信息包括评价行为信息,所述根据所述用户操作行为信息和所述关键信息生成第一关系数组和第二关系数组,包括:

将所述用户提交的所述内容信息所对应的对象,作为所述目标对象;

确定所述第一操作关联标识为用于表征用户评价关系的标识,所述第二操作关联标识为用于表征评价商家关系的标识;

生成包含所述用户的用户标识、所述关键信息和所述第一操作关联标识的第一关系数组,以及包含所述关键信息、所述目标对象的对象标识和所述第二操作关联标识的第二关系数组。

6.一种知识图谱的构建装置,其特征在于,所述装置包括:信息获取模块,用于获取用户输入的内容信息中的关键信息以及所述内容信息对应的用户操作行为信息;

关系数组生成模块,用于根据所述用户操作行为信息和所述关键信息生成第一关系数组和第二关系数组,所述第一关系数组用于记录所述用户、所述关键信息和用于表征所述用户和所述关键信息之间的操作关联的第一操作关联标识三者之间的关联关系,所述第二关系数组用于记录所述关键信息、所述用户所关注的目标对象和用于表征所述目标对象和所述关键信息之间的操作关联的第二操作关联标识三者之间的关联关系;

知识图谱构建模块,用于通过所述第一关系数组和所述第二关系数组构建知识图谱,其中,所述知识图谱对应有关键信息库、属性类别库以及关系库,所述关键信息库包括多个候选关键信息,所述属性类别库包括预先设置的多个属性类别,所述关系库包括每个所述属性类别对应的操作关联标识;每个所述属性类别与一个或多个所述候选关键信息对应;

所述知识图谱构建模块,还用于:若所述属性类别库的多个属性类别中存在目标属性类别,确定所述关键信息库中的多个候选关键信息中是否存在所述关键信息,所述目标属性类别为所述关键信息对应的属性类别;

若所述多个候选关键信息中存在所述关键信息,将所述第二关系数组中的第二操作关联标识替换为所述目标属性类别对应的操作关联标识;

通过替换后的所述第二关系数组构建所述知识图谱。

7.根据权利要求6所述的装置,其特征在于,所述知识图谱构建模块,用于:若所述多个候选关键信息中不存在所述关键信息,将所述关键信息作为所述目标属性类别对应的候选关键信息添加至所述关键信息库中,以更新所述关键信息库;

将所述第二关系数组中的第二操作关联标识替换为所述目标属性类别对应的操作关联标识;

通过更新后的关键信息库、所述第一关系数组以及替换后的所述第二关系数组构建所述知识图谱。

8.根据权利要求6所述的装置,其特征在于,所述知识图谱构建模块,用于:若所述属性类别库的多个属性类别中不存在所述目标属性类别,将所述目标属性类别添加至所述属性类别库;

将所述关键信息作为所述目标属性类别对应的候选关键信息添加至所述关键信息库中,以更新所述关键信息库;

将所述目标属性类别对应的操作关系标识添加至所述关系库,以更新所述关系库;

将所述第二关系数组中的第二操作关联标识替换为所述目标属性类别对应的操作关联标识;

通过更新后的关系库、更新后的关键信息库、所述第一关系数组以及替换后的所述第二关系数组构建所述知识图谱。

9.根据权利要求6‑8任一项所述的装置,其特征在于,所述用户操作行为信息包括搜索行为信息,所述关系数组生成模块,用于:将所述用户从所述内容信息对应的搜索结果中选定的对象,作为所述目标对象;

确定所述第一操作关联标识为用于表征搜索查询关系的标识,所述第二操作关联标识为用于表征搜索点击关系的标识;

生成包含所述用户的用户标识、所述关键信息和所述第一操作关联标识的第一关系数组,以及包含所述关键信息、所述目标对象的对象标识和所述第二操作关联标识的第二关系数组。

10.根据权利要求6‑8任一项所述的装置,其特征在于,所述用户操作行为信息包括评价行为信息,所述关系数组生成模块,用于:将所述用户提交的所述内容信息所对应的对象,作为所述目标对象;

确定所述第一操作关联标识为用于表征用户评价关系的标识,所述第二操作关联标识为用于表征评价商家关系的标识;

生成包含所述用户的用户标识、所述关键信息和所述第一操作关联标识的第一关系数组,以及包含所述关键信息、所述目标对象的对象标识和所述第二操作关联标识的第二关系数组。

11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5中任一项所述的知识图谱的构建方法的步骤。

12.一种电子设备,其特征在于,包括:存储器,其上存储有计算机程序;

处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至5中任一项所述知识图谱的构建方法的步骤。

说明书 :

知识图谱的构建方法、装置、存储介质和电子设备

技术领域

[0001] 本公开涉及信息管理领域,具体地,涉及一种知识图谱的构建方法、装置、存储介质和电子设备。

背景技术

[0002] 知识图谱作为自然语言理解领域十分重要的部分,最近年热度逐年升温。知识图谱能够将各垂直领域乃至整个通用领域的数据结构化和知识化,再通过复杂的关系图谱网
络进行存储,以实现各实体之间的关系的可视化呈现,同时辅助计算机完成推理以及关系
挖掘等深层次的信息管理工程。在通过知识图谱对涉及大量持续更新的数据信息的业务平
台(例如,网络购物平台或外卖平台等)进行管理的应用场景中,需要根据业务平台的业务
数据建立知识图谱,并对已建立的静态知识图谱进行更新和维护,以适应不断更新的新增
数据。

发明内容

[0003] 本公开第一方面提供一种知识图谱的构建方法,所述方法包括:
[0004] 获取用户输入的内容信息中的关键信息以及所述内容信息对应的用户操作行为信息;
[0005] 根据所述用户操作行为信息和所述关键信息生成第一关系数组和第二关系数组,所述第一关系数组用于记录所述用户、所述关键信息和用于表征所述用户和所述关键信息
之间的操作关联的第一操作关联标识三者之间的关联关系,所述第二关系数组用于记录所
述关键信息、所述用户所关注的目标对象和用于表征所述目标对象和所述关键信息之间的
操作关联的第二操作关联标识三者之间的关联关系;
[0006] 通过所述第一关系数组和所述第二关系数组构建知识图谱。
[0007] 可选的,所述知识图谱对应有关键信息库、属性类别库以及关系库,所述关键信息库包括多个候选关键信息,所述属性类别库包括预先设置的多个属性类别,所述关系库包
括每个所述属性类别对应的操作关联标识;每个所述属性类别与一个或多个所述候选关键
信息对应;
[0008] 所述通过所述第一关系数组和所述第二关系数组构建知识图谱,包括:
[0009] 若所述属性类别库的多个属性类别中存在目标属性类别,确定所述关键信息库中的多个候选关键信息中是否存在所述关键信息,所述目标属性类别为所述关键信息对应的
属性类别;
[0010] 若所述多个候选关键信息中存在所述关键信息,将所述第二关系数组中的第二操作关联标识替换为所述目标属性类别对应的操作关联标识;
[0011] 通过替换后的所述第二关系数据组构建所述知识图谱。
[0012] 可选的,所述通过所述第一关系数组和所述第二关系数组构建知识图谱,包括:
[0013] 若所述多个候选关键信息中不存在所述关键信息,将所述关键信息作为所述目标属性类别对应的候选关键信息添加至所述关键信息库中,以更新所述关键信息库;
[0014] 将所述第二关系数组中的第二操作关联标识替换为所述目标属性类别对应的操作关联标识;
[0015] 通过更新后的关键信息库、所述第一关系数组以及替换后的所述第二关系数组构建所述知识图谱。
[0016] 可选的,所述通过所述第一关系数组和所述第二关系数组构建知识图谱,包括:
[0017] 若所述属性类别库的多个属性类别中不存在所述目标属性类别,将所述目标属性类别添加至所述属性类别库;
[0018] 将所述关键信息作为所述目标属性类别对应的候选关键信息添加至所述关键信息库中,以更新所述关键信息库;
[0019] 将所述目标属性类别对应的操作关系标识添加至所述关系库,以更新所述关系库;
[0020] 将所述第二关系数组中的第二操作关联标识替换为所述目标属性类别对应的操作关联标识;
[0021] 通过更新后的关系库、更新后的关键信息库、所述第一关系数组以及替换后的所述第二关系数组构建所述知识图谱。
[0022] 可选的,所述用户操作行为信息包括搜索行为信息,所述根据所述用户操作行为信息和所述关键信息生成第一关系数组和第二关系数组,包括:
[0023] 将所述用户从所述内容信息对应的搜索结果中选定的对象,作为所述目标对象;
[0024] 确定所述第一操作关联标识为用于表征搜索查询关系的标识,所述第二操作关联标识为用于表征搜索点击关系的标识;
[0025] 生成包含所述用户的用户标识、所述关键信息和所述第一操作关联标识的第一关系数组,以及包含所述关键信息、所述目标对象的对象标识和所述第二操作关联标识的第
二关系数组。
[0026] 可选的,所述用户操作行为信息包括评价行为信息,所述根据所述用户操作行为信息和所述关键信息生成第一关系数组和第二关系数组,包括:
[0027] 将所述用户提交的所述内容信息所对应的对象,作为所述目标对象;
[0028] 确定所述第一操作关联标识为用于表征用户评价关系的标识,所述第二操作关联标识为用于表征评价商家关系的标识;
[0029] 生成包含所述用户的用户标识、所述关键信息和所述第一操作关联标识的第一关系数组,以及包含所述关键信息、所述目标对象的对象标识和所述第二操作关联标识的第
二关系数组。
[0030] 本公开第二方面提供一种知识图谱的构建装置,所述装置包括:
[0031] 信息获取模块,用于获取用户输入的内容信息中的关键信息以及所述内容信息对应的用户操作行为信息;
[0032] 关系数组生成模块,用于根据所述用户操作行为信息和所述关键信息生成第一关系数组和第二关系数组,所述第一关系数组用于记录所述用户、所述关键信息和用于表征
所述用户和所述关键信息之间的操作关联的第一操作关联标识三者之间的关联关系,所述
第二关系数组用于记录所述关键信息、所述用户所关注的目标对象和用于表征所述目标对
象和所述关键信息之间的操作关联的第二操作关联标识三者之间的关联关系;
[0033] 知识图谱构建模块,用于通过所述第一关系数组和所述第二关系数组构建知识图谱。
[0034] 可选的,所述知识图谱对应有关键信息库、属性类别库以及关系库,所述关键信息库包括多个候选关键信息,所述属性类别库包括预先设置的多个属性类别,所述关系库包
括每个所述属性类别对应的操作关联标识;每个所述属性类别与一个或多个所述候选关键
信息对应;
[0035] 所述知识图谱构建模块,用于:
[0036] 若所述属性类别库的多个属性类别中存在目标属性类别,确定所述关键信息库中的多个候选关键信息中是否存在所述关键信息,所述目标属性类别为所述关键信息对应的
属性类别;
[0037] 若所述多个候选关键信息中存在所述关键信息,将所述第二关系数组中的第二操作关联标识替换为所述目标属性类别对应的操作关联标识;
[0038] 通过替换后的所述第二关系数据组构建所述知识图谱。
[0039] 可选的,所述知识图谱构建模块,用于:
[0040] 若所述多个候选关键信息中不存在所述关键信息,将所述关键信息作为所述目标属性类别对应的候选关键信息添加至所述关键信息库中,以更新所述关键信息库;
[0041] 将所述第二关系数组中的第二操作关联标识替换为所述目标属性类别对应的操作关联标识;
[0042] 通过更新后的关键信息库、所述第一关系数组以及替换后的所述第二关系数组构建所述知识图谱。
[0043] 可选的,所述知识图谱构建模块,用于:
[0044] 若所述属性类别库的多个属性类别中不存在所述目标属性类别,将所述目标属性类别添加至所述属性类别库;
[0045] 将所述关键信息作为所述目标属性类别对应的候选关键信息添加至所述关键信息库中,以更新所述关键信息库;
[0046] 将所述目标属性类别对应的操作关系标识添加至所述关系库,以更新所述关系库;
[0047] 将所述第二关系数组中的第二操作关联标识替换为所述目标属性类别对应的操作关联标识;
[0048] 通过更新后的关系库、更新后的关键信息库、所述第一关系数组以及替换后的所述第二关系数组构建所述知识图谱。
[0049] 可选的,所述用户操作行为信息包括搜索行为信息,所述关系数组生成模块,用于:
[0050] 将所述用户从所述内容信息对应的搜索结果中选定的对象,作为所述目标对象;
[0051] 确定所述第一操作关联标识为用于表征搜索查询关系的标识,所述第二操作关联标识为用于表征搜索点击关系的标识;
[0052] 生成包含所述用户的用户标识、所述关键信息和所述第一操作关联标识的第一关系数组,以及包含所述关键信息、所述目标对象的对象标识和所述第二操作关联标识的第
二关系数组。
[0053] 可选的,所述用户操作行为信息包括评价行为信息,所述关系数组生成模块,用于:
[0054] 将所述用户提交的所述内容信息所对应的对象,作为所述目标对象;
[0055] 确定所述第一操作关联标识为用于表征用户评价关系的标识,所述第二操作关联标识为用于表征评价商家关系的标识;
[0056] 生成包含所述用户的用户标识、所述关键信息和所述第一操作关联标识的第一关系数组,以及包含所述关键信息、所述目标对象的对象标识和所述第二操作关联标识的第
二关系数组。
[0057] 本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的知识图谱的构建方法的步骤。
[0058] 本公开第四方面提供一种电子设备,包括:
[0059] 存储器,其上存储有计算机程序;
[0060] 处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面所述的知识图谱的构建方法的步骤。
[0061] 采用本公开提供的技术方案,至少可以达到如下技术效果:
[0062] 获取用户输入的内容信息中的关键信息以及该内容信息对应的用户操作行为信息;根据该用户操作行为信息和该关键信息生成第一关系数组和第二关系数组,该第一关
系数组用于记录该用户、该关键信息和用于表征该用户和该关键信息之间的操作关联的第
一操作关联标识三者之间的关联关系,该第二关系数组用于记录该关键信息、该用户所关
注的目标对象和用于表征该目标对象和该关键信息之间的操作关联的第二操作关联标识
三者之间的关联关系;通过该第一关系数组和该第二关系数组构建知识图谱。能够在用户
针对目标对象进行操作后,通过用户操作行为信息即时构建知识图谱,从而提高构建知识
图谱的效率、数据更新频率和准确度,降低人力成本。
[0063] 本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

[0064] 附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
[0065] 图1是根据一示例性实施例示出的一种知识图谱的构建方法的流程图;
[0066] 图2是根据图1示出的另一种知识图谱的构建方法的流程图;
[0067] 图3是根据图2示出的一种关系数组生成方法的流程图;
[0068] 图4是根据图2示出的另一种关系数组生成方法的流程图;
[0069] 图5a、5b和5c是根据一示例性实施例示出的一种知识图谱构建过程的示意图;
[0070] 图6是根据一示例性实施例示出的一种知识图谱的构建装置的框图;
[0071] 图7是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

[0072] 以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
[0073] 在知识图谱构建的相关技术中,通常需要通过对静态业务数据进行监督学习,以建立知识图谱。对于上述静态知识图谱的运维,通常需要每隔一段时间收集数据平台中更
新的静态数据,再通过人工标注和训练后的实体识别算法模型或者语义模型从更新后的静
态数据寻找适当的新的三元数据组补充进静态知识图谱网络之中。这就需要大量的人力对
业务数据进行学习和标注,人力成本较高。并且,由于模型训练所需的静态数据量极大,收
集业务数据的周期也较长,造成知识图谱的构建和更新的效率和频率较低。另一种知识图
谱的建立和运维方式为,通过利用静态业务数据对业务平台中的业务实体进行向量化处
理,将业务实体表征为特征向量,再通过特征向量的相似度匹配来挖掘业务实体之间关系,
构建知识图谱。但是,特征向量相似度匹配精确度不高,错误率较多。在将业务实体之间关
系融合进知识图谱后,需要大量人力进行数据清洗,人力成本依然较高。
[0074] 发明人注意到这一问题,提出了一种新的知识图谱的构建方法,具体如下:
[0075] 图1是根据一示例性实施例示出的一种知识图谱的构建方法的流程图,如图1所示,该方法包括以下步骤:
[0076] 步骤101,获取用户输入的内容信息中的关键信息以及该内容信息对应的用户操作行为信息。
[0077] 示例地,该内容信息为用户针对于业务平台(例如,网络购物平台、外卖平台或电影/歌曲分享平台等)进行搜索或评价等内容输入相关的操作时输入的操作。该关键信息即
为该内容信息中的关键词。该用户操作行为信息用于记录该用户输入的内容信息所针对的
目标对象(根据应用场景的不同,该目标对象可以为商家、某部电影或某个歌曲等),以及该
用户针对于该目标对象的具体操作(例如,搜索或评价等)。
[0078] 步骤102,根据该用户操作行为信息和该关键信息生成第一关系数组和第二关系数组。
[0079] 其中,该第一关系数组用于记录该用户、该关键信息和用于表征该用户和该关键信息之间的操作关联的第一操作关联标识三者之间的关联关系,该第二关系数组用于记录
该关键信息、该用户所关注的目标对象和用于表征该目标对象和该关键信息之间的操作关
联的第二操作关联标识三者之间的关联关系。
[0080] 示例地,知识图谱实际上是以三元组的形式进行储存和更新的,其中,可以理解的是,用户的一次操作从用户角度和商家角度来看具备两层不同的含义,因此,可以通过两个
三元组对该操作行为进行描述,该第一关系数组和第二关系数据即为上述的两个三元组。
具体地,这两个三元组可以表示为{A,B,C}和{C,D,E},在本公开实施例中,A为用户的用户
标识(例如,用户ID),B和D分别为上述的第一操作关联标识和第二操作关联标识,C为关键
词,E为目标对象的对象标识(例如,商家ID)。
[0081] 步骤103,通过该第一关系数组和该第二关系数组构建知识图谱。
[0082] 示例地,此处的构建知识图谱的步骤可以理解为从零开始进行整个知识图谱的构建的步骤,或者,在原有的静态知识图谱上进行更新的步骤。该静态知识图谱为业务平台对
应的已经完成保存的知识图谱,该静态知识图谱为通过现有的静态知识图谱构建技术,或
者,本公开实施例提供的知识图谱的构建方法,根据用户的历史操作行为信息和用户输入
的历史内容信息确定的用户和关键信息之间的关联关系(也为三元组的形式),以及关键信
息以及用户所关注的目标对象之间的关联关系(也为三元组的形式)。
[0083] 示例地,实际上,该知识图谱即为多个三元组的集合,在获取到该第一关系数组和该第二关系数组(即一次操作对应的两个三元组)后,可以将这两个三元组添加至原有的三
元组集合中。但需要说明的是,该知识图谱中的三元组单纯地对业务平台内有关联关系的
实体对应的标识进行记录,三元组中的标识对应的实体的实际数据是通过业务平台内的不
同数据库进行储存的,这些实体在业务平台内的组织方式也是通过这些数据库进行表示
的。可以认为,该三元组用于在不同数据库中存储的不同数据之间建立联系,而这个联系并
不是凭空出现的,而是根据用户的操作行为产生的。
[0084] 示例地,该知识图谱对应有关键信息库、属性类别库以及关系库等多种数据库,该关键信息库包括多个候选关键信息,该属性类别库包括预先设置的多个属性类别,该关系
库包括每个该属性类别对应的操作关联标识;每个该属性类别与一个或多个该候选关键信
息对应。可以看出,在业务平台的数据库中,该关键信息(对应于关键词)和操作关联标识
(用于表征用户操作行为)是分类存储的。例如,关键词“辣”可以为用户在搜索时输入的内
容中的关键词,也可以是用户在评价时输入的内容中的关键词,如此,虽然关键词“辣”本身
是完全相同的词语,但是在储存时需要分为两种不同的属性类别进行储存。
[0085] 另外,示例地,可以在用户进行一次操作并生成用户操作行为信息后立即进行该步骤102和103的执行过程,或者,可以在根据操作行为信息获取到的三元组累积至预设数
量后,或者每隔预设时间,开启该步骤103的知识图谱的更新或构建过程。
[0086] 综上所述,本公开的实施例所提供的技术方案,能够获取用户输入的内容信息中的关键信息以及该内容信息对应的用户操作行为信息;根据该用户操作行为信息和该关键
信息生成第一关系数组和第二关系数组,该第一关系数组用于记录该用户、该关键信息和
用于表征该用户和该关键信息之间的操作关联的第一操作关联标识三者之间的关联关系,
该第二关系数组用于记录该关键信息、该用户所关注的目标对象和用于表征该目标对象和
该关键信息之间的操作关联的第二操作关联标识三者之间的关联关系;通过该第一关系数
组和该第二关系数组构建知识图谱。能够在用户针对目标对象进行操作后,通过用户操作
行为信息即时构建知识图谱,从而提高构建知识图谱的效率、数据更新频率和准确度,降低
人力成本。
[0087] 图2是根据图1示出的另一种知识图谱的构建方法的流程图,如图2所示,该103包括:步骤10301‑10303,步骤10301和步骤10304‑10306,或者,步骤10307‑10311。
[0088] 示例地,如上所述,知识图谱中的三元组中的每个标识对应的实体的实际数据是通过业务平台内的不同数据库进行储存的,这些实体在业务平台内的组织方式也是通过这
些数据库进行表示的,而三元组为联系这些实体的桥梁。因此,每当业务平台获取到新的一
对三元组后,并不一定能够将这对三元组直接添加至知识图谱中。毕竟,在知识图谱中添加
对应于数据库中不存在的数据的三元组是没有意义的。因此,在本公开实施例中该步骤103
包含三种实现方式。
[0089] 可选的,在本公开的一种实施例中,该步骤103包括:步骤10301‑10303。
[0090] 步骤10301,若该属性类别库的多个属性类别中存在目标属性类别,确定该关键信息库中的多个候选关键信息中是否存在该关键信息。
[0091] 其中,该目标属性类别为该关键信息对应的属性类别。
[0092] 步骤10302,若上述多个候选关键信息中存在该关键信息,将该第二关系数组中的第二操作关联标识替换为该目标属性类别对应的操作关联标识。
[0093] 步骤10303,通过替换后的该第二关系数据组构建该知识图谱。
[0094] 示例地,在获取到该第一关系数组和该第二关系数组(即一次操作对应的两个三元组)后,基于业务平台的性质,这一对三元组对应的用户和商家是存在于相应的数据库,
而用户键入的关键词并不一定存在于业务平台的数据库中。因此,需要依次判断业务平台
的属性类别库是否储存有该关键信息对应的目标属性类别,进而判断该目标属性类别是否
对应有该关键信息。以该第一操作关联标识为用户搜索或用户评价(这两种操作行为都是
响应于用户需要实时发生并且会随着时间不断累积的操作行为)为例,在业务平台中,搜索
和评价相关的内容信息中的关键词通常被设定为与用户联系更加紧密(即用户通过相同的
词语搜索或评价不同的商家)。因此,在确定该目标属性类别和该关键信息后,可以认为,该
关键词已经存在于用户的关联范围内,进而可以省略该第一关系数组,而仅将商家与关键
词的联系(即该第二关系数组)添加至原有的静态知识图谱中(或以该第二关系数组为基础
构建知识图谱)。并且在添加之前,需要将该第二关系数组中的第二操作关联标识替换为该
目标属性类别对应的操作关联标识。
[0095] 以用户操作行为为搜索为例,在用户输入了“鱼头火锅哪家强”的搜索内容,并在显示出的搜索目标中选定一个商家后,业务平台获取该搜索文本,并分析得出关键信息“鱼
头火锅”。之后根据该用户操作行为信息和该关键信息生成两个三元组,即{UserID,
SearchQuery,Keywords}和{Keywords,SearchCLICK,DocID},其中,UserID为用户ID,
SearchQuery为用户搜索,Keywords为关键信息“鱼头火锅”,SearchCLICK为搜索点击,
DocID为商家ID,用户搜索和搜索点击为搜索的两个阶段。此后,首先(通过预设的对应关系
表或分类模型)确定“鱼头火锅”对应的目标属性类别为“菜系”;其次确定该业务平台的属
性类别库是否储存有目标属性类别“菜系”;当确定属性类别库储存有目标属性类别“菜
系”,确定目标属性类别“菜系”对应的候选关键信息中是否存在该关键信息“鱼头火锅”;在
确定目标属性类别“菜系”对应的候选关键信息中存在该关键信息“鱼头火锅”后,忽略三元
组{UserID,SearchQuery,Keywords}(即第一关系数组),并将三元组{Keywords,
SearchCLICK,DocID}中的SearchCLICK(即第二操作关联标识)替换为目标属性类别“菜系”
对应的操作关联标识“Cuisine”,进而获取到三元组{Keywords,Cuisine,DocID},并以这一
个三元组进行知识图谱的构建或更新。
[0096] 可选的,在本公开的另一实施例中,若在步骤10301中确定上述多个候选关键信息中不存在该关键信息,在步骤10301之后,该步骤103还包括:步骤10304‑10306。
[0097] 步骤10304,若上述多个候选关键信息中不存在该关键信息,将该关键信息作为该目标属性类别对应的候选关键信息添加至该关键信息库中,以更新该关键信息库。
[0098] 步骤10305,将该第二关系数组中的第二操作关联标识替换为该目标属性类别对应的操作关联标识。
[0099] 步骤10306,通过更新后的关键信息库、该第一关系数组以及替换后的该第二关系数组构建该知识图谱。
[0100] 示例地,当确定业务平台的属性类别库储存有该关键信息对应的目标属性类别,但该目标属性类别并不对因于该关键信息时,可以认为,该关键词并不存在于用户的关联
范围内,该第一关系数组是有助于知识图谱扩展的新内容,不能忽略。因此,需要更新关键
信息库(即为该目标属性类别添加新的对应的关键信息),并将该第一关系数组以及该第二
关系数组该知识图谱。并且,在添加之前,需要将该第二关系数组中的第二操作关联标识替
换为该目标属性类别对应的操作关联标识。需要说明的是,在更新关键信息库之前,还可以
输出该关键信息需要被添加的提示,以使运维人员对该关键信息是否需要被添加进行审
核。
[0101] 可选的,在本公开的又一实施例中,若该属性类别库的多个属性类别中不存在该目标属性类别,该步骤103还包括:步骤10307‑10311。
[0102] 步骤10307,若该属性类别库的多个属性类别中不存在该目标属性类别,将该目标属性类别添加至该属性类别库。
[0103] 步骤10308,将该关键信息作为该目标属性类别对应的候选关键信息添加至该关键信息库中,以更新该关键信息库。
[0104] 步骤10309,将该目标属性类别对应的操作关系标识添加至该关系库,以更新该关系库。
[0105] 步骤10310,将该第二关系数组中的第二操作关联标识替换为该目标属性类别对应的操作关联标识。
[0106] 步骤10311,通过更新后的关系库、更新后的关键信息库、该第一关系数组以及替换后的该第二关系数组构建该知识图谱。
[0107] 示例地,当确定业务平台的属性类别库未储存该关键信息对应的目标属性类别(在确认不存在该目标属性类别的同时,也就确认了该目标属性类别未对应于该关键信息)
时,可以认为,该关键信息以及目标属性类别并不存在于用户的关联范围内,该第一关系数
组是有助于知识图谱扩展的新内容,不能忽略。因此,需要更新属性类别库、关键信息库以
及关系库,并将该第一关系数组以及该第二关系数组该知识图谱。并且,在添加之前,同样
需要将该第二关系数组中的第二操作关联标识替换为新添加的目标属性类别对应的操作
关联标识。在更新属性类别库、关键信息库和关系库之前,同样可以输出该关键信息需要被
添加的提示,以使运维人员对该关键信息是否需要被添加进行审核。
[0108] 图3是根据图2示出的一种关系数组生成方法的流程图,该用户操作行为信息包括搜索行为信息,如图3所示,该步骤102包括:
[0109] 步骤1021,将该用户从该内容信息对应的搜索结果中选定的对象,作为该目标对象。
[0110] 步骤1022,确定该第一操作关联标识为用于表征搜索查询关系的标识,该第二操作关联标识为用于表征搜索点击关系的标识。
[0111] 示例地,在用户进行搜索行为的过程中,用户需要先键入搜索内容,并在业务平台输出搜索目标后,从中选择对应的实体,例如,商家,作为目标对象。与此同时,生成的一对
三元组中的两个操作关联标识分别为用户搜索标识(SearchQuery)和搜索点击标识
(SearchCLICK)。
[0112] 步骤1023,生成包含该用户的用户标识、该关键信息和该第一操作关联标识的第一关系数组,以及包含该关键信息、该目标对象的对象标识和该第二操作关联标识的第二
关系数组。
[0113] 图4是根据图2示出的另一种关系数组生成方法的流程图,该用户操作行为信息包括评价行为信息,如图4所示,该步骤102包括:
[0114] 步骤1024,将该用户提交的该内容信息所对应的对象,作为该目标对象。
[0115] 步骤1025,确定该第一操作关联标识为用于表征用户评价关系的标识,该第二操作关联标识为用于表征评价商家关系的标识。
[0116] 示例地,在用户进行评价行为的过程中,与搜索行为不同的是,用户在输入评价内容时,目标对象就已经被选定。与此同时,生成的一对三元组中的两个操作关联标识分别为
用户评价标识(UserReview)和评价商家标识(ReviewShop)。
[0117] 步骤1026,生成包含该用户的用户标识、该关键信息和该第一操作关联标识的第一关系数组,以及包含该关键信息、该目标对象的对象标识和该第二操作关联标识的第二
关系数组。
[0118] 示例地,图5a、5b和5c是根据一示例性实施例示出的一种知识图谱构建过程的示意图。其中,图5a示出根据用户的历史行为信息生成的或者开发人员预先构建的静态知识
图谱,图5b示出根据本公开实施例提供的步骤101和步骤102采集的线上知识图谱,图5c为
将上述的线上知识图谱合并至上述的静态知识图谱后获取到的新的知识图谱。
[0119] 具体地,图5a、5b和5c中的A为用户,B和C为商户,图5b示出的静态知识图谱,包括:(A,Click,B)和(A,Consume,C)两个三元组,并且该商户B和C对应于相同的属性类别库,该
属性类别库中已储存有属性类别1、2和3。图5b示出的线上知识图谱中包括8个三元组,其
中,(A,SearchQuery,宠物)、(A,SearchQuery,鱼头火锅)、(宠物,SearchCLICK,B)和(鱼头
火锅,SearchCLICK,B)这四个三元组表示用户A通过“宠物”和“鱼头火锅”这两个关键词搜
索并点击了商户B;以及,(A,UserReview,服务好)、(A,UserReview,环境好)、(服务好,
ReviewShop,B)和(环境好,ReviewShop,B)这四个三元组表示用户A针对于商户C做出了包
含“服务好”和“环境好”这两个关键词的评价。
[0120] 示例地,在将上述的静态知识图谱和线上知识图谱进行合并的过程实际为,将图5a对应的两个三元组和图5b对应的八个三元组进行合并的过程(上述步骤103)。具体地,如
上所述,上述的步骤103中,每当业务平台获取到新的一对三元组后,并不一定能够将这对
三元组直接添加至知识图谱中。具体地,对上述的静态知识图谱和线上知识图谱的合并分
为下列三种情况。
[0121] 示例地,该属性类别2为菜系,该属性类别3为商户评价,并且该属性类别2对应的关键信息库中存在关键词“鱼头火锅”,该属性类别3对应的关键信息库中存在关键词“服务
好”。如图5c所示,在知识图谱合并第一种情况中,针对于(A,SearchQuery,鱼头火锅)和(鱼
头火锅,SearchCLICK,B)以及(A,UserReview,服务好)和(服务好,ReviewShop,B)这两组三
元组,可以直接将操作关联标识“SearchCLICK”替换为该属性类别2对应的操作关联标识
(例如,Cuisine),并将操作关联标识“ReviewShop”替换为该属性类别3对应的操作关联标
识(例如,Review)。再将替换后的四个三元组添加至原有的静态知识图谱中,即可完成上述
四个三元组的合并。
[0122] 示例地,该属性类别3对应的关键信息库中不存在关键词“环境好”。如图5c所示,在知识图谱合并第二种情况中,针对于(A,UserReview,环境好)和(环境好,ReviewShop,B)
这两个三元组,首先需要将关键词“环境好”添加至该属性类别3对应的关键信息库中,再将
操作关联标识“ReviewShop”替换为该属性类别3对应的操作关联标识(例如,Review),之
后,最后将这两个三元组添加至原有的静态知识图谱中,完成这两个三元组的合并。
[0123] 示例地,通过预设的属性划分算法确定关键词“宠物”对应于属性类别4,但该属性类别4不包含于该属性类别库中。如图5c所示,在知识图谱合并第三种情况中,针对于(A,
SearchQuery,宠物)和(宠物,SearchCLICK,B)这两个三元组,首先需要将该属性类别4添加
至商户B对应的属性类别库中,其次将关键词“宠物”添加至该属性类别4对应的关键信息库
中,再将操作关联标识“ReviewShop”替换为该属性类别4对应的操作关联标识(例如,Pet),
最后将这两个三元组添加至原有的静态知识图谱中,完成这两个三元组的合并。
[0124] 综上所述,本公开的实施例所提供的技术方案,能够获取用户输入的内容信息中的关键信息以及该内容信息对应的用户操作行为信息;根据该用户操作行为信息和该关键
信息生成第一关系数组和第二关系数组,该第一关系数组用于记录该用户、该关键信息和
用于表征该用户和该关键信息之间的操作关联的第一操作关联标识三者之间的关联关系,
该第二关系数组用于记录该关键信息、该用户所关注的目标对象和用于表征该目标对象和
该关键信息之间的操作关联的第二操作关联标识三者之间的关联关系;通过该第一关系数
组和该第二关系数组构建知识图谱。能够在用户针对目标对象进行操作后,生成操作行为
相关的新的知识图谱元素,并根据业务系统原有的数据架构构建或更新知识图谱,从而提
高知识图谱的更新频率和准确度,降低人力成本。
[0125] 图6是根据一示例性实施例示出的一种知识图谱的构建装置的框图,如图6所示,该装置600包括:
[0126] 信息获取模块610,用于获取用户输入的内容信息中的关键信息以及该内容信息对应的用户操作行为信息;
[0127] 关系数组生成模块620,用于根据该用户操作行为信息和该关键信息生成第一关系数组和第二关系数组,该第一关系数组用于记录该用户、该关键信息和用于表征该用户
和该关键信息之间的操作关联的第一操作关联标识三者之间的关联关系,该第二关系数组
用于记录该关键信息、该用户所关注的目标对象和用于表征该目标对象和该关键信息之间
的操作关联的第二操作关联标识三者之间的关联关系;
[0128] 知识图谱构建模块630,用于通过该第一关系数组和该第二关系数组构建知识图谱。
[0129] 可选的,该知识图谱对应有关键信息库、属性类别库以及关系库,该关键信息库包括多个候选关键信息,该属性类别库包括预先设置的多个属性类别,该关系库包括每个该
属性类别对应的操作关联标识;每个该属性类别与一个或多个该候选关键信息对应;
[0130] 该知识图谱构建模块630,用于:
[0131] 若该属性类别库的多个属性类别中存在目标属性类别,确定该关键信息库中的多个候选关键信息中是否存在该关键信息,该目标属性类别为该关键信息对应的属性类别;
[0132] 若上述多个候选关键信息中存在该关键信息,将该第二关系数组中的第二操作关联标识替换为该目标属性类别对应的操作关联标识;
[0133] 通过替换后的该第二关系数据组构建该知识图谱。
[0134] 可选的,该知识图谱构建模块630,用于:
[0135] 若上述多个候选关键信息中不存在该关键信息,将该关键信息作为该目标属性类别对应的候选关键信息添加至该关键信息库中,以更新该关键信息库;
[0136] 将该第二关系数组中的第二操作关联标识替换为该目标属性类别对应的操作关联标识;
[0137] 通过更新后的关键信息库、该第一关系数组以及替换后的该第二关系数组构建该知识图谱。
[0138] 可选的,该知识图谱构建模块630,用于:
[0139] 若该属性类别库的多个属性类别中不存在该目标属性类别,将该目标属性类别添加至该属性类别库;
[0140] 将该关键信息作为该目标属性类别对应的候选关键信息添加至该关键信息库中,以更新该关键信息库;
[0141] 将该目标属性类别对应的操作关系标识添加至该关系库,以更新该关系库;
[0142] 将该第二关系数组中的第二操作关联标识替换为该目标属性类别对应的操作关联标识;
[0143] 通过更新后的关系库、更新后的关键信息库、该第一关系数组以及替换后的该第二关系数组构建该知识图谱。
[0144] 可选的,该用户操作行为信息包括搜索行为信息,该关系数组生成模块620,用于:
[0145] 将该用户从该内容信息对应的搜索结果中选定的对象,作为该目标对象;
[0146] 确定该第一操作关联标识为用于表征搜索查询关系的标识,该第二操作关联标识为用于表征搜索点击关系的标识;
[0147] 生成包含该用户的用户标识、该关键信息和该第一操作关联标识的第一关系数组,以及包含该关键信息、该目标对象的对象标识和该第二操作关联标识的第二关系数组。
[0148] 可选的,该用户操作行为信息包括评价行为信息,该关系数组生成模块620,用于:
[0149] 将该用户提交的该内容信息所对应的对象,作为该目标对象;
[0150] 确定该第一操作关联标识为用于表征用户评价关系的标识,该第二操作关联标识为用于表征评价商家关系的标识;
[0151] 生成包含该用户的用户标识、该关键信息和该第一操作关联标识的第一关系数组,以及包含该关键信息、该目标对象的对象标识和该第二操作关联标识的第二关系数组。
[0152] 综上所述,本公开的实施例所提供的技术方案,能够获取用户输入的内容信息中的关键信息以及该内容信息对应的用户操作行为信息;根据该用户操作行为信息和该关键
信息生成第一关系数组和第二关系数组,该第一关系数组用于记录该用户、该关键信息和
用于表征该用户和该关键信息之间的操作关联的第一操作关联标识三者之间的关联关系,
该第二关系数组用于记录该关键信息、该用户所关注的目标对象和用于表征该目标对象和
该关键信息之间的操作关联的第二操作关联标识三者之间的关联关系;通过该第一关系数
组和该第二关系数组构建知识图谱。能够在用户针对目标对象进行操作后,生成操作行为
相关的新的知识图谱元素,并根据业务系统原有的数据架构构建或更新知识图谱,从而提
高知识图谱的更新频率和准确度,降低人力成本。
[0153] 示例地,图7是根据一示例性实施例示出的一种电子设备700的框图。参照图7,电子设备700包括处理器701,其数量可以为一个或多个,以及存储器702,用于存储可由处理
器701执行的计算机程序。存储器702中存储的计算机程序可以包括一个或一个以上的每一
个对应于一组指令的模块。此外,处理器701可以被配置为执行该计算机程序,以执行上述
的知识图谱的构建方法。
[0154] 另外,电子设备700还可以包括电源组件703和通信组件704,该电源组件703可以被配置为执行电子设备700的电源管理,该通信组件704可以被配置为实现电子设备700的
通信,例如,有线或无线通信。此外,该电子设备700还可以包括输入/输出(I/O)接口705。电
子设备700可以操作基于存储在存储器702的操作系统,例如Windows ServerTM,Mac OS 
XTM,UnixTM,LinuxTM等等。
[0155] 在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的知识图谱的构建方法的步骤。例如,该计算机可读存
储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器
701执行以完成上述的知识图谱的构建方法。
[0156] 以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简
单变型,这些简单变型均属于本公开的保护范围。
[0157] 另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可
能的组合方式不再另行说明。