知识图谱的生成方法及装置转让专利

申请号 : CN201911173948.6

文献号 : CN110990584B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张翔

申请人 : 口口相传(北京)网络技术有限公司

摘要 :

本发明实施例公开了一种知识图谱的生成方法及装置,该方法包括:获取样本数据,并提取样本数据中的命名实体;其中,命名实体包括第一类命名实体以及第二类命名实体;针对于任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度;并确定出与该第一类命名实体具有强关联强度的第二类命名实体;建立该第一类命名实体与该第一类命名实体具有强关联强度的第二类命名实体之间的实体关系,以生成知识图谱。本方案通过实体间的关联强度来构建知识图谱,能够有效避免知识图谱中的数据冗余,节约存储资源;并且,本方案构建的知识图谱能够反映实体间的关联强度,进一步提升基于构建的知识图谱的数据分析效率及分析精度。

权利要求 :

1.一种知识图谱的生成方法,包括:

在大数据存储系统中搜集文本词以及各文本词之间的从属关系数据,所述文本词包含:商品词、店铺词、和/或至少一级类目词;

根据各文本词之间的从属关系数据,计算各文本词之间的关联强度;

根据所述各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词;其中,若商品词相对于店铺词的关联强度,大于该商品词相对于第一层级类目词的关联强度与强度系数的乘积,则确定该店铺词为与该商品词具有强关联强度的店铺词;

建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;

和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系。

2.根据权利要求1所述的方法,其中,所述根据所述各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词进一步包括:若商品词相对于第一层级类目词的关联强度,大于该商品词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该商品词具有强关联强度的类目词;

若店铺词相对于第一层级类目词的关联强度,大于该店铺词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该店铺词具有强关联强度的类目词;

其中,所述第二层级为第一层级的父层级。

3.根据权利要求1所述的方法,其中,所述根据各文本词之间的从属关系数据,计算各文本词之间的关联强度进一步包括:统计商品词相对于店铺词的第一从属词频占比,根据所述第一从属词频占比计算商品词与店铺词的关联强度;

和/或,统计商品词相对于至少一级类目词的至少一个第二从属词频占比;根据所述至少一个第二从属词频占比,计算商品词与至少一级类目词的关联强度;

和/或,统计店铺词相对于至少一级类目词的至少一个第三从属词频占比,根据所述至少一个第三从属词频占比,计算店铺词与至少一级类目词的关联强度。

4.根据权利要求1所述的方法,其中,所述根据各文本词之间的从属关系数据,计算各文本词之间的关联强度进一步包括:统计商品词相对于至少一级类目词的至少一个第二从属店铺占比;根据所述至少一个第二从属店铺占比,计算商品词与至少一级类目词的关联强度。

5.根据权利要求1-4中任一项所述的方法,其中,所述至少一级类目词包括:至少一级地理位置词、和/或至少一级行业类目词。

6.根据权利要求1-4中任一项所述的方法,其中,所述在大数据存储系统中搜集文本词以及各文本词之间的从属关系数据进一步包括:在大数据存储系统中获取样本数据;

对所述样本数据进行分词处理,以获得与样本数据对应的多个样本分词,根据所述样本分词获取所述文本词以及各文本词之间的从属关系数据。

7.根据权利要求6所述的方法,其中,所述对所述样本数据进行分词处理进一步包括:对所述样本数据进行中粒度分词和/或全分词。

8.根据权利要求6所述的方法,其中,在所述对所述样本数据进行分词处理之前,所述方法还包括:对所述样本数据进行预处理,获得预处理结果;

所述对所述样本数据进行分词处理进一步包括:对预处理之后的样本数据进行分词处理。

9.根据权利要求8所述的方法,其中,所述对所述样本数据进行预处理包括:对所述样本数据进行繁简体转换、大小写切换、和/或标点符号剔除。

10.根据权利要求1-4中任一项所述的方法,其中,在所述建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系之后,所述方法还包括:在文本词对应的搜索索引节点中展示与该文本词建立有知识图谱关系的其他文本词;

和/或,基于建立的知识图谱关系,计算目标文本词与候选文本词之间的关联度;并基于所述关联度,对候选文本词进行排序。

11.一种知识图谱的生成方法,包括:

获取样本数据,并提取所述样本数据中的命名实体;其中,所述命名实体包括第一类命名实体以及第二类命名实体;其中,若所述第一类命名实体为产品实体;则所述第二类命名实体包括:店铺实体、至少一级类目实体;若所述第一类命名实体包括店铺实体;则所述第二类命名实体包括:至少一级类目实体;

针对于任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度;

基于该第一类命名实体与不同的第二类命名实体的关联强度,确定出与该第一类命名实体具有强关联强度的第二类命名实体;其中,若第一类命名实体与第一层级的第二类命名实体的关联强度,大于第一类命名实体与第二层级的第二类命名实体的关联强度与强度系数的乘积,则确定该第一层级的第二类命名实体为与该第一类命名实体具有强关联强度的第二类命名实体;其中,所述第二层级为第一层级的父层级;

建立该第一类命名实体与该第一类命名实体具有强关联强度的第二类命名实体之间的实体关系,以生成知识图谱。

12.根据权利要求11所述的方法,其中,所述确定该第一类命名实体与不同的第二类命名实体的关联强度进一步包括:确定该第一类命名实体与不同层级的第二类命名实体的关联强度。

13.根据权利要求11所述的方法,其中,所述针对于任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度进一步包括:针对于任一第一类命名实体,统计该第一类命名实体相对于不同的第二类命名实体的从属占比;

基于该第一类命名实体相对于不同的第二类命名实体的从属占比,确定该第一类命名实体与不同的第二类命名实体的关联强度。

14.根据权利要求13所述的方法,其中,所述从属占比包括:从属词频占比和/或从属店铺占比。

15.根据权利要求11-14中任一项所述的方法,其中,在所述获取样本数据之后,所述方法还包括:对所述样本数据进行分词处理,以获得与样本数据对应的多个样本分词;

则所述针对于任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度进一步包括:基于所述多个样本分词,针对任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度。

16.根据权利要求15所述的方法,其中,所述对所述样本数据进行分词处理进一步包括:对所述样本数据进行中粒度分词和/或全分词。

17.根据权利要求15所述的方法,其中,在所述对所述样本数据进行分词处理之前,所述方法还包括:对所述样本数据进行预处理,获得预处理结果;

则所述对所述样本数据进行分词处理进一步包括:对预处理之后的样本数据进行分词处理。

18.根据权利要求17所述的方法,其中,所述对所述样本数据进行预处理包括:对所述样本数据进行繁简体转换、大小写切换、和/或标点符号剔除。

19.根据权利要求11-14中任一项所述的方法,其中,所述至少一级类目实体包括:至少一级地理位置实体和/或至少一级行业类目实体。

20.根据权利要求11-14中任一项所述的方法,其中,在所述生成知识图谱之后,所述方法还包括:在命名实体对应的搜索索引节点中,展示与该命名实体建立有实体关系的命名实体;

和/或,基于生成的知识图谱,计算目标命名实体与候选命名实体之间的关联度;并基于所述关联度,对候选命名实体进行排序。

21.一种知识图谱的生成装置,包括:

搜集模块,适于在大数据存储系统中搜集文本词以及各文本词之间的从属关系数据,所述文本词包含:商品词、店铺词、和/或至少一级类目词;

计算模块,适于根据各文本词之间的从属关系数据,计算各文本词之间的关联强度;

确定模块,适于根据所述各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词;其中,若商品词相对于店铺词的关联强度,大于该商品词相对于第一层级类目词的关联强度与强度系数的乘积,则确定该店铺词为与该商品词具有强关联强度的店铺词;

建立模块,适于建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系。

22.根据权利要求21所述的装置,其中,所述确定模块进一步适于:若商品词相对于第一层级类目词的关联强度,大于该商品词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该商品词具有强关联强度的类目词;

若店铺词相对于第一层级类目词的关联强度,大于该店铺词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该店铺词具有强关联强度的类目词;

其中,所述第二层级为第一层级的父层级。

23.根据权利要求21所述的装置,其中,所述计算模块进一步适于:统计商品词相对于店铺词的第一从属词频占比,根据所述第一从属词频占比计算商品词与店铺词的关联强度;

和/或,统计商品词相对于至少一级类目词的至少一个第二从属词频占比;根据所述至少一个第二从属词频占比,计算商品词与至少一级类目词的关联强度;

和/或,统计店铺词相对于至少一级类目词的至少一个第三从属词频占比,根据所述至少一个第三从属词频占比,计算店铺词与至少一级类目词的关联强度。

24.根据权利要求21所述的装置,其中,所述计算模块进一步适于:统计商品词相对于至少一级类目词的至少一个第二从属店铺占比;根据所述至少一个第二从属店铺占比,计算商品词与至少一级类目词的关联强度。

25.根据权利要求21-24中任一项所述的装置,其中,所述至少一级类目词包括:至少一级地理位置词、和/或至少一级行业类目词。

26.根据权利要求21-24中任一项所述的装置,其中,所述搜集模块进一步适于:在大数据存储系统中获取样本数据;

所述装置还包括:分词模块,适于对所述样本数据进行分词处理,以获得与样本数据对应的多个样本分词,根据所述样本分词获取所述文本词以及各文本词之间的从属关系数据。

27.根据权利要求26所述的装置,其中,所述分词模块进一步适于:对所述样本数据进行中粒度分词和/或全分词。

28.根据权利要求26所述的装置,其中,所述装置还包括:预处理模块,适于对所述样本数据进行预处理,获得预处理结果;

则所述分词模块进一步适于:对预处理之后的样本数据进行分词处理。

29.根据权利要求28所述的装置,其中,所述预处理模块进一步适于:对所述样本数据进行繁简体转换、大小写切换、和/或标点符号剔除。

30.根据权利要求21-24中任一项所述的装置,其中,所述装置还包括:展示模块,适于在文本词对应的搜索索引节点中展示与该文本词建立有知识图谱关系的其他文本词;

和/或,排序模块,适于基于建立的知识图谱关系,计算目标文本词与候选文本词之间的关联度;并基于所述关联度,对候选文本词进行排序。

31.一种知识图谱的生成装置,包括:

提取模块,适于获取样本数据,并提取所述样本数据中的命名实体;其中,所述命名实体包括第一类命名实体以及第二类命名实体;其中,若所述第一类命名实体为产品实体;则所述第二类命名实体包括:店铺实体、至少一级类目实体;若所述第一类命名实体包括店铺实体;则所述第二类命名实体包括:至少一级类目实体;

强度确定模块,适于针对于任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度;

实体确定模块,适于基于该第一类命名实体与不同的第二类命名实体的关联强度,确定出与该第一类命名实体具有强关联强度的第二类命名实体;其中,若第一类命名实体与第一层级的第二类命名实体的关联强度,大于第一类命名实体与第二层级的第二类命名实体的关联强度与强度系数的乘积,则确定该第一层级的第二类命名实体为与该第一类命名实体具有强关联强度的第二类命名实体;其中,所述第二层级为第一层级的父层级;

建立模块,适于建立该第一类命名实体与该第一类命名实体具有强关联强度的第二类命名实体之间的实体关系,以生成知识图谱。

32.根据权利要求31所述的装置,其中,所述强度确定模块进一步适于:确定该第一类命名实体与不同层级的第二类命名实体的关联强度。

33.根据权利要求31所述的装置,其中,所述强度确定模块进一步适于:针对于任一第一类命名实体,统计该第一类命名实体相对于不同的第二类命名实体的从属占比;

基于该第一类命名实体相对于不同的第二类命名实体的从属占比,确定该第一类命名实体与不同的第二类命名实体的关联强度。

34.根据权利要求33所述的装置,其中,所述从属占比包括:从属词频占比和/或从属店铺占比。

35.根据权利要求31-34中任一项所述的装置,其中,所述装置还包括:分词模块,适于对所述样本数据进行分词处理,以获得与样本数据对应的多个样本分词;

则所述强度确定模块进一步适于:基于所述多个样本分词,针对任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度。

36.根据权利要求35所述的装置,其中,所述分词模块进一步适于:对所述样本数据进行中粒度分词和/或全分词。

37.根据权利要求35所述的装置,其中,所述装置还包括:预处理模块,适于对所述样本数据进行预处理,获得预处理结果;

则所述分词模块进一步适于:对预处理之后的样本数据进行分词处理。

38.根据权利要求37所述的装置,其中,所述预处理模块进一步适于:对所述样本数据进行繁简体转换、大小写切换、和/或标点符号剔除。

39.根据权利要求31-34中任一项所述的装置,其中,所述至少一级类目实体包括:至少一级地理位置实体和/或至少一级行业类目实体。

40.根据权利要求31-34中任一项所述的装置,其中,所述装置还包括:展示模块,适于在命名实体对应的搜索索引节点中,展示与该命名实体建立有实体关系的命名实体;

和/或,排序模块,适于基于生成的知识图谱,计算目标命名实体与候选命名实体之间的关联度;并基于所述关联度,对候选命名实体进行排序。

41.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-10中任一项所述的知识图谱的生成方法对应的操作。

42.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求11-20中任一项所述的知识图谱的生成方法对应的操作。

43.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-10中任一项所述的知识图谱的生成方法对应的操作。

44.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求11-20中任一项所述的知识图谱的生成方法对应的操作。

说明书 :

知识图谱的生成方法及装置

技术领域

[0001] 本发明涉及数据处理技术领域,具体涉及一种知识图谱的生成方法及装置。

背景技术

[0002] 随着科学技术的不断发展,各类数据呈现井喷式地增长,从而为海量数据的处理及分析提出了新的挑战。目前,知识图谱以其可视化、数据全面性及数据连贯性等特点被广泛地应用在海量数据的处理及分析过程中。
[0003] 目前的知识图谱通常为三元组结构,即实体A-关系R-实体B。现有的知识图谱构建方式主要为:提取实体,并根据实体间的从属关系等构建知识图谱三元组。
[0004] 然而,采用现有的知识图谱构建方式会使得构建的知识图谱出现大量的数据冗余,并无法体现实体间真正的关联关系。以餐饮行业为例,“宫保鸡丁”这一家常菜会出现在大部分的店铺菜单中,若采用现有的知识图谱构建方式,则构建的知识图谱中“宫保鸡丁”实体会与大多数店铺实体建立实体连接,从而造成大量的数据冗余,增加存储负担;并且,由于该种构建方式是直接根据从属关系进行构建,从而使得无法准确反映实体间的关联关系,如通过宫保鸡丁-从属于-店铺A,并无法真实地反映“宫保鸡丁”与“店铺A”之间的关联关系,从而降低对海量数据的分析效率及分析精度。

发明内容

[0005] 鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的知识图谱的生成方法及装置。
[0006] 根据本发明实施例的一个方面,提供了一种知识图谱的生成方法,包括:
[0007] 在大数据存储系统中搜集文本词以及各文本词之间的从属关系数据,所述文本词包含:商品词、店铺词、和/或至少一级类目词;根据各文本词之间的从属关系数据,计算各文本词之间的关联强度;根据所述各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词;建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系。
[0008] 可选的,所述根据所述各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词进一步包括:若商品词相对于店铺词的关联强度,大于该商品词相对于第一层级类目词的关联强度与强度系数的乘积,则确定该店铺词为与该商品词具有强关联强度的店铺词;若商品词相对于第一层级类目词的关联强度,大于该商品词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该商品词具有强关联强度的类目词;若店铺词相对于第一层级类目词的关联强度,大于该店铺词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该店铺词具有强关联强度的类目词;其中,所述第二层级为第一层级的父层级。
[0009] 可选的,所述根据各文本词之间的从属关系数据,计算各文本词之间的关联强度进一步包括:统计商品词相对于店铺词的第一从属词频占比,根据所述第一从属词频占比计算商品词与店铺词的关联强度;和/或,统计商品词相对于至少一级类目词的至少一个第二从属词频占比;根据所述至少一个第二从属词频占比,计算商品词与至少一级类目词的关联强度;和/或,统计店铺词相对于至少一级类目词的至少一个第三从属词频占比,根据所述至少一个第三从属词频占比,计算店铺词与至少一级类目词的关联强度。
[0010] 可选的,所述根据各文本词之间的从属关系数据,计算各文本词之间的关联强度进一步包括:统计商品词相对于至少一级类目词的至少一个第二从属店铺占比;根据所述至少一个第二从属店铺占比,计算商品词与至少一级类目词的关联强度。
[0011] 可选的,所述至少一级类目词包括:至少一级地理位置词、和/或至少一级行业类目词。
[0012] 可选的,所述在大数据存储系统中搜集文本词以及各文本词之间的从属关系数据进一步包括:在大数据存储系统中获取样本数据;对所述样本数据进行分词处理,以获得与样本数据对应的多个样本分词,根据所述样本分词获取所述文本词以及各文本词之间的从属关系数据。
[0013] 可选的,所述对所述样本数据进行分词处理进一步包括:对所述样本数据进行中粒度分词和/或全分词。
[0014] 可选的,在所述对所述样本数据进行分词处理之前,所述方法还包括:对所述样本数据进行预处理,获得预处理结果;所述对所述样本数据进行分词处理进一步包括:对预处理之后的样本数据进行分词处理。
[0015] 可选的,所述对所述样本数据进行预处理包括:对所述样本数据进行繁简体转换、大小写切换、和/或标点符号剔除。
[0016] 可选的,在所述建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系之后,所述方法还包括:在文本词对应的搜索索引节点中展示与该文本词建立有知识图谱关系的其他文本词;和/或,基于建立的知识图谱关系,计算目标文本词与候选文本词之间的关联度;并基于所述关联度,对候选文本词进行排序。
[0017] 根据本发明实施例的另一个方面,提供了一种知识图谱的生成装置,包括:
[0018] 搜集模块,适于在大数据存储系统中搜集文本词以及各文本词之间的从属关系数据,所述文本词包含:商品词、店铺词、和/或至少一级类目词;计算模块,适于根据各文本词之间的从属关系数据,计算各文本词之间的关联强度;确定模块,适于根据所述各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词;建立模块,适于建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系。
[0019] 可选的,所述确定模块进一步适于:若商品词相对于店铺词的关联强度,大于该商品词相对于第一层级类目词的关联强度与强度系数的乘积,则确定该店铺词为与该商品词具有强关联强度的店铺词;若商品词相对于第一层级类目词的关联强度,大于该商品词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该商品词具有强关联强度的类目词;若店铺词相对于第一层级类目词的关联强度,大于该店铺词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该店铺词具有强关联强度的类目词;其中,所述第二层级为第一层级的父层级。
[0020] 可选的,所述计算模块进一步适于:统计商品词相对于店铺词的第一从属词频占比,根据所述第一从属词频占比计算商品词与店铺词的关联强度;和/或,统计商品词相对于至少一级类目词的至少一个第二从属词频占比;根据所述至少一个第二从属词频占比,计算商品词与至少一级类目词的关联强度;和/或,统计店铺词相对于至少一级类目词的至少一个第三从属词频占比,根据所述至少一个第三从属词频占比,计算店铺词与至少一级类目词的关联强度。
[0021] 可选的,所述计算模块进一步适于:统计商品词相对于至少一级类目词的至少一个第二从属店铺占比;根据所述至少一个第二从属店铺占比,计算商品词与至少一级类目词的关联强度。
[0022] 可选的,所述至少一级类目词包括:至少一级地理位置词、和/或至少一级行业类目词。
[0023] 可选的,所述搜集模块进一步适于:在大数据存储系统中获取样本数据;所述装置还包括:分词模块,适于对所述样本数据进行分词处理,以获得与样本数据对应的多个样本分词,根据所述样本分词获取所述文本词以及各文本词之间的从属关系数据。
[0024] 可选的,所述分词模块进一步适于:对所述样本数据进行中粒度分词和/或全分词。
[0025] 可选的,所述装置还包括:预处理模块,适于对所述样本数据进行预处理,获得预处理结果;则所述分词模块进一步适于:对预处理之后的样本数据进行分词处理。
[0026] 可选的,所述预处理模块进一步适于:对所述样本数据进行繁简体转换、大小写切换、和/或标点符号剔除。
[0027] 可选的,所述装置还包括:展示模块,适于在文本词对应的搜索索引节点中展示与该文本词建立有知识图谱关系的其他文本词;和/或,排序模块,适于基于建立的知识图谱关系,计算目标文本词与候选文本词之间的关联度;并基于所述关联度,对候选文本词进行排序。
[0028] 根据本发明实施例的又一个方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0029] 所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述知识图谱的生成方法对应的操作。
[0030] 根据本发明实施例的再一个方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行上述知识图谱的生成方法对应的操作。
[0031] 根据本发明实施例提供的知识图谱的生成方法及装置,首先在大数据存储系统中搜集文本词以及各文本词之间的从属关系数据,文本词包含:商品词、店铺词、和/或至少一级类目词;并根据各文本词之间的从属关系数据,计算各文本词之间的关联强度;进而根据各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词;最终建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系。采用本方案,能够有效避免知识图谱中的数据冗余,节约存储资源;并且,本方案构建的知识图谱能够反映文本词间的关联强度,进一步提升基于构建的知识图谱的数据的分析效率及分析精度。
[0032] 根据本发明实施例的一个方面,提供了一种知识图谱的生成方法,包括:获取样本数据,并提取所述样本数据中的命名实体;其中,所述命名实体包括第一类命名实体以及第二类命名实体;针对于任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度;基于该第一类命名实体与不同的第二类命名实体的关联强度,确定出与该第一类命名实体具有强关联强度的第二类命名实体;建立该第一类命名实体与该第一类命名实体具有强关联强度的第二类命名实体之间的实体关系,以生成知识图谱。
[0033] 可选的,所述确定该第一类命名实体与不同的第二类命名实体的关联强度进一步包括:确定该第一类命名实体与不同层级的第二类命名实体的关联强度。
[0034] 可选的,所述基于该第一类命名实体与不同的第二类命名实体的关联强度,确定与该第一类命名实体所对应的目标第二类命名实体进一步包括:若第一类命名实体与第一层级的第二类命名实体的关联强度,大于第一类命名实体与第二层级的第二类命名实体的关联强度与强度系数的乘积,则确定该第一层级的第二类命名实体为与该第一类命名实体具有强关联强度的第二类命名实体;其中,所述第二层级为第一层级的父层级。
[0035] 可选的,所述针对于任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度进一步包括:针对于任一第一类命名实体,统计该第一类命名实体相对于不同的第二类命名实体的从属占比;基于该第一类命名实体相对于不同的第二类命名实体的从属占比,确定该第一类命名实体与不同的第二类命名实体的关联强度。
[0036] 可选的,所述从属占比包括:从属词频占比和/或从属店铺占比。
[0037] 可选的,在所述获取样本数据之后,所述方法还包括:对所述样本数据进行分词处理,以获得与样本数据对应的多个样本分词;则所述针对于任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度进一步包括:基于所述多个样本分词,针对任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度。
[0038] 可选的,所述对所述样本数据进行分词处理进一步包括:对所述样本数据进行中粒度分词和/或全分词。
[0039] 可选的,在所述对所述样本数据进行分词处理之前,所述方法还包括:对所述样本数据进行预处理,获得预处理结果;则所述对所述样本数据进行分词处理进一步包括:对预处理之后的样本数据进行分词处理。
[0040] 可选的,所述对所述样本数据进行预处理包括:对所述样本数据进行繁简体转换、大小写切换、和/或标点符号剔除。
[0041] 可选的,若所述第一类命名实体为产品实体;则所述第二类命名实体包括:店铺实体、至少一级类目实体;若所述第一类命名实体包括店铺实体;则所述第二类命名实体包括:至少一级类目实体;其中,所述至少一级类目实体包括:至少一级地理位置实体和/或至少一级行业类目实体。
[0042] 可选的,在所述生成知识图谱之后,所述方法还包括:在命名实体对应的搜索索引节点中,展示与该命名实体建立有实体关系的命名实体;和/或,基于生成的知识图谱,计算目标命名实体与候选命名实体之间的关联度;并基于所述关联度,对候选命名实体进行排序。
[0043] 根据本发明实施例的另一个方面,提供了一种知识图谱的生成装置,包括:提取模块,适于获取样本数据,并提取所述样本数据中的命名实体;其中,所述命名实体包括第一类命名实体以及第二类命名实体;强度确定模块,适于针对于任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度;实体确定模块,适于基于该第一类命名实体与不同的第二类命名实体的关联强度,确定出与该第一类命名实体具有强关联强度的第二类命名实体;建立模块,适于建立该第一类命名实体与该第一类命名实体具有强关联强度的第二类命名实体之间的实体关系,以生成知识图谱。
[0044] 可选的,所述强度确定模块进一步适于:确定该第一类命名实体与不同层级的第二类命名实体的关联强度。
[0045] 可选的,所述实体确定模块进一步适于:若第一类命名实体与第一层级的第二类命名实体的关联强度,大于第一类命名实体与第二层级的第二类命名实体的关联强度与强度系数的乘积,则确定该第一层级的第二类命名实体为与该第一类命名实体具有强关联强度的第二类命名实体;其中,所述第二层级为第一层级的父层级。
[0046] 可选的,所述强度确定模块进一步适于:针对于任一第一类命名实体,统计该第一类命名实体相对于不同的第二类命名实体的从属占比;基于该第一类命名实体相对于不同的第二类命名实体的从属占比,确定该第一类命名实体与不同的第二类命名实体的关联强度。
[0047] 可选的,所述从属占比包括:从属词频占比和/或从属店铺占比。
[0048] 可选的,所述装置还包括:分词模块,适于对所述样本数据进行分词处理,以获得与样本数据对应的多个样本分词;则所述强度确定模块进一步适于:基于所述多个样本分词,针对任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度。
[0049] 可选的,所述分词模块进一步适于:对所述样本数据进行中粒度分词和/或全分词。
[0050] 可选的,所述装置还包括:预处理模块,适于对所述样本数据进行预处理,获得预处理结果;则所述分词模块进一步适于:对预处理之后的样本数据进行分词处理。
[0051] 可选的,所述预处理模块进一步适于:对所述样本数据进行繁简体转换、大小写切换、和/或标点符号剔除。
[0052] 可选的,若所述第一类命名实体为产品实体;则所述第二类命名实体包括:店铺实体、至少一级类目实体;若所述第一类命名实体包括店铺实体;则所述第二类命名实体包括:至少一级类目实体;其中,所述至少一级类目实体包括:至少一级地理位置实体和/或至少一级行业类目实体。
[0053] 可选的,所述装置还包括:展示模块,适于在命名实体对应的搜索索引节点中,展示与该命名实体建立有实体关系的命名实体;和/或,排序模块,适于基于生成的知识图谱,计算目标命名实体与候选命名实体之间的关联度;并基于所述关联度,对候选命名实体进行排序。
[0054] 根据本发明的又一个方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
[0055] 所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述知识图谱的生成方法对应的操作。
[0056] 根据本发明的再一个方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行上述知识图谱的生成方法对应的操作。
[0057] 根据本发明提供的知识图谱的生成方法及装置,先获取样本数据,并提取样本数据中的命名实体;其中,命名实体包括第一类命名实体以及第二类命名实体;进一步针对于至少一个第一类命名实体中的每个第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度;并基于该第一类命名实体与不同的第二类命名实体的关联强度,确定与该第一类命名实体具有强关联强度的第二类命名实体;最终建立该第一类命名实体与强关联强度第二类命名实体之间的实体关系,以生成知识图谱。本方案中通过实体间的关联强度来构建知识图谱,能够有效避免知识图谱中的数据冗余,节约存储资源;并且,本方案构建的知识图谱能够反映实体间的关联强度,进一步提升基于构建的知识图谱的数据的分析效率及分析精度。
[0058] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

[0059] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0060] 图1示出了本发明一个实施例提供的一种知识图谱的生成方法的流程示意图;
[0061] 图2示出了本发明另一个实施例提供的一种知识图谱的生成方法的流程示意图;
[0062] 图3示出了本发明一个实施例提供的一种知识图谱的生成装置的功能结构示意图;
[0063] 图4示出了本发明另一个实施例提供的一种知识图谱的生成装置的功能结构示意图;
[0064] 图5示出了本发明一个实施例提供的计算设备的结构示意图;
[0065] 图6示出了本发明另一个实施例提供的计算设备的结构示意图。

具体实施方式

[0066] 下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
[0067] 图1示出了本发明一个实施例提供的一种知识图谱的生成方法的流程示意图,该方法能够应用于多种领域的知识图谱的构建,如电子商务领域(尤其是本地生活服务领域)、视频服务领域等等。并且,本方法的实施可通过相应的计算设备执行,本实施例对计算设备的具体类型等不做限定。如图1所示,该方法包括以下步骤:
[0068] 步骤S110:获取样本数据,并提取样本数据中的命名实体。
[0069] 为构建知识图谱,本实施例中首先获取有构建知识图谱所需的原始数据,即样本数据。本实施例对样本数据的类型及获取方式等不做限定。例如,为获得本地生活服务领域的知识图谱,可基于本地生活服务平台中的相关数据(如订单数据、产品详情数据、店铺介绍数据等等)来获取样本数据;为获得视频服务领域的知识图谱,可基于视频服务平台中的相关数据(如视频浏览数据、视频消费数据等)来获取样本数据。
[0070] 进一步地,基于获取到的样本数据,提取该样本数据中的命名实体。其中,在提取命名实体过程中,首先需确定构建的知识图谱的领域,进一步地基于该领域来进行命名实体提取。举例来说,在本地生活服务领域的知识图谱,其命名实体通常包含产品实体类别、店铺实体类别、类目实体类别(如行业类目、地理位置类别)等等,则在提取该样本数据中的命名实体过程中,可基于上述多种类别来进行命名实体的提取;同理,在视频服务领域的知识图谱,可基于视频实体类别、和/或类目实体类别等等来进行命名实体的提取。
[0071] 本实施例中,提取出的命名实体包含第一类命名实体及第二类命名实体,其中,第一类命名实体与第二类命名实体所属的类别不同。可选的,若第一类命名实体为产品实体,则第二类命名实体包括:店铺实体、至少一级类目实体;若第一类命名实体包括店铺实体,则第二类命名实体包括至少一级类目实体;其中,至少一级类目实体包括:至少一级地理位置实体和/或至少一级行业类目实体。例如,当第一类命名实体为产品实体时,如“草原牛肉”,则第二类命名实体可以为店铺实体,如“大龙焱”,或者,第二类命名实体可以为二级行业类目实体,如“火锅”,又或者,第二类命名实体可以为一级行业类目实体,如“美食”;当第一类命名实体为产品实体时,如“草原牛肉”,则第二类命名实体可以为二级地理位置实体,如“海淀区”,又或者,第二类命名实体可以为一级地理位置实体,如“北京”等等。
[0072] 可选的,本实施例中样本数据通常为文本数据,为便于后续知识图谱的快速及精准地构建,本实施例在获取样本数据之后,对该样本数据进行进一步地处理,以获得处理后的样本数据。其中,对样本数据的处理过程包括以下处理方式中的一种或多种的组合:
[0073] 处理方式一,对样本数据进行预处理,以获得预处理结果。其中,该预处理过程为对文本数据的初步处理过程,该预处理过程可以包括:对样本数据的繁简体转换、大小写切换、和/或标点符号剔除等等。通过对样本数据的预处理,能够提升处理后的样本数据的结构化及可分析性,从而便于后续步骤的快速及准确地实施。
[0074] 处理方式二,对样本数据(或上述处理方式一中预处理之后的样本数据)进行分词处理,以获得与该样本数据相对应的多个样本分词。其中,本实施例对具体的分词处理方法不做限定,但为进一步地分析实体之间的关联关系,提升构建的知识图谱的精准度,本实施例所采用的分词处理方法为中粒度分词和/或全分词。其中,全分词是一种基于切分产出所有组合的分词方法,如针对于一条样本数据“全聚德北京烤鸭”,通过全分词之后,可获得“全聚德”,“北京”,“烤鸭”,“全聚德北京”,“北京烤鸭”,“全聚德北京烤鸭”等多个样本分词。
[0075] 步骤S120,针对于任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度。
[0076] 现有技术在构建知识图谱过程中,是直接将具有关联关系的实体建立实体连接,从而形成知识图谱。本实施例不同于此,在本实施例中通过步骤S120来确定实体之间的关联强度,从而为后续能够体现实体关联强度的知识图谱的构建提供基础。
[0077] 本实施例中,确定的实体之间的关联强度,主要为不同类别的两个实体之间的关联强度,即针对于任一第一类命名实体,来确定与该第一类命名实体不同类别的其他命名实体(即第二类命名实体)的关联强度。
[0078] 可选的,在步骤S110对样本数据进行处理之后,可基于处理后的样本数据(具体为基于对样本数据处理后获得的多个样本分词)获得能够表征第一类命名实体与不同的第二类命名实体之间的关联强度的统计指标。例如,针对于任一第一类命名实体,统计该第一类命名实体相对于不同的第二类命名实体的从属占比。其中,第一类命名实体相对于不同的第二类命名实体的从属占比可以为:第一类命名实体相对于不同的第二类命名实体下的从属词频占比和/或从属店铺占比等等。
[0079] 举例来说,第一类命名实体为产品实体,第二类命名实体为店铺实体、二级类目实体、一级类目实体时,可针对于任一产品实体,确定在多个样本分词中,该产品实体在各个店铺实体下出现的词频占比(例如,产品实体A在店铺实体B中的词频占比为,产品实体A在店铺实体B下出现的词频量与店铺实体B的词频量的比值)即为该产品实体相对于该店铺实体的从属词频占比,该产品实体在各个二级类目实体下出现的词频占比或覆盖店铺数量占比即为该产品实体相对于各个二级类目实体的从属词频占比或从属店铺占比,该产品实体在各个一级类目实体下出现的词频占比或覆盖店铺数量占比即为该产品实体相对于各个一级类目实体的从属词频占比或从属店铺占比。
[0080] 进一步可选的,第二类命名实体可以包含有多个层级的命名实体,如店铺实体为二级类目实体的子层级,二级类目实体为一级类目实体的子层级。本实施例为了能够快速准确地确定出与第一类命名实体的关联强度较强的第二类命名实体,具体是确定该第一类命名实体与不同层级的第二类命名实体的关联强度。具体地,基于多个样本分词,针对任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度。例如,可根据第一类命名实体与不同的第二类命名实体之间的关联强度的统计指标,来确定该第一类命名实体与不同层级的第二类命名实体的关联强度。在实际的实施过程中,基于该第一类命名实体相对于不同的第二类命名实体的从属占比,确定该第一类命名实体与不同的第二类命名实体的关联强度。一般情况下,第一类命名实体相对于某第二类命名实体的从属占比越高,则表明该第一类命名实体与该第二类命名实体的关联强度越高。可选的,在根据第一类命名实体与不同的第二类命名实体之间的关联强度的统计指标,来确定该第一类命名实体与不同层级的第二类命名实体的关联强度时,可仅根据一类统计指标(如仅根据从属词频占比或者从属店铺占比)确定该第一类命名实体与不同层级的第二类命名实体的关联强度;也可以根据多类统计指标的综合(如根据从属词频占比或者从属店铺占比的加权值)确定该第一类命名实体与不同层级的第二类命名实体的关联强度,从而降低实体关系的误判率,提高构建的知识图谱的准确度。
[0081] 步骤S130,基于该第一类命名实体与不同的第二类命名实体的关联强度,确定出与该第一类命名实体具有强关联强度的第二类命名实体。
[0082] 在一种可选的实施方式中,可将与该第一类命名实体的关联强度大于预设阈值的第二类命名实体确定为与该第一类命名实体具有强关联强度的第二类命名实体;也可将与该第一类命名实体的关联强度位于前n位的第二类命名实体确定为与该第一类命名实体具有强关联强度的第二类命名实体等等。
[0083] 在又一种可选的实施方式中,若第一类命名实体与第一层级的第二类命名实体的关联强度,大于第一类命名实体与第二层级的第二类命名实体的关联强度与强度系数的乘积,则确定该第一层级的第二类命名实体为与该第一类命名实体具有强关联强度的第二类命名实体;其中,第二层级为第一层级的父层级;强度系数可以为1。从中可看出,当第一类命名实体与第一层级的第二类命名实体的关联强度,大于第一类命名实体与第二层级的第二类命名实体的关联强度与强度系数的乘积时,表明了该第一类命名实体与第一层级的第二类命名实体的关联强度,要高于该第一类命名实体与第二层级中其他的第一层级的第二类命名实体的关联强度。
[0084] 以下以多个具体示例来阐明本步骤的实施过程:
[0085] 示例一:产品实体A(第一类命名实体)与店铺实体B(第一层级的第二类命名实体)的关联强度(此处的关联强度可以为产品实体A在店铺实体B下的词频占比),大于产品实体A与二级类目C(第二层级的第二类命名实体)的关联强度*y(y为强度系数,通常为自然系数1),则表明产品实体A与店铺实体B的关联强度要大于二级类目C下的其他大部分店铺实体的关联强度,二级类目C为实体店铺B的父层级,从而将店铺实体B确定为与产品实体A具有强关联强度的第二类命名实体。
[0086] 示例二:产品实体A(第一类命名实体)与二级类目实体C(第一层级的第二类命名实体)的关联强度,大于产品实体A与一级类目实体D(第二层级的第二类命名实体)的关联强度*y(y为强度系数,通常为自然系数1),则表明产品实体A与二级类目实体C的关联强度要大于一级类目D下的大部分其他二级类目实体的关联强度,一级类目D二级类目实体C的父层级,为从而将二级类目实体C确定为产品实体A具有强关联强度的第二类命名实体。
[0087] 示例三:店铺实体B(第一类命名实体)与二级类目实体C(第一层级的第二类命名实体)的关联强度,大于店铺实体B与一级类目实体D(第二层级的第二类命名实体)的关联强度*y(y为强度系数,通常为自然系数1),则表明店铺实体B与二级类目实体C的关联强度要大于一级类目D下的大部分其他二级类目实体的关联强度,从而将二级类目实体C确定为店铺实体B具有强关联强度的第二类命名实体。
[0088] 步骤S140,建立该第一类命名实体与该第一类命名实体具有强关联强度的第二类命名实体之间的实体关系,以生成知识图谱。
[0089] 本步骤建立该第一类命名实体与该第一类命名实体具有强关联强度的第二类命名实体之间的实体关系,能够使得本实施例构建的知识图谱中体现实体间的关联强度,过滤关联强度弱的实体关系。
[0090] 可选的,在生成知识图谱之后,可利用生成的知识图谱来进行数据分析或处理。例如,目前为便于提升搜索效率,通常会建立相应的搜索索引,搜索索引中包含有至少一个搜索索引节点,该搜索索引节点通常为搜索词。则本实施例可利用利用生成的知识图谱对现有的搜索索引进行优化,例如在命名实体对应的搜索索引节点中展示与该命名实体建立有实体关系的其他命名实体,从而提升搜索召回率;又或者,可利用生成的知识图谱,计算命名实体之间的关联度。如,可基于生成的知识图谱,计算目标命名实体与候选命名实体之间的关联度,并基于该关联度对候选命名实体进行排序。举例来说,命名实体A对应有2个候选命名实体(命名实体B及命名实体C),其中,命名实体A可以为搜索关键词,候选命名实体可以为搜索结果词。若命名实体A与命名实体B建立有实体关系,而命名实体A与命名实体C未建立实体关系,则确定命名实体A与命名实体B的关联度高于命名实体A与命名实体C的关联度,并按照与命名实体A关联度由高至低的顺序依次展示命名实体B及命名实体C。
[0091] 由此可见,本实施例不同于现有技术中直接将具有关联关系的实体建立连接,而是在提取获得命名实体之后,进一步确定第一类命名实体与不同的第二类命名实体之间的关联强度,并基于该关联强度来取得该第一类命名实体对应的目标第二类命名实体,最终建立该第一类命名实体与具有强关联强度的第二类命名实体之间的实体关系。本方案通过实体间的关联强度来构建知识图谱,能够有效避免知识图谱中的数据冗余,节约存储资源;并且,本方案构建的知识图谱能够反映实体间的关联强度,进一步提升基于构建的知识图谱的数据的分析效率及分析精度。
[0092] 图2示出了本发明另一个实施例提供的一种知识图谱的生成方法的流程示意图,该方法能够应用于电子商务领域(尤其是本地生活服务领域)等等。并且,本方法的实施可通过相应的计算设备执行,本实施例对计算设备的具体类型等不做限定。
[0093] 如图2所示,该方法包括:
[0094] 步骤S210,在大数据存储系统中搜集文本词以及各文本词之间的从属关系数据。
[0095] 本实施例中预先从大数据存储系统中搜集有多个文本词。其中,文本词包含:商品词、店铺词、和/或至少一级类目词。该至少一级类目词包括:至少一级地理位置词、和/或至少一级行业类目词。并且,本实施例还获取有各文本词之间的从属关系数据。
[0096] 可选的,在实际的实施过程中,可从大数据存储系统中获取样本数据,并对样本数据进行分词处理,以获得与样本数据对应的多个样本分词,从而根据样本分词获取文本词以及各文本词之间的从属关系数据。其中,在对样本数据进行分词处理过程中,具体可采用中粒度分词和/或全分词的分词方式,从而能够精准地分析文本词之间的关联关系,提升构建的知识图谱的精准度。其中,全分词是一种基于切分产出所有组合的分词方法,如针对于一条样本数据“全聚德北京烤鸭”,通过全分词之后,可获得“全聚德”,“北京”,“烤鸭”“, 全聚德北京”,“北京烤鸭”,“全聚德北京烤鸭”等多个样本分词。
[0097] 进一步可选的,在对样本数据进行分词处理之前,可对样本数据进行预处理,获得预处理结果,从而对预处理之后的样本数据进行分词处理。其中,该预处理过程为对文本数据的初步处理过程,该预处理过程可以包括:对样本数据的繁简体转换、大小写切换、和/或标点符号剔除等等。通过对样本数据的预处理,能够提升处理后的样本数据的结构化及可分析性,从而便于后续步骤的快速及准确地实施。
[0098] 步骤S220,根据各文本词之间的从属关系数据,计算各文本词之间的关联强度。
[0099] 其中,本实施例中各文本词之间的关联强度具体是指:商品词与店铺词的关联强度、商品词与至少一级类目词的关联强度、和/或店铺词与至少一级类目词的关联强度。
[0100] 则在一种可选的实施方式中,可通过以下方式计算各文本词之间的关联强度:
[0101] 统计商品词相对于店铺词的第一从属词频占比,根据第一从属词频占比计算商品词与店铺词的关联强度。其中,第一从属词频占比具体为,商品词在店铺词下出现的词频量与店铺词的词频量的比值。如,商品词“荞麦鱼鱼”在店铺词“西贝莜面村”下出现的词频量为20,店铺词“西贝莜面村”出现的词频量为30,则商品词“荞麦鱼鱼”相对于店铺词“西贝莜面村”的第一从属词频占比为20/30。进一步地,根据该第一从属词频占比确定商品词与店铺词的关联强度,其中,第一从属词频占比正相关于商品词与店铺词的关联强度。
[0102] 和/或,统计商品词相对于至少一级类目词的至少一个第二从属词频占比;根据至少一个第二从属词频占比,计算商品词与至少一级类目词的关联强度。其中,商品词相对于类目词的第二从属词频占比为:商品词在类目词下出现的词频量与该类目词的词频量的比值。如,商品词“荞麦鱼鱼”在二级行业类目词“西北特色菜”下出现的词频量为20,二级行业类目词“西北特色菜”出现的词频量为30,则商品词“荞麦鱼鱼”相对于二级行业类目词“西北特色菜”的第二从属词频占比为20/30;商品词“荞麦鱼鱼”在一级地理位置词“北京”下出现的词频量为20,一级地理位置词“北京”出现的词频量为30,则商品词“荞麦鱼鱼”相对于一级地理位置词“北京”的第二从属词频占比为20/30。其中,第二从属词频占比正相关于商品词与类目词的关联强度。可选的,在另一种实施方式中,可统计商品词相对于至少一级类目词的至少一个第二从属店铺占比,根据至少一个第二从属店铺占比,计算商品词与至少一级类目词的关联强度。其中,商品词相对于类目词的第二从属店铺占比为,商品词在该类目词下覆盖的店铺数量,与该类目词下覆盖的总店铺数量的比值。其中,第二从属店铺占比正相关于商品词与类目词的关联强度。
[0103] 和/或,统计店铺词相对于至少一级类目词的至少一个第三从属词频占比,根据至少一个第三从属词频占比,计算店铺词与至少一级类目词的关联强度。如,店铺词“西贝莜面村”在二级行业类目词“西北特色菜”下出现的词频量为20,二级行业类目词“西北特色菜”出现的词频量为30,则店铺词“西贝莜面村”相对于二级行业类目词“西北特色菜”的第二从属词频占比为20/30;店铺词“西贝莜面村”在一级地理位置词“北京”下出现的词频量为20,一级地理位置词“北京”出现的词频量为30,则店铺词“西贝莜面村”相对于一级地理位置词“北京”的第三从属词频占比为20/30。其中,第三从属词频占比正相关于店铺词与类目词的关联强度。
[0104] 步骤S230,根据各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词。
[0105] 可选的,若商品词相对于店铺词的关联强度,大于该商品词相对于第一层级类目词的关联强度与强度系数的乘积,则确定该店铺词为与该商品词具有强关联强度的店铺词。其中,该强度系数可以为1。例如,商品词“荞麦鱼鱼”与店铺词“西贝莜面村”的关联强度,大于“荞麦鱼鱼”与二级行业类目词(即第一层级类目词)“西北特色菜”的关联强度*y(y为强度系数,通常为自然系数1),则表明商品词“荞麦鱼鱼”与店铺词“西贝莜面村”的关联强度要大于二级行业类目词“西北特色菜”下的其他大部分店铺词的关联强度,从而将店铺词“西贝莜面村”确定为与商品词“荞麦鱼鱼”具有强关联强度的第二类命名实体。
[0106] 若商品词相对于第一层级类目词的关联强度,大于该商品词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该商品词具有强关联强度的类目词;其中,第二层级为第一层级的父层级,该强度系数可以为1。例如,商品词“荞麦鱼鱼”与二级行业类目词(即第一层级类目词)“西北特色菜”的关联强度,大于商品词“荞麦鱼鱼”与一级行业类目词(即第二层级类目词)“美食”的关联强度*y(y为强度系数,通常为自然系数1),则表明商品词“荞麦鱼鱼”与二级行业类目词“西北特色菜”的关联强度要大于一级行业类目词“美食”下的大部分其他二级行业类目词的关联强度,一级行业类目词“美食”为二级行业类目词“西北特色菜”的父层级,从而将二级行业类目词“西北特色菜”确定为商品词“荞麦鱼鱼”具有强关联强度的类目词。
[0107] 若店铺词相对于第一层级类目词的关联强度,大于该店铺词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该店铺词具有强关联强度的类目词;其中,第二层级为第一层级的父层级。该强度系数可以为1。例如,店铺词“西贝莜面村”与二级行业类目词(即第一层级类目词)“西北特色菜”的关联强度,大于店铺词“西贝莜面村”与一级行业类目词(即第二层级类目词)“美食”的关联强度*y(y为强度系数,通常为自然系数1),则表明店铺词“西贝莜面村”与二级行业类目词“西北特色菜”的关联强度要大于一级行业类目词“美食”下的大部分其他二级行业类目词的关联强度,一级行业类目词“美食”为二级行业类目词“西北特色菜”的父层级,从而将二级行业类目词“西北特色菜”确定为店铺词“西贝莜面村”具有强关联强度的类目词。
[0108] 步骤S240,建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系。
[0109] 本实施例生成的知识图谱,能够体现文本词间的关联强度,过滤关联强度弱的知识图谱关系。
[0110] 可选的,在建立知识图谱关系之后,可利用建立的知识图谱关系来进行数据分析或处理。例如,目前为便于提升搜索效率,通常会建立相应的搜索索引,搜索索引中包含有至少一个搜索索引节点,该搜索索引节点通常为搜索词。则本实施例可利用建立的知识图谱关系对现有的搜索索引进行优化,例如在文本词对应的搜索索引节点中展示与该文本词建立有知识图谱关系的其他文本词,从而提升搜索召回率;又或者,基于建立的知识图谱关系,计算文本次之间的关联度。如,可基于建立的知识图谱关系,计算目标文本词与候选文本词之间的关联度,并基于该关联度对候选文本词进行排序。举例来说,文本词A对应有2个候选文本词(文本词B及文本词C),其中,文本词A可以为搜索关键词,候选文本词可以为搜索结果词。若文本词A与命文本词B建立有知识图谱关系,而文本词A与文本词C未建立实体关系,则确定文本词A与文本词B的关联度高于文本词A与文本词C的关联度,并按照与文本词A关联度由高至低的顺序依次展示文本词B及文本词C。
[0111] 由此可见,本实施例不同于现有技术中直接将具有关联关系的文本次建立连接,而建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系。本方案能够有效避免知识图谱中的数据冗余,节约存储资源;并且,本方案构建的知识图谱能够反映文本词间的关联强度,进一步提升基于构建的知识图谱的数据的分析效率及分析精度。
[0112] 图3示出了本发明一个实施例提供的一种知识图谱的生成装置的功能结构示意图。如图3所示,该装置包括:提取模块31、强度确定模块32、实体确定模块33以及建立模块34。
[0113] 提取模块31,适于获取样本数据,并提取所述样本数据中的命名实体;其中,所述命名实体包括第一类命名实体以及第二类命名实体;
[0114] 强度确定模块32,适于针对于任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度;
[0115] 实体确定模块33,适于基于该第一类命名实体与不同的第二类命名实体的关联强度,确定出与该第一类命名实体具有强关联强度的第二类命名实体;
[0116] 建立模块34,适于建立该第一类命名实体与该第一类命名实体具有强关联强度的第二类命名实体之间的实体关系,以生成知识图谱。
[0117] 可选的,强度确定模块进一步适于:确定该第一类命名实体与不同层级的第二类命名实体的关联强度。
[0118] 可选的,实体确定模块进一步适于:若第一类命名实体与第一层级的第二类命名实体的关联强度,大于第一类命名实体与第二层级的第二类命名实体的关联强度与强度系数的乘积,则确定该第一层级的第二类命名实体为与该第一类命名实体具有强关联强度的第二类命名实体;其中,所述第二层级为第一层级的父层级。
[0119] 可选的,所述强度确定模块进一步适于:针对于任一第一类命名实体,统计该第一类命名实体相对于不同的第二类命名实体的从属占比;基于该第一类命名实体相对于不同的第二类命名实体的从属占比,确定该第一类命名实体与不同的第二类命名实体的关联强度。
[0120] 可选的,所述从属占比包括:从属词频占比和/或从属店铺占比。
[0121] 可选的,所述装置还包括:分词模块,适于对所述样本数据进行分词处理,以获得与样本数据对应的多个样本分词。则所述强度确定模块进一步适于:基于所述多个样本分词,针对任一第一类命名实体,确定该第一类命名实体与不同的第二类命名实体的关联强度。
[0122] 可选的,所述分词模块进一步适于:对所述样本数据进行中粒度分词和/或全分词。
[0123] 可选的,所述装置还包括:预处理模块,适于对所述样本数据进行预处理,获得预处理结果;则所述分词模块进一步适于:对预处理之后的样本数据进行分词处理。
[0124] 可选的,所述预处理模块进一步适于:对所述样本数据进行繁简体转换、大小写切换、和/或标点符号剔除。
[0125] 可选的,若所述第一类命名实体为产品实体;则所述第二类命名实体包括:店铺实体、至少一级类目实体;若所述第一类命名实体包括店铺实体;则所述第二类命名实体包括:至少一级类目实体;其中,所述至少一级类目实体包括:至少一级地理位置实体和/或至少一级行业类目实体。
[0126] 可选的,所述装置还包括:展示模块,适于在命名实体对应的搜索索引节点中,展示与该命名实体建立有实体关系的命名实体;和/或,排序模块,适于基于生成的知识图谱,计算目标命名实体与候选命名实体之间的关联度;并基于所述关联度,对候选命名实体进行排序。
[0127] 其中,本实施例中各模块的具体实施过程可参照图1方法实施例中相应步骤,本实施例在此不做赘述。
[0128] 由此可见,本方案通过实体间的关联强度来构建知识图谱,能够有效避免知识图谱中的数据冗余,节约存储资源;并且,本方案构建的知识图谱能够反映实体间的关联强度,进一步提升基于构建的知识图谱的数据的分析效率及分析精度。
[0129] 图4示出了本发明另一个实施例提供的一种知识图谱的生成装置的功能结构示意图。如图4所示,该装置包括:搜集模块41、计算模块42、确定模块43、及建立模块44。
[0130] 搜集模块41,适于在大数据存储系统中搜集文本词以及各文本词之间的从属关系数据,所述文本词包含:商品词、店铺词、和/或至少一级类目词;
[0131] 计算模块42,适于根据各文本词之间的从属关系数据,计算各文本词之间的关联强度;
[0132] 确定模块43,适于根据所述各文本词之间的关联强度,确定出与商品词具有强关联强度的店铺词和/或类目词;和/或,确定出与店铺词具有强关联强度的类目词;
[0133] 建立模块44,适于建立商品词与该商品词具有强关联强度的店铺词和/或类目词之间的知识图谱关系;和/或,建立店铺词与该店铺词具有强关联强度的类目词之间的知识图谱关系。
[0134] 可选的,所述确定模块进一步适于:若商品词相对于店铺词的关联强度,大于该商品词相对于第一层级类目词的关联强度与强度系数的乘积,则确定该店铺词为与该商品词具有强关联强度的店铺词;若商品词相对于第一层级类目词的关联强度,大于该商品词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该商品词具有强关联强度的类目词;若店铺词相对于第一层级类目词的关联强度,大于该店铺词相对于第二层级类目词的关联强度与强度系数的乘积,则确定该第一层级类目词为与该店铺词具有强关联强度的类目词;其中,所述第二层级为第一层级的父层级。
[0135] 可选的,所述计算模块进一步适于:统计商品词相对于店铺词的第一从属词频占比,根据所述第一从属词频占比计算商品词与店铺词的关联强度;和/或,统计商品词相对于至少一级类目词的至少一个第二从属词频占比;根据所述至少一个第二从属词频占比,计算商品词与至少一级类目词的关联强度;和/或,统计店铺词相对于至少一级类目词的至少一个第三从属词频占比,根据所述至少一个第三从属词频占比,计算店铺词与至少一级类目词的关联强度。
[0136] 可选的,所述计算模块进一步适于:统计商品词相对于至少一级类目词的至少一个第二从属店铺占比;根据所述至少一个第二从属店铺占比,计算商品词与至少一级类目词的关联强度。
[0137] 可选的,所述至少一级类目词包括:至少一级地理位置词、和/或至少一级行业类目词。
[0138] 可选的,所述搜集模块进一步适于:在大数据存储系统中获取样本数据;所述装置还包括:分词模块,适于对所述样本数据进行分词处理,以获得与样本数据对应的多个样本分词,根据所述样本分词获取所述文本词以及各文本词之间的从属关系数据。
[0139] 可选的,所述分词模块进一步适于:对所述样本数据进行中粒度分词和/或全分词。
[0140] 可选的,所述装置还包括:预处理模块,适于对所述样本数据进行预处理,获得预处理结果;则所述分词模块进一步适于:对预处理之后的样本数据进行分词处理。
[0141] 可选的,所述预处理模块进一步适于:对所述样本数据进行繁简体转换、大小写切换、和/或标点符号剔除。
[0142] 可选的,所述装置还包括:展示模块,适于在文本词对应的搜索索引节点中展示与该文本词建立有知识图谱关系的其他文本词;和/或,排序模块,适于基于建立的知识图谱关系,计算目标文本词与候选文本词之间的关联度;并基于所述关联度,对候选文本词进行排序。
[0143] 其中,本实施例中各模块的具体实施过程可参照图2方法实施例中相应部分描述,本实施例在此不作赘述。
[0144] 由此可见,本方案能够有效避免知识图谱中的数据冗余,节约存储资源;并且,本方案构建的知识图谱能够反映文本词间的关联强度,进一步提升基于构建的知识图谱的数据的分析效率及分析精度。
[0145] 本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述图1所示方法实施例中的知识图谱的生成方法。
[0146] 由此可见,本方案通过实体间的关联强度来构建知识图谱,能够有效避免知识图谱中的数据冗余,节约存储资源;并且,本方案构建的知识图谱能够反映实体间的关联强度,进一步提升基于构建的知识图谱的数据的分析效率及分析精度。
[0147] 本发明实施例提供了另一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述图2所示方法实施例中的知识图谱的生成方法。
[0148] 由此可见,本方案能够有效避免知识图谱中的数据冗余,节约存储资源;并且,本方案构建的知识图谱能够反映文本词间的关联强度,进一步提升基于构建的知识图谱的数据的分析效率及分析精度。
[0149] 图5示出了本发明一个实施例提供的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
[0150] 如图5所示,该计算设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
[0151] 其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。处理器502,用于执行程序510,具体可以执行上述图1所示知识图谱的生成方法实施例中的相关步骤。
[0152] 具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
[0153] 处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
[0154] 存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0155] 程序510具体可以用于使得处理器502执行图1所示方法实施例中的操作。
[0156] 由此可见,本方案通过实体间的关联强度来构建知识图谱,能够有效避免知识图谱中的数据冗余,节约存储资源;并且,本方案构建的知识图谱能够反映实体间的关联强度,进一步提升基于构建的知识图谱的数据的分析效率及分析精度。
[0157] 图6示出了本发明另一个实施例提供的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
[0158] 如图6所示,该计算设备可以包括:处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。
[0159] 其中:处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。通信接口604,用于与其它设备比如客户端或其它服务器等的网元通信。处理器602,用于执行程序610,具体可以执行上述图2所示知识图谱的生成方法实施例中的相关步骤。
[0160] 具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。
[0161] 处理器602可能是中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
[0162] 存储器606,用于存放程序610。存储器606可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0163] 程序610具体可以用于使得处理器602执行图2所示方法实施例中的操作。
[0164] 由此可见,本方案能够有效避免知识图谱中的数据冗余,节约存储资源;并且,本方案构建的知识图谱能够反映文本词间的关联强度,进一步提升基于构建的知识图谱的数据的分析效率及分析精度。
[0165] 在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0166] 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0167] 类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
[0168] 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0169] 此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0170] 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0171] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。