生成知识图谱的方法、装置和存储介质转让专利

申请号 : CN202311767192.4

文献号 : CN117435749B

文献日 : 2024-03-15

本发明提供了一种生成知识图谱的方法、装置和存储介质。该方法包括：接收目标领域关键词，生成第一层级本体构建提示信息；将其传输至本体构建模型，生成第一层级知识图谱本体；对前一层级本体根据可扩展性排序进行扩展，生成当前层级知识图谱本体；重复执行本体扩展直到达到预定义层级数目；根据知识图谱本体创建问题生成提示信息并传输至问题生成模型，生成问询语句；将问询语句和领域文档本文向量化；检索与问询语句向量相似的领域文档文本向量，组合为检索上下文；根据问询语句和检索上下文创建答案生成提示信息并传输至答案生成模型，生成答案；根据答案和本体的实体和属性生成知识图谱。本发明提升了知识图谱构建的效率和质量。

1.一种生成知识图谱的方法，其特征在于，所述方法包括以下步骤：

S101、接收用户输入的目标领域关键词，作为第一层级关键词；

S102、根据所述第一层级关键词生成第一层级本体构建提示信息，其中所述第一层级本体构建提示信息包括基于所述第一层级关键词、预先指定的来源限定信息和第一层级知识图谱本体格式来构建知识图谱本体的指令，其中所述第一层级知识图谱本体格式将第一层级知识图谱本体中的知识图谱本体条目限定为包括实体和属性；

S103、将所述第一层级本体构建提示信息传输至本体构建模型，以便由所述本体构建模型根据所述第一层级本体构建提示信息生成第一层级知识图谱本体，并且将所述第一层级知识图谱本体存储在本体库中；

S104、根据所述本体库中存储的前一层级知识图谱本体来生成实体扩展分配提示信息，其中，所述实体扩展分配提示信息包括所述前一层级知识图谱本体以及将所述前一层级知识图谱本体中的知识图谱本体条目的属性的可扩展性进行排序的指令；

S105、将所述实体扩展分配提示信息传输至实体扩展分配模型，以便由所述实体扩展分配模型根据所述实体扩展分配提示信息生成前一层级知识图谱本体的属性的可扩展性排序；

S106、按照可扩展性排序中属性可扩展性由高至低的次序，依次对前一层级知识图谱本体中的知识图谱本体条目执行以下处理：根据该知识图谱本体条目的实体和属性以及前一层级关键词，生成与该知识图谱本体条目相对应的当前层级关键词；

S107、根据所述当前层级关键词生成当前层级本体构建提示信息，其中所述当前层级本体构建提示信息包括基于所述当前层级关键词、预先指定的来源限定信息和当前层级知识图谱本体格式来构建当前层级知识图谱本体的指令，其中所述当前层级知识图谱本体格式将当前层级知识图谱本体中的知识图谱本体条目限定为包括实体和属性，并且指定当前层级知识图谱本体条目的实体是相对应的前一层级知识图谱本体条目的属性；

S108、将所述当前层级本体构建提示信息传输至所述本体构建模型，以便由所述本体构建模型根据所述当前层级本体构建提示信息生成当前层级知识图谱本体，并且将所述当前层级知识图谱本体存储在所述本体库中，其中，所述当前层级知识图谱本体条目的实体与相对应的前一层级知识图谱本体条目的属性相关联地存储；

S109、判断已生成的知识图谱本体的层级数目是否均达到预定义的层级数目阈值，如果是，则转到步骤S110；如果否，则转到步骤S104；

S110、根据所述本体库中存储的知识图谱本体来创建问题生成提示信息，并且将所述问题生成提示信息传输至问题生成模型，以便由所述问题生成模型针对所存储的知识图谱本体中的每个知识图谱本体条目的实体和属性生成问询语句；

S111、对所述问询语句进行向量化，生成问询语句向量；

S112、将预先存储的领域文档本文进行分块，生成领域文档文本块，并且对所述领域文档文本块进行向量化，生成领域文档文本向量，将所述领域文档文本向量存储在向量库中；

S113、在所述向量库中检索与所述问询语句向量相似的领域文档文本向量，并且将所述相似的领域文档文本向量相对应的领域文档文本块组合为检索上下文；

S114、根据所述问询语句和所述检索上下文来创建答案生成提示信息，其中，所述答案生成提示信息包括在所述检索上下文中检索所述问询语句的答案的指令；

S115、将所述答案生成提示信息传输至答案生成模型，以便由所述答案生成模型根据所述答案生成提示信息生成所述问询语句的答案；

S116、根据所述答案和与所述问询语句相对应的知识图谱本体条目的实体和属性来生成知识图谱的知识图谱条目，其中知识图谱条目包括实体、属性和属性值，并且其中知识图谱条目的实体和属性分别是相对应的知识图谱本体条目的实体和属性，知识图谱条目的属性值是所述答案。

2.根据权利要求1所述的方法，其特征在于，所述方法包括：

在对前一层级知识图谱本体中待扩展的全部知识图谱本体条目均执行步骤S106‑S108之后，再对当前层级知识图谱本体中的待扩展的知识图谱条目执行步骤S106‑S108。

3.根据权利要求1所述的方法，其特征在于，所述方法包括：

在对前一层级知识图谱本体中的特定知识图谱本体条目执行步骤S106‑S108之后，针对与该特定知识图谱本体条目相对应的当前层级知识图谱本体执行步骤S106‑S108，直到达到预定义的层级数目阈值，再针对所述前一层级知识图谱本体中的该特定知识图谱本体条目的下一知识图谱本体条目执行步骤S106‑S108。

4.根据权利要求1所述的方法，其特征在于，步骤S106进一步包括：

按照属性可扩展性由高至低的次序，取次序中居于前的预定扩展数目个知识图谱本体条目作为待扩展的知识图谱本体条目，针对所述待扩展的知识图谱本体条目执行以下处理：根据该知识图谱本体条目的实体和属性以及前一层级关键词，生成与该知识图谱本体条目相对应的当前层级关键词。

5.根据权利要求4所述的方法，其特征在于，根据当前层级的层数，来确定所述预定扩展数目。

6.根据权利要求1所述的方法，其特征在于，所述预定义的层级数目阈值是固定的，或者，所述预定义的层级数目阈值是根据指定层级中相对应的知识图谱条目的属性可扩展性排序的次序而确定的。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

显示所述本体库；

接收用户对所述本体库中的选定知识图谱本体条目的操作指令，所述操作指令包括删除、编辑、添加；

根据所述操作指令对所述选定知识图谱本体条目执行相应操作；

和/或，

显示所述知识图谱；

接收用户对所述知识图谱中的选定知识图谱条目的操作指令，所述操作指令包括删除、编辑、添加；

根据所述操作指令对所述选定知识图谱条目执行相应操作。

8.根据权利要求1所述的方法，其特征在于，预先指定的来源限定信息包括所述本体构建模型自身的数据库、指定数据库地址、指定搜索引擎中的一个或多个。

9.一种生成知识图谱的装置，用于实现权利要求1‑8中任一项所述的方法，其特征在于，所述装置包括：目标领域关键词接收模块，配置用于接收用户输入的目标领域关键词，作为第一层级关键词；

第一层级本体构建提示信息生成模块，配置用于根据所述第一层级关键词生成第一层级本体构建提示信息，其中所述第一层级本体构建提示信息包括基于所述第一层级关键词、预先指定的来源限定信息和第一层级知识图谱本体格式来构建知识图谱本体的指令，其中所述第一层级知识图谱本体格式将第一层级知识图谱本体中的知识图谱本体条目限定为包括实体和属性；

第一层级知识图谱本体生成模块，配置用于将所述第一层级本体构建提示信息传输至本体构建模型，以便由所述本体构建模型根据所述第一层级本体构建提示信息生成第一层级知识图谱本体，并且将所述第一层级知识图谱本体存储在本体库中；

实体扩展分配提示信息生成模块，配置用于根据所述本体库中存储的前一层级知识图谱本体来生成实体扩展分配提示信息，其中，所述实体扩展分配提示信息包括所述前一层级知识图谱本体以及将所述前一层级知识图谱本体中的知识图谱本体条目的属性的可扩展性进行排序的指令；

可扩展性排序生成模块，配置用于将所述实体扩展分配提示信息传输至实体扩展分配模型，以便由所述实体扩展分配模型根据所述实体扩展分配提示信息生成前一层级知识图谱本体的属性的可扩展性排序；

当前层级关键词生成模块，配置用于按照可扩展性排序中属性可扩展性由高至低的次序，依次对前一层级知识图谱本体中的知识图谱本体条目执行以下处理：根据该知识图谱本体条目的实体和属性以及前一层级关键词，生成与该知识图谱本体条目相对应的当前层级关键词；

当前层级本体构建提示信息生成模块，配置用于根据所述当前层级关键词生成当前层级本体构建提示信息，其中所述当前层级本体构建提示信息包括基于所述当前层级关键词、预先指定的来源限定信息和当前层级知识图谱本体格式来构建当前层级知识图谱本体的指令，其中所述当前层级知识图谱本体格式将当前层级知识图谱本体中的知识图谱本体条目限定为包括实体和属性，并且指定当前层级知识图谱本体条目的实体是相对应的前一层级知识图谱本体条目的属性；

当前层级知识图谱本体生成模块，配置用于将所述当前层级本体构建提示信息传输至所述本体构建模型，以便由所述本体构建模型根据所述当前层级本体构建提示信息生成当前层级知识图谱本体，并且将所述当前层级知识图谱本体存储在所述本体库中，其中，所述当前层级知识图谱本体条目的实体与相对应的前一层级知识图谱本体条目的属性相关联地存储；

层级数目判断模块，配置用于判断已生成的知识图谱本体的层级数目是否均达到预定义的层级数目阈值，如果是，则转到问询语句生成模块；如果否，则转到实体扩展分配提示信息生成模块；

问询语句生成模块，配置用于根据所述本体库中存储的知识图谱本体来创建问题生成提示信息，并且将所述问题生成提示信息传输至问题生成模型，以便由所述问题生成模型针对所存储的知识图谱本体中的每个知识图谱本体条目的实体和属性生成问询语句；

问询语句向量化模块，配置用于对所述问询语句进行向量化，生成问询语句向量；

领域文档本文向量化模块，配置用于将预先存储的领域文档本文进行分块，生成领域文档文本块，并且对所述领域文档文本块进行向量化，生成领域文档文本向量，将所述领域文档文本向量存储在向量库中；

检索上下文生成模块，配置用于在所述向量库中检索与所述问询语句向量相似的领域文档文本向量，并且将所述相似的领域文档文本向量相对应的领域文档文本块组合为检索上下文；

答案生成提示信息创建模块，配置用于根据所述问询语句和所述检索上下文来创建答案生成提示信息，其中，所述答案生成提示信息包括在所述检索上下文中检索所述问询语句的答案的指令；

答案生成模块，配置用于将所述答案生成提示信息传输至答案生成模型，以便由所述答案生成模型根据所述答案生成提示信息生成所述问询语句的答案；

知识图谱生成模块，配置用于根据所述答案和与所述问询语句相对应的知识图谱本体条目的实体和属性来生成知识图谱的知识图谱条目，其中知识图谱条目包括实体、属性和属性值，并且其中知识图谱条目的实体和属性分别是相对应的知识图谱本体条目的实体和属性，知识图谱条目的属性值是所述答案。

10.一种存储介质，存储有计算机可读指令，当所述指令由处理器运行时，执行根据权利要求1‑8中任一项所述的方法。

生成知识图谱的方法、装置和存储介质

技术领域

[0001] 本发明的实施方式总体上涉及特定领域的知识图谱构建，更具体地，涉及一种生成知识图谱的方法、装置和存储介质。

背景技术

[0002] 在当前的人工智能领域，知识图谱作为一种重要的知识组织工具，被广泛应用于各种复杂的问题解决和决策支持场景中。知识图谱通过以图形方式表示实体及其关系，提供了一种直观、高效的知识获取和推理方式。然而，知识图谱的构建过程通常需要大量的人力投入，包括专业领域的知识抽取、实体和关系的标注、知识的验证等环节，成本高昂。

[0003] 尽管大型语言模型在自然语言理解和生成方面展现出了强大的能力，但由于其知识无法更新，且专业和垂直领域知识在大语料库中占比非常少，使得大型语言模型在训练过程中很难学习到深度的专业知识。

[0004] 因此，在具体的应用领域，如汽车的不同车型用户手册知识图谱的构建等，仍然需要依赖知识图谱。

[0005] 另一方面，神经网络在解决事实性准确问题方面面临着挑战。为了提供确定的事实性信息，必须依赖准确的知识库。因此，在这种情况下，知识图谱的存在意义显得尤为重要。

发明内容

[0006] 为了解决现有技术中的上述问题，在第一方面，本发明的实施方式提供了一种生成知识图谱的方法，所述方法包括以下步骤：

[0007] S101、接收用户输入的目标领域关键词，作为第一层级关键词；

[0008] S102、根据所述第一层级关键词生成第一层级本体构建提示信息，其中所述第一层级本体构建提示信息包括基于所述第一层级关键词、预先指定的来源限定信息和第一层级知识图谱本体格式来构建知识图谱本体的指令，其中所述第一层级知识图谱本体格式将第一层级知识图谱本体中的知识图谱本体条目限定为包括实体和属性；

[0009] S103、将所述第一层级本体构建提示信息传输至本体构建模型，以便由所述本体构建模型根据所述第一层级本体构建提示信息生成第一层级知识图谱本体，并且将所述第一层级知识图谱本体存储在本体库中；

[0010] S104、根据所述本体库中存储的前一层级知识图谱本体来生成实体扩展分配提示信息，其中，所述实体扩展分配提示信息包括所述前一层级知识图谱本体以及将所述前一层级知识图谱本体中的知识图谱本体条目的属性的可扩展性进行排序的指令；

[0011] S105、将所述实体扩展分配提示信息传输至实体扩展分配模型，以便由所述实体扩展分配模型根据所述实体扩展分配提示信息生成前一层级知识图谱本体的属性的可扩展性排序；

[0012] S106、按照可扩展性排序中属性可扩展性由高至低的次序，依次对前一层级知识图谱本体中的知识图谱本体条目执行以下处理：根据该知识图谱本体条目的实体和属性以及前一层级关键词，生成与该知识图谱本体条目相对应的当前层级关键词；

[0013] S107、根据所述当前层级关键词生成当前层级本体构建提示信息，其中所述当前层级本体构建提示信息包括基于所述当前层级关键词、预先指定的来源限定信息和当前层级知识图谱本体格式来构建当前层级知识图谱本体的指令，其中所述当前层级知识图谱本体格式将当前层级知识图谱本体中的知识图谱本体条目限定为包括实体和属性，并且指定当前层级知识图谱本体条目的实体是相对应的前一层级知识图谱本体条目的属性；

[0014] S108、将所述当前层级本体构建提示信息传输至所述本体构建模型，以便由所述本体构建模型根据所述当前层级本体构建提示信息生成当前层级知识图谱本体，并且将所述当前层级知识图谱本体存储在所述本体库中，其中，所述当前层级知识图谱本体条目的实体与相对应的前一层级知识图谱本体条目的属性相关联地存储；

[0015] S109、判断已生成的知识图谱本体的层级数目是否均达到预定义的层级数目阈值，如果是，则转到步骤S110；如果否，则转到步骤S104；

[0016] S110、根据所述本体库中存储的知识图谱本体来创建问题生成提示信息，并且将所述问题生成提示信息传输至问题生成模型，以便由所述问题生成模型针对所存储的知识图谱本体中的每个知识图谱本体条目的实体和属性生成问询语句；

[0017] S111、对所述问询语句进行向量化，生成问询语句向量；

[0018] S112、将预先存储的领域文档本文进行分块，生成领域文档文本块，并且对所述领域文档文本块进行向量化，生成领域文档文本向量，将所述领域文档文本向量存储在向量库中；

[0019] S113、在所述向量库中检索与所述问询语句向量相似的领域文档文本向量，并且将所述相似的领域文档文本向量相对应的领域文档文本块组合为检索上下文；

[0020] S114、根据所述问询语句和所述检索上下文来创建答案生成提示信息，其中，所述答案生成提示信息包括在所述检索上下文中检索所述问询语句的答案的指令；

[0021] S115、将所述答案生成提示信息传输至答案生成模型，以便由所述答案生成模型根据所述答案生成提示信息生成所述问询语句的答案；

[0022] S116、根据所述答案和与所述问询语句相对应的知识图谱本体条目的实体和属性来生成知识图谱的知识图谱条目，其中知识图谱条目包括实体、属性和属性值，并且其中知识图谱条目的实体和属性分别是相对应的知识图谱本体条目的实体和属性，知识图谱条目的属性值是所述答案。

[0023] 在一些实施方式中，所述方法包括：在对前一层级知识图谱本体中待扩展的全部知识图谱本体条目均执行步骤S106‑S108之后，再对当前层级知识图谱本体中的待扩展的知识图谱条目执行步骤S106‑S108。

[0024] 在一些实施方式中，所述方法包括：在对前一层级知识图谱本体中的特定知识图谱本体条目执行步骤S106‑S108之后，针对与该特定知识图谱本体条目相对应的当前层级知识图谱本体执行步骤S106‑S108，直到达到预定义的层级数目阈值，再针对所述前一层级知识图谱本体中的该特定知识图谱本体条目的下一知识图谱本体条目执行步骤S106‑S108。

[0025] 在一些实施方式中，步骤S106进一步包括：按照属性可扩展性由高至低的次序，取次序中居于前的预定扩展数目个知识图谱本体条目作为待扩展的知识图谱本体条目，针对所述待扩展的知识图谱本体条目执行以下处理：根据该知识图谱本体条目的实体和属性以及前一层级关键词，生成与该知识图谱本体条目相对应的当前层级关键词。

[0026] 在一些实施方式中，根据当前层级的层数，来确定所述预定扩展数目。

[0027] 在一些实施方式中，所述预定义的层级数目阈值是固定的，或者，所述预定义的层级数目阈值是根据指定层级中相对应的知识图谱条目的属性可扩展性排序的次序而确定的。

[0028] 在一些实施方式中，所述方法还包括：显示所述本体库；接收用户对所述本体库中的选定知识图谱本体条目的操作指令，所述操作指令包括删除、编辑、添加；根据所述操作指令对所述选定知识图谱本体条目执行相应操作；和/或，显示所述知识图谱；接收用户对所述知识图谱中的选定知识图谱条目的操作指令，所述操作指令包括删除、编辑、添加；根据所述操作指令对所述选定知识图谱条目执行相应操作。

[0029] 在一些实施方式中，预先指定的来源限定信息包括所述本体构建模型自身的数据库、指定数据库地址、指定搜索引擎中的一个或多个。

[0030] 在第二方面，本发明的实施方式提出了一种生成知识图谱的装置，所述装置包括：目标领域关键词接收模块，配置用于接收用户输入的目标领域关键词，作为第一层级关键词；第一层级本体构建提示信息生成模块，配置用于根据所述第一层级关键词生成第一层级本体构建提示信息，其中所述第一层级本体构建提示信息包括基于所述第一层级关键词、预先指定的来源限定信息和第一层级知识图谱本体格式来构建知识图谱本体的指令，其中所述第一层级知识图谱本体格式将第一层级知识图谱本体中的知识图谱本体条目限定为包括实体和属性；第一层级知识图谱本体生成模块，配置用于将所述第一层级本体构建提示信息传输至本体构建模型，以便由所述本体构建模型根据所述第一层级本体构建提示信息生成第一层级知识图谱本体，并且将所述第一层级知识图谱本体存储在本体库中；
实体扩展分配提示信息生成模块，配置用于根据所述本体库中存储的前一层级知识图谱本体来生成实体扩展分配提示信息，其中，所述实体扩展分配提示信息包括所述前一层级知识图谱本体以及将所述前一层级知识图谱本体中的知识图谱本体条目的属性的可扩展性进行排序的指令；可扩展性排序生成模块，配置用于将所述实体扩展分配提示信息传输至实体扩展分配模型，以便由所述实体扩展分配模型根据所述实体扩展分配提示信息生成前一层级知识图谱本体的属性的可扩展性排序；当前层级关键词生成模块，配置用于按照可扩展性排序中属性可扩展性由高至低的次序，依次对前一层级知识图谱本体中的知识图谱本体条目执行以下处理：根据该知识图谱本体条目的实体和属性以及前一层级关键词，生成与该知识图谱本体条目相对应的当前层级关键词；当前层级本体构建提示信息生成模块，配置用于根据所述当前层级关键词生成当前层级本体构建提示信息，其中所述当前层级本体构建提示信息包括基于所述当前层级关键词、预先指定的来源限定信息和当前层级知识图谱本体格式来构建当前层级知识图谱本体的指令，其中所述当前层级知识图谱本体格式将当前层级知识图谱本体中的知识图谱本体条目限定为包括实体和属性，并且指定当前层级知识图谱本体条目的实体是相对应的前一层级知识图谱本体条目的属性；当前层级知识图谱本体生成模块，配置用于将所述当前层级本体构建提示信息传输至所述本体构建模型，以便由所述本体构建模型根据所述当前层级本体构建提示信息生成当前层级知识图谱本体，并且将所述当前层级知识图谱本体存储在所述本体库中，其中，所述当前层级知识图谱本体条目的实体与相对应的前一层级知识图谱本体条目的属性相关联地存储；层级数目判断模块，配置用于判断已生成的知识图谱本体的层级数目是否均达到预定义的层级数目阈值，如果是，则转到问询语句生成模块；如果否，则转到实体扩展分配提示信息生成模块；问询语句生成模块，配置用于根据所述本体库中存储的知识图谱本体来创建问题生成提示信息，并且将所述问题生成提示信息传输至问题生成模型，以便由所述问题生成模型针对所存储的知识图谱本体中的每个知识图谱本体条目的实体和属性生成问询语句；问询语句向量化模块，配置用于对所述问询语句进行向量化，生成问询语句向量；领域文档本文向量化模块，配置用于将预先存储的领域文档本文进行分块，生成领域文档文本块，并且对所述领域文档文本块进行向量化，生成领域文档文本向量，将所述领域文档文本向量存储在向量库中；检索上下文生成模块，配置用于在所述向量库中检索与所述问询语句向量相似的领域文档文本向量，并且将所述相似的领域文档文本向量相对应的领域文档文本块组合为检索上下文；答案生成提示信息创建模块，配置用于根据所述问询语句和所述检索上下文来创建答案生成提示信息，其中，所述答案生成提示信息包括在所述检索上下文中检索所述问询语句的答案的指令；答案生成模块，配置用于将所述答案生成提示信息传输至答案生成模型，以便由所述答案生成模型根据所述答案生成提示信息生成所述问询语句的答案；知识图谱生成模块，配置用于根据所述答案和与所述问询语句相对应的知识图谱本体条目的实体和属性来生成知识图谱的知识图谱条目，其中知识图谱条目包括实体、属性和属性值，并且其中知识图谱条目的实体和属性分别是相对应的知识图谱本体条目的实体和属性，知识图谱条目的属性值是所述答案。

[0031] 在第三方面，本发明的实施方式提出了一种存储介质，存储有计算机可读指令，当所述指令由处理器运行时，执行根据上述任何实施方式所述的方法。

[0032] 本发明的实施方式提出了一种基于大语言模型的多智能体协作构建知识图谱的方案，旨在将知识图谱构建过程自主化和自动化，尽可能的减少人工的参与，降低人力成本。通过基于大语言模型的AI智能体，可以与环境互动执行长期和复杂的任务，并扮演不同的角色进行相互协作，从而实现知识图谱的自动化构建。

[0033] 将知识图谱的构建流程自动化并利用多个模型来扮演不同的角色，会带来显著的效率提升。这种提升主要体现在以下两个方面：

[0034] 1、知识图谱本体构建过程的自动化：各种模型的不同角色以及相互协作弥补了依赖单一领域专家所带来的知识覆盖面不足的问题。这种结合使得本体构建过程变得更为高效和准确。

[0035] 2、知识图谱实体补全过程的自动化：传统的知识图谱构建过程通常需要人工查阅大量的文档资料，进行繁琐的人工梳理，这不仅耗费大量的人力物力，而且效率低下。通过自动化构建，可以从大量的非结构化数据中提取出有价值的信息，快速准确地补全知识图谱。这不仅大大提高了构建速度，也提升了知识图谱的质量和完整性。

附图说明

[0036] 通过参考附图阅读下文的详细描述，本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

[0037] 图1示出了根据本发明的实施方式的生成知识图谱的方法的流程图；

[0038] 图2示出了根据本发明的实施方式的生成知识图谱的方法的数据流示意图；

[0039] 图3示出了根据本发明的实施方式的生成知识图谱的装置的框图。

[0040] 在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

[0041] 下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

[0042] 在一个方面，本发明的实施方式提供了一种生成知识图谱的方法。参考图1‑图2，图1示出了根据本发明的实施方式的生成知识图谱的方法100的流程图，图2示出了根据本发明的实施方式的生成知识图谱的方法的数据流示意图。

[0043] 如图1所示，该方法100包括步骤S101‑S116。

[0044] 在步骤S101中，接收用户输入的目标领域关键词，作为第一层级关键词。

[0045] 在步骤S102中，根据第一层级关键词生成第一层级本体构建提示信息。其中第一层级本体构建提示信息包括基于第一层级关键词、预先指定的来源限定信息和第一层级知识图谱本体格式来构建知识图谱本体的指令。其中第一层级知识图谱本体格式将第一层级知识图谱本体中的知识图谱本体条目限定为包括实体和属性，也即，每个知识图谱本体条目是一个包括实体和属性的二元组。

[0046] 作为本发明的一个实施方式，预先指定的来源限定信息包括本体构建模型自身的数据库、指定数据库地址、指定搜索引擎中的一个或多个。

[0047] 在步骤S103中，将第一层级本体构建提示信息传输至本体构建模型，以便由本体构建模型根据第一层级本体构建提示信息生成第一层级知识图谱本体，并且将第一层级知识图谱本体存储在本体库中。

[0048] 在步骤S104中，根据本体库中存储的前一层级知识图谱本体来生成实体扩展分配提示信息，其中，实体扩展分配提示信息包括前一层级知识图谱本体以及将前一层级知识图谱本体中的知识图谱本体条目的属性的可扩展性进行排序的指令。

[0049] 在步骤S105中，将实体扩展分配提示信息传输至实体扩展分配模型，以便由实体扩展分配模型根据实体扩展分配提示信息生成前一层级知识图谱本体的属性的可扩展性排序。

[0050] 在步骤S106中，按照可扩展性排序中属性可扩展性由高至低的次序，依次对前一层级知识图谱本体中的知识图谱本体条目执行以下处理：根据该知识图谱本体条目的实体和属性以及前一层级关键词，生成与该知识图谱本体条目相对应的当前层级关键词。换言之，待扩展的知识图谱本体的属性可以作为新的目标领域添加到关键词中。

[0051] 作为本发明的一个实施方式，可以将前一层级中的所有知识图谱本体条目全部作为待扩展的知识图谱本体条目，按照可扩展性由高至低的次序进行扩展。

[0052] 作为本发明的另一个实施方式，可以将属性可扩展性量化为数值，将可扩展性的数值超过预定的可扩展性阈值的知识图谱本体条目作为待扩展的知识图谱本体条目。

[0053] 作为本发明的又一个实施方式，可以按照属性可扩展性由高至低的次序，取次序中居于前的预定扩展数目个知识图谱本体条目作为待扩展的知识图谱本体条目。

[0054] 在上述实施方式中，例如，可以根据当前层级的层数，来确定预定扩展数目。

[0055] 在实际应用中，可以根据需求采用确定待扩展知识图谱本体条目的任何实施方式。

[0056] 在步骤S107中，根据当前层级关键词生成当前层级本体构建提示信息，其中当前层级本体构建提示信息包括基于当前层级关键词、预先指定的来源限定信息和当前层级知识图谱本体格式来构建当前层级知识图谱本体的指令，其中当前层级知识图谱本体格式将当前层级知识图谱本体中的知识图谱本体条目限定为包括实体和属性，并且指定当前层级知识图谱本体条目的实体是相对应的前一层级知识图谱本体条目的属性。

[0057] 在步骤S108中，将当前层级本体构建提示信息传输至本体构建模型，以便由本体构建模型根据当前层级本体构建提示信息生成当前层级知识图谱本体，并且将当前层级知识图谱本体存储在本体库中，其中，当前层级知识图谱本体条目的实体与相对应的前一层级知识图谱本体条目的属性相关联地存储。

[0058] 作为本发明的一个实施方式，可以在对前一层级知识图谱本体中待扩展的全部知识图谱本体条目均执行步骤S106‑S108之后，再对当前层级知识图谱本体中的待扩展的知识图谱条目执行步骤S106‑S108。

[0059] 作为本发明的另一个实施方式，可以在对前一层级知识图谱本体中的特定知识图谱本体条目执行步骤S106‑S108之后，针对与该特定知识图谱本体条目相对应的当前层级知识图谱本体执行步骤S106‑S108，直到达到预定义的层级数目阈值，再针对前一层级知识图谱本体中的该特定知识图谱本体条目的下一知识图谱本体条目执行步骤S106‑S108。

[0060] 换言之，上面两个实施方式分别描述了在迭代过程中采用广度优先策略和深度优先策略。在实际应用中，可以根据需求采用其中任意一种或者二者的结合。例如，可以首先基于广度优先策略根据第一层级知识图谱本体生成第二层级知识图谱本体，继而，针对第二层级知识图谱本体基于深度优先策略进行扩展，直到达到预先指定的层级。又例如，可以首先基于深度优先策略从第一层级知识图谱本体扩展至指定层级，继而从该指定层级开始基于广度优先策略进行本体扩展。

[0061] 在步骤S109中，判断已生成的知识图谱本体的层级数目是否均达到预定义的层级数目阈值，如果是，则转到步骤S110；如果否，则转到步骤S104。

[0062] 作为本发明的一个实施方式，预定义的层级数目阈值可以是固定值，即，针对所有知识图谱本体都扩展相同的层级数。

[0063] 作为本发明的另一实施方式，预定义的层级数目阈值可以是根据指定层级中相对应的知识图谱条目的属性可扩展性排序的次序而确定的。例如，在第一层级知识图谱本体中，可扩展性排序处于前N位的，将其层级数目阈值设置为第一阈值，可扩展性排序处于N位之后的，将其层级数目阈值设置为第二阈值，其中第一阈值大于第二阈值。由此，可以将可扩展性较高的本体条目扩展较多的等级，而将可扩展性较低的本体条目扩展较少的等级。

[0064] 在步骤S110中，根据本体库中存储的知识图谱本体来创建问题生成提示信息，并且将问题生成提示信息传输至问题生成模型，以便由问题生成模型针对所存储的知识图谱本体中的每个知识图谱本体条目的实体和属性生成问询语句（query）。问询语句例如是自然语言形式的问句。

[0065] 在步骤S111中，对问询语句进行向量化，生成问询语句向量。

[0066] 在步骤S112中，将预先存储的领域文档本文进行分块，生成领域文档文本块，并且对领域文档文本块进行向量化，生成领域文档文本向量，将领域文档文本向量存储在向量库中。

[0067] 预先存储的领域文档文本例如是企业内部的文档、企业产品相关文档、私有数据等，一般是通用的语言模型所不具备的知识。

[0068] 在步骤S113中，在向量库中检索与问询语句向量相似的领域文档文本向量，并且将相似的领域文档文本向量相对应的领域文档文本块组合为检索上下文。

[0069] 例如，与问询语句向量相似的领域文档文本向量可以是相似度在top k的领域文档文本向量，或者相似度超过预定相似度阈值的领域文档文本向量。

[0070] 在步骤S114中，根据问询语句和检索上下文来创建答案生成提示信息，其中，答案生成提示信息包括在检索上下文中检索问询语句的答案的指令。

[0071] 在步骤S115中，将答案生成提示信息传输至答案生成模型，以便由答案生成模型根据答案生成提示信息生成问询语句的答案。

[0072] 在步骤S116中，根据答案和与问询语句相对应的知识图谱本体条目的实体和属性来生成知识图谱的知识图谱条目，其中知识图谱条目包括实体、属性和属性值，并且其中知识图谱条目的实体和属性分别是相对应的知识图谱本体条目的实体和属性，知识图谱条目的属性值是答案。也即，每个知识图谱的条目是一个包括实体、属性、属性值的三元组，由先前生成的本体条目的实体、属性以及当前生成的答案组合而成。

[0073] 如图2所示，本发明的实施方式所涉及的模型包括：本体构建模型、实体扩展分配模型、难题生成模型和答案生成模型。这四个模型均可以采用大语言模型为原始模型，通过训练之后在生成知识图谱的过程中扮演不同的角色，实现不同的任务。

[0074] 为了便于理解，下面对这四个模型所能实现的功能进行示例性说明。

[0075] 本体构建模型可以基于ReAct框架，通过提示语言模型产生与任务相关的语言推理轨迹和动作，例如，调用搜索引擎api，或者调用原模型自带数据库，这使得模型能够进行动态推理，以创建、维护和调整动作的高级计划，同时也可以与外部环境（例如搜索引擎）互动，将额外信息纳入推理中，构建一个特定领域基础概念、属性和关系。

[0076] 实体扩展分配模型可以基于对本体库中的实体、属性和关系概念的理解，决策和分配可扩展性最高的实体和子领域。

[0077] 问题生成模型可以将本体库中的实体关系或属性，转换成问询语句，例如自然语言形式的问句。

[0078] 答案生成模型可以基于专业领域的文档资料，检索提取总结问题的答案，进行知识图谱的填充，形成最终的三元组。

[0079] 参考图2，用户可以对本体库和知识图谱分别发出操作指令。

[0080] 作为本发明的一个实施方式，该方法还可以包括：显示本体库；接收用户对本体库中的选定知识图谱本体条目的操作指令，操作指令包括删除、编辑、添加；根据操作指令对选定知识图谱本体条目执行相应操作。

[0081] 作为本发明的一个实施方式，该方法还可以包括：显示知识图谱；接收用户对知识图谱中的选定知识图谱条目的操作指令，操作指令包括删除、编辑、添加；根据操作指令对选定知识图谱条目执行相应操作。

[0082] 发出操作指令的用户例如可以是领域知识专家，通过操作指令对所生成本体库和知识图谱进行人工干预，对其中的数据进行质检和优化。

[0083] 本发明的实施方式提出的生成知识图谱的方法通过多模型协作的方式自动化完成知识图谱的构建方法。利用了大语言模型的强大能力，并通过多个角色的智能体进行互动协作，实现了知识图谱的自动构建。该方法可以自动化构建特定领域的基础概念、属性和关系。借助大语言模型的推理能力，通过调用搜索引擎自动获取专业领域知识，从而辅助完成精准的本体概念关系的定义。弥补了纯人工知识获取的局限性，提升了本体构建的效率和质量。可以自动化决策和分配具有最高可扩展性的实体和子领域进行迭代。可以快速高效地扩展本体库，实现知识图谱的快速增长。智能问答系统填充知识图谱的三元组。基于向量检索方式，结合大模型的阅读理解和答案总结能力，可以自动化地进行知识图谱的填充和补全，实现知识图谱的自动化更新和维护。

[0084] 下文描述本发明的实施方式提出的生成知识图谱的方法的一个具体示例。

[0085] 接收用户输入的两个关键信息到ReAct框架：任务目标和动作类型。例如，需要构建一个汽车用户手册知识图谱的本体，可以进行如下的配置：

[0086] 动作类型：Search: 搜索引擎API

[0087] 任务目标：构建汽车用户手册的知识图谱的知识图谱本体，用二元组的形式输出(<实体>, <属性>)

[0088] 本体构建模型产生如下二元组形式的本体结果：(<汽车>, <制造商>)；(<汽车>, <型号>)；(<汽车>, <生产年份>)；(<汽车>, <燃料类型>)；(<汽车>, <马力>)；(<汽车>, <扭矩>)；(<汽车>, <故障诊断>)；……。

[0089] 通过实体扩展分配模型决策可扩展性最高的实体。

[0090] 1）配置包括实体和属性的业务领域下可扩展性判定的规则。例如：

[0091] 优先级判定规则的提示：(<汽车>, <制造商>)；(<汽车>, <型号>)；(<汽车>, <生产年份>)；(<汽车>, <燃料类型>)；(<汽车>, <马力>)；(<汽车>, <扭矩>)；(<汽车>, <故障诊断>)。

[0092] 仅作为示例，在只考虑某一个车型的情况下，针对以上内容，将汽车用户手册作为领域文档，将其中可扩展子类的数量从大到小进行排序。

[0093] 模型输出：(<汽车>, <故障诊断>)；(<汽车>, <马力>)；(<汽车>, <扭矩>)；(<汽车>, <燃料类型>)；(<汽车>, <生产年份>)；(<汽车>, <型号>)；(<汽车>, <制造商>)；……。

[0094] 以贪心的策略（即，每次选排序最靠前的，或者称为优先级最高的），将优先级最高的实体传递给本体构建模型，并在优先级列表中移除，重复执行本体构建步骤，可完成子类本体的扩展：(<故障诊断>, <引擎故障>)；(<故障诊断>, <刹车系统故障>)；(<故障诊断>, <电气系统故障>)；(<故障诊断>, <排气系统故障>)；(<故障诊断>, <冷却系统故障>)；(<故障诊断>, <燃油系统故障>)；(<故障诊断>, <传动系统故障>)；(<故障诊断>, <悬挂系统故障>)；(<故障诊断>, <空调和加热系统故障>)；(<故障诊断>, <车身/外观故障>)；(<故障诊断>, <安全气囊系统故障>)；(<故障诊断>, <导航/娱乐系统故障>)；(<故障诊断>, <轮胎故障>)；……。

[0095] 经过多次迭代，本体可扩展到一定的规模。可选地，可以通过领域知识专家进行人工干预，对本体库中的数据进行质检和优化。

[0096] 通过问题生成模型，将实体关系或属性转化为问询语句，例如自然语言形式的问句，例如：

[0097] 提示: "(<汽车>, <制造商>) 转化知识图谱问答中的问句"

[0098] 继而模型输出：“这辆汽车的制造商是谁？”；“谁制造了这辆汽车？”；“这辆汽车是哪家公司制造的？”；“这辆汽车出自哪个制造商的手？”；“这辆汽车是由哪个制造商生产的？”；……。

[0099] 接下来通过基于检索的问答系统完成知识图谱的自动化补全和填充，其中涉及以下关键实施步骤：

[0100] （1）领域文档的分块，为确保分块文本的语义完整性，设置每个分块的最大长度，按照以下切分符号的优先级作为切割点，进行递归切块确保在最大长度限制类最大化分块。

[0101] [";", "；", "。", "！", "!", "?", "\n\n", "\n", " ", ""]

[0102] （2）对每个分块进行embedding向量化处理，并存储在向量库中。embedding算法例如可以是基于BERT架构训练的模型计算embedding。

[0103] （3）使用与（2）中相同的embedding模型，对步骤三中产生的问题进行向量化。

[0104] （4）计算（3）和（2)的向量相似度，选择相似度top k的分块作为问答检索的上下文。

[0105] （5）将问题和上下文封装为提示并传给答案生成模型，提示模板如下：

[0106] {context}

[0107] ‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑[0108] 请给出 "{query}"的答案。答案内容只能来自以上文字，不要编造答案。请严格按照以下格式输出：

[0109] ‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑[0110] 如果不能回答，输出"N|不知道"

[0111] 如果能回答，输出"Y|"

[0112] 其中{context}是上下文，{query}是问题。

[0113] （6）对模型的输出结果进行自动化填充，例如汽车用户手册的原始文档描述的是一汽大众的车型，则产生如下三元组：<汽车>, <制造商>, <一汽大众>。

[0114] 在另一方面，本发明的实施方式提出了一种生成知识图谱的装置。参考图3，其示出了根据本发明的实施方式的生成知识图谱的装置的框图。该装置包括模块301‑316。

[0115] 目标领域关键词接收模块301可以配置用于接收用户输入的目标领域关键词，作为第一层级关键词。

[0116] 第一层级本体构建提示信息生成模块302可以配置用于根据第一层级关键词生成第一层级本体构建提示信息，其中第一层级本体构建提示信息包括基于第一层级关键词、预先指定的来源限定信息和第一层级知识图谱本体格式来构建知识图谱本体的指令，其中第一层级知识图谱本体格式将第一层级知识图谱本体中的知识图谱本体条目限定为包括实体和属性。

[0117] 第一层级知识图谱本体生成模块303可以配置用于将第一层级本体构建提示信息传输至本体构建模型，以便由本体构建模型根据第一层级本体构建提示信息生成第一层级知识图谱本体，并且将第一层级知识图谱本体存储在本体库中。

[0118] 实体扩展分配提示信息生成模块304可以配置用于根据本体库中存储的前一层级知识图谱本体来生成实体扩展分配提示信息，其中，实体扩展分配提示信息包括前一层级知识图谱本体以及将前一层级知识图谱本体中的知识图谱本体条目的属性的可扩展性进行排序的指令。

[0119] 可扩展性排序生成模块305可以配置用于将实体扩展分配提示信息传输至实体扩展分配模型，以便由实体扩展分配模型根据实体扩展分配提示信息生成前一层级知识图谱本体的属性的可扩展性排序。

[0120] 当前层级关键词生成模块306可以配置用于按照可扩展性排序中属性可扩展性由高至低的次序，依次对前一层级知识图谱本体中的知识图谱本体条目执行以下处理：根据该知识图谱本体条目的实体和属性以及前一层级关键词，生成与该知识图谱本体条目相对应的当前层级关键词。

[0121] 当前层级本体构建提示信息生成模块307可以配置用于根据当前层级关键词生成当前层级本体构建提示信息，其中当前层级本体构建提示信息包括基于当前层级关键词、预先指定的来源限定信息和当前层级知识图谱本体格式来构建当前层级知识图谱本体的指令，其中当前层级知识图谱本体格式将当前层级知识图谱本体中的知识图谱本体条目限定为包括实体和属性，并且指定当前层级知识图谱本体条目的实体是相对应的前一层级知识图谱本体条目的属性。

[0122] 当前层级知识图谱本体生成模块308可以配置用于将当前层级本体构建提示信息传输至本体构建模型，以便由本体构建模型根据当前层级本体构建提示信息生成当前层级知识图谱本体，并且将当前层级知识图谱本体存储在本体库中，其中，当前层级知识图谱本体条目的实体与相对应的前一层级知识图谱本体条目的属性相关联地存储。

[0123] 层级数目判断模块309可以配置用于判断已生成的知识图谱本体的层级数目是否均达到预定义的层级数目阈值，如果是，则转到问询语句生成模块；如果否，则转到实体扩展分配提示信息生成模块。

[0124] 问询语句生成模块310可以配置用于根据本体库中存储的知识图谱本体来创建问题生成提示信息，并且将问题生成提示信息传输至问题生成模型，以便由问题生成模型针对所存储的知识图谱本体中的每个知识图谱本体条目的实体和属性生成问询语句。

[0125] 问询语句向量化模块311可以配置用于对问询语句进行向量化，生成问询语句向量。

[0126] 领域文档本文向量化模块312可以配置用于将预先存储的领域文档本文进行分块，生成领域文档文本块，并且对领域文档文本块进行向量化，生成领域文档文本向量，将领域文档文本向量存储在向量库中。

[0127] 检索上下文生成模块313可以配置用于在向量库中检索与问询语句向量相似的领域文档文本向量，并且将相似的领域文档文本向量相对应的领域文档文本块组合为检索上下文。

[0128] 答案生成提示信息创建模块314可以配置用于根据问询语句和检索上下文来创建答案生成提示信息，其中，答案生成提示信息包括在检索上下文中检索问询语句的答案的指令。

[0129] 答案生成模块315可以配置用于将答案生成提示信息传输至答案生成模型，以便由答案生成模型根据答案生成提示信息生成问询语句的答案。

[0130] 知识图谱生成模块316可以配置用于根据答案和与问询语句相对应的知识图谱本体条目的实体和属性来生成知识图谱的知识图谱条目，其中知识图谱条目包括实体、属性和属性值，并且其中知识图谱条目的实体和属性分别是相对应的知识图谱本体条目的实体和属性，知识图谱条目的属性值是答案。

[0131] 需要注意的是，本发明的实施方式提出的生成知识图谱的装置中的各个模块实现的功能与上文描述的生成知识图谱的方法的各个步骤一一对应，其具体实施方式、示例和有益效果请参见上文对于方法的描述。

[0132] 在又一方面，本发明的实施方式提出了一种存储介质，存储有计算机可读指令，当指令由处理器运行时，执行根据上述任何实施方式描述的生成知识图谱的方法。

[0133] 本发明提出了一种基于大语言模型的多智能体协作构建知识图谱的方法，旨在将知识图谱构建过程自主化和自动化，尽可能的减少人工的参与，降低人力成本。通过基于大语言模型的AI智能体，可以与环境互动执行长期和复杂的任务，并扮演不同的角色进行相互协作，从而实现知识图谱的自动化构建。

[0134] 将知识图谱的构建流程自动化并利用多个模型来扮演不同的角色，会带来显著的效率提升。这种提升主要体现在以下两个方面：

[0135] 1、知识图谱本体构建过程的自动化：各种模型的不同角色以及相互协作弥补了依赖单一领域专家所带来的知识覆盖面不足的问题。这种结合使得本体构建过程变得更为高效和准确。

[0136] 2、知识图谱实体补全过程的自动化：传统的知识图谱构建过程通常需要人工查阅大量的文档资料，进行繁琐的人工梳理，这不仅耗费大量的人力物力，而且效率低下。通过自动化构建，可以从大量的非结构化数据中提取出有价值的信息，快速准确地补全知识图谱。这不仅大大提高了构建速度，也提升了知识图谱的质量和完整性。

[0137] 出于示意的目的，已经给出了本发明的实施方式的前述说明，其并非是穷举性的也并非要将本发明限制为所公开的确切形式。本领域技术人员可以理解的是，在不偏离本发明的范围的情况下可以做出各种变化，并且可以将其中的元件替换为等同物。另外，在不偏离本发明的基本范围的情况下，可以进行很多修改以使得特定的情况或材料适应于本发明的教导。因此，本发明不试图限制于所公开的作为用于实现本发明所预期的最佳模式的特定实施方式，本发明将包括落入所附的权利要求的范围内的所有实施方式。

生成知识图谱的方法、装置和存储介质转让专利

申请号 : CN202311767192.4

文献号 : CN117435749B

文献日 : 2024-03-15

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 赵嵩 , 蒋欣辰 , 黎小平

申请人 : 摩斯智联科技有限公司

摘要 :

权利要求 :

说明书 :