知识图谱的匹配方法和装置转让专利
申请号 : CN202110770083.2
文献号 : CN113220908B
文献日 : 2021-11-05
发明人 : 何贵甲 , 张奎
申请人 : 杭州智会学科技有限公司
摘要 :
权利要求 :
1.一种知识图谱的匹配方法,其特征在于,应用在将教学领域对旧有模式下使用的知识图谱和新模式下使用的知识图谱的节点进行匹配,包括以下步骤:获取两个待比较知识图谱,其中,所述待比较知识图谱由有向无环图结构构建得到;
提取两个所述待比较知识图谱的每个节点的特征向量以及每个所述节点的出度和/或入度;其中,提取特征向量包括:获取两个所述待比较知识图谱的每个节点的描述信息,从所述描述信息中提取特征向量;其中,描述信息是节点的属性信息;所述节点包括教学知识点,教学知识点之间通过单向的有向箭头连接,表示教学知识点的学习顺序或依赖关系;
根据每个所述节点的特征向量以及每个所述节点的出度和/或入度比较任意两个来自不同的所述待比较知识图谱中的所述节点的相似度;包括:根据每个所述节点的特征向量、出度节点的特征向量和/或入度节点的特征向量计算任意两个来自不同的所述待比较知识图谱中的所述节点的主节点相似度、出度平均相似度和/或入度平均相似度;对所述主节点相似度、所述出度平均相似度和/或所述入度平均相似度进行加权求平均值,得到两个来自不同的所述待比较知识图谱中的所述节点的相似度;
基于所述相似度确定两个所述待比较知识图谱的节点匹配结果。
2.根据权利要求1所述的知识图谱的匹配方法,其特征在于,所述出度包括出度深度,所述入度包括入度深度,其中,所述出度深度表示由所述节点往后推进的出度节点级数,所述入度深度表示由所述节点往前追溯的入度节点级数;
分别根据每个所述节点的所述出度节点级数、所述入度节点级数确定其出度节点、入度节点。
3.根据权利要求1所述的知识图谱的匹配方法,其特征在于,“基于所述相似度确定两个所述待比较知识图谱的节点匹配结果”包括:以两个所述待比较知识图谱各节点之间的所述相似度构建相似度矩阵,对所述相似度矩阵的每一行或每一列获取相似度最大值的索引,判断所述相似度最大值是否大于匹配阈值,若是,则与所述相似度最大值对应的两个节点匹配成功。
4.根据权利要求1所述的知识图谱的匹配方法,其特征在于,根据原始知识图谱的节点以及所述节点之间的依赖关系构建基于有向无环图结构的所述待比较知识图谱。
5.根据权利要求1所述的知识图谱的匹配方法,其特征在于,“从所述描述信息中提取特征向量”包括:
将所述描述信息进行分词处理,得到多个特征词;
计算每个所述特征词的TFIDF值,选取TFIDF值高的特征词作为特征向量。
6.根据权利要求1所述的知识图谱的匹配方法,其特征在于,包括:所述待比较知识图谱为进行标准化处理后的形成标准形式的知识图谱。
7.根据权利要求1所述的知识图谱的匹配方法,其特征在于,应用于原始知识图谱的学情迁移,所述描述信息包含知识点的定义、描述、分类、题目信息的至少一种。
8.一种知识图谱的匹配装置,其特征在于,应用在将教学领域对旧有模式下使用的知识图谱和新模式下使用的知识图谱的节点进行匹配,包括:图谱获取模块,用于获取两个待比较知识图谱,其中,所述待比较知识图谱由有向无环图结构构建得到;
特征向量提取模块,用于提取两个所述待比较知识图谱的每个节点的特征向量以及每个所述节点的出度和/或入度;其中,提取特征向量包括:获取两个所述待比较知识图谱的每个节点的描述信息,从所述描述信息中提取特征向量;其中,描述信息是节点的属性信息;所述节点包括教学知识点,教学知识点之间通过单向的有向箭头连接,表示教学知识点的学习顺序或依赖关系;
相似度比较模块,用于根据每个所述节点的特征向量以及每个所述节点的出度和/或入度比较任意两个来自不同的所述待比较知识图谱中的所述节点的相似度;包括:根据每个所述节点的特征向量、出度节点的特征向量和/或入度节点的特征向量计算任意两个来自不同的所述待比较知识图谱中的所述节点的主节点相似度、出度平均相似度和/或入度平均相似度;对所述主节点相似度、所述出度平均相似度和/或所述入度平均相似度进行加权求平均值,得到两个来自不同的所述待比较知识图谱中的所述节点的相似度;
节点匹配模块,用于基于所述相似度确定两个所述待比较知识图谱的节点匹配结果。
说明书 :
知识图谱的匹配方法和装置
技术领域
背景技术
存在一个难题无法解决,即学生的历史学情无法有效继承和迁移。学情指的是学生基于知
识图谱的学习过程记录、学习结果记录和相关统计指标等。知识图谱指的是学习内容所对
应的教材、章节、题型、知识点、题目等信息,以及这些信息之间的连接关系。例如基于初中
数学教学大纲这个知识图谱,某学生在一元一次方程这个知识点下的做题量、正确率、平均
解题时长等都是该学生学情的一部分。在以书本和试卷为载体的传统教学模式下,老师、学
校和培训机构都记录了大量的学生学情,老师在教学过程中会跟踪目标学生的学情变化,
并调整教学策略从而进行有针对性的讲解和练习。然而,当学校向以网页和PAD等为载体的
电子教学模式转变的时候,历史学生学情数据无法继承并映射到新的电子教学模式的学情
中。即使纸质数据可以提取成可被计算机存储的数据,并且电子教学工具也提供数据导入
功能,学生的学情依然无法被迁移,原因就是旧有模式下使用的知识图谱和新模式下使用
的知识图谱无法进行匹配。类似地,当学校或机构从一个教育软件转换到另一个教育软件
时,学生的学情同样无法迁移,因为两个教育软件中的知识图谱可能不同。只有将两个不同
系统中的知识图谱节点进行匹配,才能够实现学情的迁移。
识图谱。该技术主要解决的问题是大规模的知识图谱建立,无法解决不同知识图谱间的自
动匹配。
知识图谱中的实体继承两个父级知识图谱中的关系、属性和属性值。该技术主要解决的问
题是知识图谱的完善和扩充,无法解决不同知识图谱间的自动匹配。
图谱之间的自动匹配。
知识图谱自动匹配的方法。
发明内容
待比较知识图谱的每个节点的特征向量以及每个所述节点的出度和/或入度;根据每个所
述节点的特征向量以及每个所述节点的出度和/或入度比较任意两个来自不同的所述待比
较知识图谱中的所述节点的相似度;基于所述相似度确定两个所述待比较知识图谱的节点
匹配结果。
追溯的入度节点级数;分别根据每个所述节点的所述出度节点级数、所述入度节点级数确
定其出度节点、入度节点。
个所述节点的特征向量、出度节点的特征向量和/或入度节点的特征向量计算任意两个来
自不同的所述待比较知识图谱中的所述节点的主节点相似度、出度平均相似度和/或入度
平均相似度;对所述主节点相似度、所述出度平均相似度和/或所述入度平均相似度进行加
权求平均值,得到两个来自不同的所述待比较知识图谱中的所述节点的相似度。
述相似度矩阵的每一行或每一列获取相似度最大值的索引,判断所述相似度最大值是否大
于匹配阈值,若是,则与所述相似度最大值对应的两个节点匹配成功。
量。
作为特征向量。
征向量提取模块,用于提取两个所述待比较知识图谱的每个节点的特征向量以及每个所述
节点的出度和/或入度;相似度比较模块,用于根据每个所述节点的特征向量以及每个所述
节点的出度和/或入度比较任意两个来自不同的所述待比较知识图谱中的所述节点的相似
度;节点匹配模块,用于基于所述相似度确定两个所述待比较知识图谱的节点匹配结果。
识图谱的匹配方法。
方法。
谱中的各个节点的上下文特征进行匹配,找到相似度最高的节点进行匹配,进而完成整个
知识图谱的节点自动匹配。
的上下文联系,引入节点的出度深度、入度深度计算节点的整体相似度,使得节点间的相似
度比较结果更准确。
附图说明
具体实施方式
多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进
行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行
描述。
特征向量,并结合节点的入度和出度节点特征构建节点的上下文特征,然后与目标知识图
谱中的各个节点的上下文特征进行匹配,找到相似度最高的节点进行匹配,进而完成整个
知识图谱的节点自动匹配。
度,最终以相似度高的节点进行匹配,完成两个知识图谱的自动匹配。
图,本方案在此方面并无限制。
体的三元关系进而形成原始知识图谱。在本方案中的待比较知识图谱与其区别之处在于,
将原始知识图谱转换得到由节点、节点之间的方向构成的基于有向无环图的拓扑结构的知
识图谱。通过方向可以知道某一节点的上下文关系,例如,在教育领域中,节点为知识点,上
下文关系指的是在学习某一知识点前,需要学习该知识点之前所有的知识点,要学习某一
知识点之后的知识点,需要学习过该知识点。
依赖关系,构建出基于教学内容的有向无环图知识图谱。图2是由有向无环图结构构建得到
的线性代数领域的知识图谱示例,如图2所示,在该知识图谱中每一节点表示一个知识点,
知识点之间通过单向的有向箭头连接,在图2中,有1条指向“矩阵”的有向边和两条以“矩
阵”为尾的有向边,表示在学习“矩阵”知识点前需先学习“线性空间”,学习“特征向量”、“行
列式”之前需先学习“矩阵”。
阵之前的所有知识点的课程,做过相关的题目等。建立前后依赖关系的好处是在比较两个
节点相似度时不仅仅基于节点本身的信息进行比较,还能依据节点的上下文特征进行匹
配,从而比较得出两个节点的相似度。
谱的标准形式,避免多个知识图谱之间的节点信息和属性信息的表达不一致而导致不能成
功匹配。将待自动匹配的两个原始知识图谱进行标准化处理后构建出基于有向无环图结构
的待比较知识图谱。此处构建的方法可以是人工标注,也可以通过训练模型实现。
待比较知识图谱通过知识点及知识点间的连接方向表示每个知识点与其他知识点的关联
关系,为方便后续计算知识点相似度做准备。
列式”、“特征向量”;“特征值”的入度包括“特征向量”、“矩阵”、“线性空间”,“特征值”没有
出度。
题目信息等,节点的描述信息越相近,说明相比较的两个节点也越相似。
征,其中N的范围通常是1到3。随后将每个节点作为一个document,每个特征作为term,在其
所在的知识图谱范围内计算每个特征的TFIDF值。对每个节点的特征根据TFIDF值进行逆排
序,选取TFIDF值最高的K项特征作为该节点的特征,其TFIDF值作为该特征的权重值。
中的a节点上下文特征与g中的b节点上下文特征的相似度,(a,B)值越大,表示两个节点越
相似。
度节点级数;分别根据每个所述节点的所述出度节点级数、所述入度节点级数确定其出度
节点、入度节点。
A的出度包括出度深度,入度包括入度深度,其中入度深度为2时,入度节点为C、D、B,入度深
度为1时,入度节点为B;在知识图谱g节点a的入度深度为2时,入度节点为b,c,d,入度深度
为1时,入度节点为b,c,出度节点与入度节点的计算方式同理。
个所述节点的特征向量、出度节点的特征向量和/或入度节点的特征向量计算任意两个来
自不同的所述待比较知识图谱中的所述节点的主节点相似度、出度平均相似度和/或入度
平均相似度;对所述主节点相似度、所述出度平均相似度和/或所述入度平均相似度进行加
权求平均值,得到两个来自不同的所述待比较知识图谱中的所述节点的相似度。
根据参数设置的入度深度和出度深度在各自的知识图谱中选定相应深度的节点。这些节点
包含3种类型:入度节点、主节点、出度节点。随后两个知识图谱中的相同类型节点之间两两
计算相似度,即G与g的入度之间两两计算、两个主节点计算、出度之间两两计算,分别求出
入度平均相似度、主节点相似度和出度平均相似度。然后根据配置项中预设的权重对上述3
个相似度再次进行加权求平均值,作为两个目标节点的最终相似度结果。如下面的计算公
式所示,G和g分别代表两个知识图谱, in、node,out分别代表知识图谱中的入度、主节点和
出度,ω为权重,count为入度或出度节点的数量。如果待对比的两个主节点均没有入度或
均没有出度,则对应的ωin、权重变为0,否则按照正常预设值进行计算。这是为了避免因缺
少入度或出度节点导致整体相似度值被降低。两个知识图谱各节点之间的相似度计算公式
为:
count(Gin)为知识图谱G的入度节点数量,count(gin)为知识图谱g的入度节点数量;ωnode为
主节点权重;calc_sim(nodeG,nodeg)为主节点相似度;ωout为出度权重;calc_sim(m,n)为
任意两个来自不同知识图谱中的出度节点的相似度,m指的是知识图谱G中的任一出度节
点,n指的是知识图谱g中的任一出度节点; count(Gout)为知识图谱G的出度节点数量,
count(gout)为知识图谱g的出度节点数量。
~
局限于Cosin similarity、Jaccard Index等,本实施例对获取到相似度计算值的函数体不
进行限制。
述相似度矩阵的每一行或每一列获取相似度最大值的索引,判断所述相似度最大值是否大
于匹配阈值,若是,则与所述相似度最大值对应的两个节点匹配成功。
(Y,B)中相似度最高的才算匹配成功,其中X是知识图谱G中的任意未匹配节点,Y是知识图
谱g中的任意未匹配节点。
例如,表1为知识图谱G和知识图谱g的节点相似度计算示例,在表1中选择当前矩阵中相似
度最高的两个节点是(A,d),假设设置的匹配阈值为0.75,则认为两个节点匹配成功。匹配
成功的节点A和d不再参与接下来的匹配。在剩余的相似矩阵中重复上述操作,直到两个知
识图谱的节点匹配完毕或找不到符合条件的节点为止。例如表1中匹配成功的节点按顺序
依次是节点(A,d)、(D,f)、(E,g)、(B,c)、(C,e)。
配。
d,f,g,c,e中,且原始知识图谱教学中的知识点的定义、描述、分类、题目信息的至少一种也
被迁移至知识图谱g中。
深度和匹配阈值的参数来调节匹配结果的精度。
较两个知识点的相似度,若相似度最高且高于匹配阈值,则两个节点匹配,在学情迁移时可
直接由原知识图谱转移到新的知识图谱中。通过上述方式,能够实现两个知识图谱间的自
动匹配从而加快图谱中数据的迁移效率。
实施例中的步骤。
一个或多个集成电路。
(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线
(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情
况下,存储器504可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器504可
在数据处理装置的内部或外部。在特定实施例中,存储器504是非易失性(Non‑Volatile)存
储器。在特定实施例中,存储器504包括只读存储器(Read‑OnlyMemory,简称为ROM)和随机
存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的
ROM、可编程ROM(ProgrammableRead‑OnlyMemory,简称为PROM)、可擦除PROM
(ErasableProgrammableRead‑OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyE
rasableProgrammableRead‑OnlyMemory,简称为EEPROM)、电可改写ROM
(ElectricallyAlterableRead‑OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多
个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom‑
AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为
DRAM),其中,DRAM可以是快速页模式动态随机存取存储器504(FastPageModeDynamicRand
omAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOut
DynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存
(SynchronousDynamicRandom‑AccessMemory,简称SDRAM)等。
络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相
连从而可与互联网进行通讯。在一个实例中,传输设备506可以为射频(Radio Frequency,
简称为RF)模块,其用于通过无线方式与互联网进行通讯。
知识图谱、节点的定义、描述、分类、题目信息等等,输出的信息可以是知识图谱的主节点的
特征向量、节点的上下文特征,匹配方法结果、相似度结果等等。
述实施例中的任意一种知识图谱的匹配方法。
些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因
此,本申请的保护范围应以所附权利要求为准。