中文通用概念图谱纠错装置转让专利
申请号 : CN202010303271.X
文献号 : CN113535967B
文献日 : 2022-02-22
发明人 : 方世能 , 刘井平 , 肖仰华
申请人 : 复旦大学
摘要 :
权利要求 :
1.一种中文通用概念图谱纠错装置,用于对中文通用的概念图谱中实体与概念之间的isA关系进行纠错,其特征在于,包括:概念图谱获取模块,用于获取所述概念图谱中所有的所述isA关系以及每个isA关系唯一对应的所述实体和所述概念;
不兼容概念对构建模块,依次判断每两个所述概念是否兼容并基于所有不兼容的两个所述概念所共有的所述实体以及相应的所述isA关系构建多组不兼容概念对,每一组所述不兼容概念对包含一个作为可疑实体的所述实体、作为待判定概念的两个所述概念以及作为待纠错isA关系的两个相应的所述isA关系;
错误isA关系判定模块,依次基于每组所述不兼容概念对中的所述可疑实体以及所述待判定概念判定相应的两个所述待纠错isA关系中错误的一个;以及概念图谱纠错模块,用于在所述概念图谱中删除被判定错误的所述待纠错isA关系从而完成对所述概念图谱的纠错,
其中,所述错误isA关系判定模块具有:百科词条判定部,获取所述可疑实体的百科词条的词条标签列表,并判定所述两个所述待判定概念是否同属于所述词条标签列表,若两个所述待判定概念中存在一个不属于所述词条标签列表,则进一步判定与不属于所述词条标签列表的所述待判定概念相对应的所述待纠错isA关系为错误的;以及半监督分类判定部,基于与所述待判定概念相对应的关键特征对所述可疑实体进行过滤,并基于预训练的BERT分类器对剩余的所述可疑实体进行过滤从而判定出所有所述不兼容概念对中错误的所述待判定概念,进一步判定与错误的所述待判定概念相对应的所述待纠错isA关系为错误的。
2.根据权利要求1所述的中文通用概念图谱纠错装置,其特征在于:其中,所述半监督分类判定部具有:关键特征过滤单元,基于与所述待判定概念相对应的关键特征对所述可疑实体进行过滤,若所述可疑实体具有一个所述待判定概念的所述关键特征且不具有另一个所述待判定概念的所述关键特征,则判定所述可疑实体所不具有的所述关键特征所对应的所述待判定概念为错误的,
每个所述待判定概念所对应的所述关键特征为预先获取,该关键特征的获取方法为:在预先获取的训练集中对与两个所述待判定概念所对应的下位实体属性进行计数,分别取n个频数最高且非两个所述待判定概念共有的所述下位实体属性分别作为相应所述待判定概念的所述关键特征。
3.根据权利要求1所述的中文通用概念图谱纠错装置,其特征在于:其中,所述半监督分类判定部具有:BERT分类判断单元,存储有一个预训练的BERT分类器,用于剩余的所述可疑实体依次输入所述BERT分类器并得到每个所述可疑实体的所属概念的概率分布,并基于所述所属概念的概率分布判断所述可疑实体所对应的两个所述待判定概念中错误的一个。
4.根据权利要求3所述的中文通用概念图谱纠错装置,其特征在于:其中,所述BERT分类器采用Transformer的双向编码器架构,堆叠多层的Transformer块提取序列中token与token的深度关系,每个Transformer块中通过多头注意力机制强化各token之间的语义关联,经过前馈网络层后获得Transformer层的输出。
5.根据权利要求1所述的中文通用概念图谱纠错装置,其特征在于:其中,所述不兼容概念对构建模块通过使用MiniJaccard系数和概念属性分布相似度构建所述不兼容概念对,MiniJaccard系数为:式中,|c1|,|c2|分别表示概念c1,c2的下位实体数量,|c1∩c2|表示所述概念c1,c2共有的下位实体的数量,
概念属性分布相似度CPD(c1,c2)为:式中,向量x,y分别是所述概念c1,c2的属性分布,所述概念c1,c2的兼容性表示为:若所述兼容性P(c1,c2)低于预设的兼容性阈值,则所述不兼容概念对构建模块就基于所述概念c1,c2构建相应的所述不兼容概念对。
说明书 :
中文通用概念图谱纠错装置
技术领域
背景技术
(例如,苹果是一种水果)以及概念与概念之间的subClass关系(例如,水果是一种食物)。概
念图谱在文本分类、实体推荐和规则挖掘等任务中具有重要应用。但概念图谱的构建往往
采用从互联网语料库中自动抽取isA关系的方法,难免被噪音干扰从而产生错误上下位关
系,因此概念图谱纠错就是从千万级isA关系中移除错误的isA,提升概念图谱的准确率。
Embedding的方式计算概念图谱中isA关系的置信度,最终移除置信度较低的isA关系。
里影业isA电影),由于“公司”和“电影”是一对不兼容概念,因此至少有一个isA关系是错误
的。该方法可以分为两个阶段,阶段1是构建不兼容概念对,阶段2是移除错误isA关系。其中
不兼容概念对的构建的方法有杰拉德距离、余弦相似度、海明距离,移除错误isA关系有基
于频度和基于属性KL散度的方法。
文isA关系的抽取规则,此外通过Embedding的方式移除的错误isA关系具有较低的准确度。
而基于不兼容概念对的方法,阶段2移除错误isA关系中基于频度的方法由于中文概念图谱
中的isA关系缺少对应的频度,因此难以依靠移除较低频度的isA关系实现错误isA关系的
纠正;而基于属性KL散度的方法由于实体属性具有不同程度的重要性,对于部分实体不能
有效区分哪个是错误isA关系,且由于大部分实体缺少属性信息,因此难以大规模地纠错。
发明内容
谱中所有的isA关系以及每个isA关系唯一对应的实体和概念;不兼容概念对构建模块,依
次判断每两个概念是否兼容并基于所有不兼容的两个概念所共有的实体以及相应的isA关
系构建多组不兼容概念对,每一组不兼容概念对包含一个作为可疑实体的实体、作为待判
定概念的两个概念以及作为待纠错isA关系的两个相应的isA关系;错误isA关系判定模块,
依次基于每组不兼容概念对中的可疑实体以及待判定概念判定相应的两个待纠错isA关系
中错误的一个;以及概念图谱纠错模块,用于在概念图谱中删除被判定错误的待纠错isA关
系从而完成对概念图谱的纠错,其中,错误isA关系判定模块具有:百科词条判定部,获取可
疑实体的百科词条的词条标签列表,并判定两个待判定概念是否同属于词条标签列表,若
两个待判定概念中存在一个不属于词条标签列表,则进一步判定与不属于词条标签列表的
待判定概念相对应的待纠错isA关系为错误的;以及半监督分类判定部,基于与待判定概念
相对应的关键特征对可疑实体进行过滤,并基于预训练的BERT分类器对剩余的可疑实体进
行过滤从而判定出所有不兼容概念对中错误的待判定概念,进一步判定与错误的待判定概
念相对应的待纠错isA关系为错误的。
体进行过滤,若可疑实体具有一个待判定概念的关键特征且不具有另一个待判定概念的关
键特征,则判定可疑实体所不具有的关键特征所对应的待判定概念为错误的,每个待判定
概念所对应的关键特征为预先获取,该关键特征的获取方法为:在预先获取的训练集中对
与两个待判定概念所对应的下位实体属性进行计数,分别取n个频数最高且非两个待判定
概念共有的下位实体属性分别作为相应待判定概念的关键特征。
可疑实体依次输入BERT分类器并得到每个可疑实体的所属概念的概率分布,并基于所属概
念的概率分布判断可疑实体所对应的两个待判定概念中错误的一个。
token与token的深度关系,每个Transformer块中通过多头注意力机制强化各token之间的
语义关联,经过前馈网络层后获得Transformer层的输出。
对,MiniJaccard系数为: 式中,|c1|,|c2|分别表示概
念c1,c2的下位实体数量,|c1∩c2|表示概念c1,c2共有的下位实体的数量,概念属性分布相
似度CPD(c1,c2)为, 式中,向量x,y分别是概念c1,c2的属性分布,
概念c1,c2的兼容性表示为: 若兼容性P(c1,c2)
低于预设的兼容性阈值,则不兼容概念对构建模块就基于概念c1,c2构建相应的不兼容概念
对。
位出概念图谱中所有可疑的上下位关系,使得错误isA关系判定模块可以依次对每组不兼
容概念对进行判定并判定出错误的isA关系。其中,由于错误isA关系判定模块具有百科词
条判定部以及半监督分类判定部,一方面,百科词条判定部可以通过检索可疑实体百科更
新后的词条标签确定不兼容概念对中错误的isA关系,这种方式简单高效,可以快速识别少
部分错误isA关系;另一方面,半监督分类判定部通过构建概念的关键特征识别部分可疑实
体的上位概念从而确定错误的isA关系,并通过BERT分类器对剩余部分的可疑实体进行识
别从而确定错误的isA关系,可以精确地判定出不兼容概念对中错误的isA关系。因此,通过
本发明的中文通用概念图谱纠错装置,可以对概念图谱中所有错误的不兼容概念对进行筛
选以及纠错,实现消除概念图谱中错误的isA关系,从而形成高准确率的概念图谱,便于后
续其他人员或是系统对该概念图谱进行有效地调用。
附图说明
具体实施方式
述各部的控制部105。
(e,isA,c).
含两个三元组(e,isA,c1)与(e,isA,c2)。由于待判定概念c1和c2为不兼容概念,因此两个三
元组中必然存在一个错误的待纠错isA关系。例如,对于一对不兼容的概念“电影”与“公
司”,存在实体“阿里影业”同属于这两个概念,说明必有一错误isA关系。
一步需考虑的问题。因此在本实施例中,不兼容概念对构建模块102采用MiniJaccard和概
念属性分布相似度的F1值衡量两个概念之间的不兼容程度。具体地:
阈值的不兼容概念c1,c2构建相应的一组不兼容概念对。
判定出错误的isA关系(阿里影业,isA,电影)。为了保证判定isA关系的全面与准确,本实施
例采用两种种判定方式实现错误上下位关系的发掘:百科更新支持、基于关键特征的半监
督分类算法,相应地,错误isA关系判定模块103具有百科词条判定部31以及半监督分类判
定部32。
与词条标签。根据抽样发现,错误的上下位关系大部分来源于词条标签,由于概念图谱的构
建时间较早,某些实体的词条标签已经经过人工修改,变得更加准确。因此首先检查实体的
词条标签是否出现更新,以此获取部分错误上下位关系。
一个不属于词条标签列表,则进一步判定与不属于词条标签列表的待判定概念相对应的待
纠错isA关系为错误的。即,对于可疑实体e和待判定概念c1和c2,百科词条判定部31获取了
可疑实体e的词条标签列表con_list,若概念c1属于con_list且概念c2不属于con_list,说
明(e,isA,c2)是错误的上下位关系,应予删除,反之亦然。
半监督分类算法进行判定(半监督分类判定部32)。
需判定的测试集A。
单元32(a)以及BERT分类判断单元32(b)以及isA关系判定部32(c)。
待判定概念为“人物”和“游戏”,但由于实体“乔纳斯”具有属性“出生日期”,则实体必属于
“人物”而非“游戏”。通过这种关键特征过滤的方式可以判定测试集A的部分错误isA关系,
首先需要构建不兼容概念对的关键特征。
别作为相应待判定概念的关键特征。
时,关键特征过滤单元32(a)就可以根据该关键特征对可疑实体进行过滤,若可疑实体具有
一个待判定概念的关键特征且不具有另一个待判定概念的关键特征,则判定可疑实体所不
具有的关键特征所对应的待判定概念为错误的,即、若实体e具有概念c1的关键特征而无概
念c2的关键特征说明实体e属于概念c1,(e,isA,c2)是错误的上下位关系,反之亦然。对于都
有两个概念的关键特征或都无两个概念的关键特征的可疑实体,则不加过滤。
分布判断可疑实体所对应的两个待判定概念中错误的一个。
是:大部分实体出现错误上位词是由于抽取时上位词往往是与实体相关的概念,例如实体
“阿里影业”与概念“电影”相关,但非“电影”;“乔纳斯”与概念“游戏”相关,但非“游戏”,因
此若简单地使用概念图谱中的训练数据训练文本分类器,不能有效地区分实体属于哪个概
念,因为训练数据缺少与两个概念都相关的实体,即训练数据与测试数据的分布不一致,导
致分类器在测试集上表现不佳。
对应的待判定概念,即、确定一部分测试集的标签(伪标签),因此可以将这些加入训练集D
组成训练集D′,再使用BERT分类器在训练集D′上训练。
度表示,微调阶段BERT使用预训练后的参数实现对具体任务的精细化训练,适应于分类,匹
配,抽取等子任务。
各token之间的语义关联,经过前馈网络层后获得Transformer层的输出。预训练阶段BERT
具有两个任务:屏蔽语言模型(Masked LM)与下一句预测(NSP)。为了训练一个深度的双向
表示,BERT采用随机屏蔽部分输入token,并让模型预测这些token作为Masked LM任务的学
习目标,具体来说,BERT随机屏蔽每个序列中15%的token,其中这些token80%的时间被
[MASK]替换,10%的时间被一个随机token替换,剩余10%的时间保持不变。该输入通过
Transformer编码,利用整个序列的编码表示预测被屏蔽token。
句子之间的关系,其中对于非NSP的句子对的构造方式是从两篇不同的文档中随机采样一
个句子,组成非NSP的训练样本。BERT通过屏蔽语言模型与下一句预测两个预训练的任务,
学习到自然语言的语义表示,便于下游任务的微调。
分类任务的损失函数,Adam优化器作为训练优化器,具体来说,由于测试集A具有与测试集B
更相似的实体,训练BERT分类器时对训练集D′中测试集A的损失分配更高的权重,使得分类
器能更好地拟合测试集A中根据描述的实体分类,训练集D′的损失函数为:
一个。
的。
S3;
进行调用。
速地定位出概念图谱中所有可疑的上下位关系,使得错误isA关系判定模块可以依次对每
组不兼容概念对进行判定并判定出错误的isA关系。其中,由于错误isA关系判定模块具有
百科词条判定部以及半监督分类判定部,一方面,百科词条判定部可以通过检索可疑实体
百科更新后的词条标签确定不兼容概念对中错误的isA关系,这种方式简单高效,可以快速
识别少部分错误isA关系;另一方面,半监督分类判定部通过构建概念的关键特征识别部分
可疑实体的上位概念从而确定错误的isA关系,并通过BERT分类器对剩余部分的可疑实体
进行识别从而确定错误的isA关系,可以精确地判定出不兼容概念对中错误的isA关系。因
此,通过本发明的中文通用概念图谱纠错装置,可以对概念图谱中所有错误的不兼容概念
对进行筛选以及纠错,实现消除概念图谱中错误的isA关系,从而形成高准确率的概念图
谱,便于后续其他人员或是系统对该概念图谱进行有效地调用。
高的损失权重,使训练样本与测试样本的分布更一致,从而实现训练BERT分类器时在测试
集上具有更高的准确率。基于关键特征的半监督分类算法,综合关键特征及BERT分类器后
获得的错误上位词的准确率为96.1%。