一种基于NKD-GNN的图文不匹配新闻检测方法转让专利
申请号 : CN202110424490.8
文献号 : CN113297387B
文献日 : 2022-04-29
发明人 : 云静 , 高硕 , 赵禹萌 , 许志伟 , 刘利民
申请人 : 内蒙古工业大学
摘要 :
权利要求 :
1.一种基于NKD‑GNN的图文不匹配新闻检测方法,其特征在于,包括:步骤1,对新闻配图生成带有占位符的新闻配图描述;
步骤2,将命名实体按照连接规则构造为新闻知识图谱;
步骤3,基于新闻知识图谱驱动的图神经网络,选择与新闻配图相关的命名实体,插入到新闻配图描述中,从而生成带有命名实体的新闻配图描述,方法如下:步骤3.1:使用图神经网络聚合新闻知识图谱中所有边和所有节点信息,从而得到每一个节点向量v;
步骤3.2:将新闻知识图谱中边最多的命名实体设置为重要节点vb,当新闻知识图谱中边最多的命名实体有多个时,取其中频率最大的为重要节点vb;将新闻知识图谱的全局向量 与重要节点向量 进行组合,得到新闻知识图谱的表示向量Nr;
其中,首先采用注意机制对每个节点向量进行加权,再求和得到新闻知识图谱的全局知识向量Ng;其次将重要节点vb的向量定义为Nb;最后将新闻知识图谱的全局知识向量Ng与重要实体向量Nb进行线性拼接得到新闻知识图谱表示向量Nr,过程如下式:T
αi=qσ(W1vb+W2vi)
其中αi为新闻知识图谱中节点系数,参数 目的是转置矩阵让两个矩阵做乘法,得到一个具体的数值,矩阵 和矩阵 是新闻知识图谱中节点向量的权重矩阵,矩阵 将Ng与Nb组合向量压缩映射到 的向量空间中,vb为重要实体向量,n为序号;
步骤3.3:将节点vi的向量vi与新闻知识图谱的表示向量Nr做乘积运算,得到每个节点的分数 并使用Soft max函数输出该分数,得到该节点的概率;然后使用交叉熵损失函数,并使用基于时间的反向传播算法训练NKD‑GNN模型,进行核心实体预测;
步骤3.4:将NKD‑GNN预测的核心实体插入到带有占位符的新闻配图描述;
步骤4,采用混合共同注意网络(Hybrid Co‑Attention Network,HCAN)方法计算新闻文本与带有命名实体的新闻配图描述的匹配性,在计算时,分析二者的句式结构相似度并计算二者关键词的相似度,首先将新闻的文本划分为若干单句,如果存在一个单句与带有命名实体的新闻配图描述匹配,则认为该新闻为图文匹配的新闻。
2.根据权利要求1所述基于NKD‑GNN的图文不匹配新闻检测方法,其特征在于,所述步骤1中生成带有占位符的新闻配图描述的方法如下:步骤1.1:使用开源预训练好的图像生成描述模型生成新闻配图描述,该模型遵从Encoder‑Decoder设计思想,在编码阶段使用CNN提取图像特征,在解码阶段使用RNN生成新闻配图描述;
步骤1.2:对于生成的新闻配图描述,采用WordNet工具,将新闻配图描述中与’Person’在同一语义树的词汇使用
3.根据权利要求2所述基于NKD‑GNN的图文不匹配新闻检测方法,其特征在于,所述步骤2中构造新闻知识图谱的方法如下:步骤2.1:使用SpaCy’s命名实体识别器提取新闻的相关文章的命名实体,保留Person、Organization、Location、Building四类命名实体;
步骤2.2:保留的命名实体构成实体集合V={v1,v2,...,vm};在同一句中出现的命名实体之间用边相连,所有的边构成边集合E={e1,e2,...,em},边e的权重值的计算方法如下式:
其中e∈E,He为边e的权重值,即两个实体的共现率,vh和vt是由边e连接的两个命名实体, 是vh和vt共同出现的次数, 和 分别是vh和vt单独出现的次数,由所有命名实体和所有边构成的图G={V,E},即新闻知识图谱。
4.根据权利要求1所述基于NKD‑GNN的图文不匹配新闻检测方法,其特征在于,所述步骤3.1新闻知识图谱中节点vi输入到图神经网络的过程,以及图神经网络更新实体向量vi的过程如下式:
其中 是t时刻新闻知识图谱中第i个节点对应的输入,权重矩阵是t‑1时刻节点向量的集合, 为新闻知识图谱的邻接矩阵,为新闻知识图谱邻接矩阵的第i个实体对应的分块矩阵,是重置门, 是更新门,σ(·)是sigmoid函数, 是点乘运算符, 为t‑1时刻的实体vi向量,Wz为t时刻 的权t
重矩阵,Wr为t时刻ri的权重矩阵,Wo为t时刻激活函数输入的权重矩阵,Uz为t‑1时刻 的权t
重矩阵,Ur为t‑1时刻ri的权重矩阵,Uo为t‑1时刻激活函数输入的权重矩阵, 为实体vi的候选向量, 为第s个重置门;n为序号。
5.根据权利要求1所述基于NKD‑GNN的图文不匹配新闻检测方法,其特征在于,所述步骤3.3中,计算过程如下
其中 为节点的分数,为节点vi的分数,为命名实体插入到新闻配图描述,即实体插入到新闻配图描述中占位符的概率;
交叉熵损失函数如下式所示:
其中yi为新闻知识图谱中标注的核心实体one‑hot编码, 为第i个实体插入到新闻配图描述中占位符的概率。
6.根据权利要求1所述基于NKD‑GNN的图文不匹配新闻检测方法,其特征在于,所述步骤3.4中,取每一类命名实体中概率最大的,按照实体类型插入到对应的占位符中,得到带有命名实体的新闻配图描述;当带有占位符的新闻配图的占位符没有对应插入的命名实体时,使用占位符中的类型来替换占位符。
7.根据权利要求1所述基于NKD‑GNN的图文不匹配新闻检测方法,其特征在于,所述匹配性的具体计算方法如下:
步骤4.1:使用Word2vec工具生成待比较的两个句子词向量,每一个句子由若干词向量组成,两个待比较的句子向量分别为Uq和Uc;
n×m
步骤4.2:将两个句子的每一个词向量做乘积得到一个相似矩阵 S∈R ,m为
0‑n之间的某一序号;
n×m
步骤4.3:对矩阵S∈R 的每一个词向量做归一化,即对每一个词的分数进行mean‑pooling和max‑pooling,输出Uq和Uc的相关性信息,其中归一化方法如下式:Max(S)为所有最大池化的集合; 为每一个词的最大池化操作;Mean(S)为平均池化的集合; 为每一个词的平均池化操作;
步骤4.4:计算Uq和Uc两个句子中每一个词的TF‑IDF权重,即wgt(q),在归一化时充分考虑每一个词的重要性,从而得到Uq和Uc相关性匹配输出ORM,并且使用Softmax分类Uq和Uc是否匹配;如果两个句子匹配则判别该新闻图文匹配;如果带有命名实体的新闻配图描述与新闻文本的所有单句均不匹配,则认为该新闻图文不匹配;其中计算ORM,以及使用Softmax函数进行分类的公式如下:
o=softmax(ORM)。
说明书 :
一种基于NKD‑GNN的图文不匹配新闻检测方法
技术领域
背景技术
闻内容无关的配图。如果不及时处理这些图文不匹配的新闻,极易导致公众对事实产生误
解,破坏网络新闻生态、损失媒体的公信力。通常,新闻文本中包括事件发生的地点类命名
实体,事件涉及的人物类命名实体以及组织类命名实体,新闻配图则直观生动的展示新闻
事件中关键的命名实体。新闻文本与新闻配图中命名实体是否一致,很大程度影响着新闻
图文匹配性检测的结果。由于新闻文本中包含大量的命名实体,而提取图像特征算法却不
能在新闻配图中直接提取出这些命名实体,造成了新闻文本与新闻配图之间存在巨大的语
义差距。因此无法直接使用现有图文匹配性检测方法判断新闻文本和新闻配图的匹配性,
需要生成带有命名实体的新闻配图描述。
发明内容
体,因此对新闻的图文匹配判断效果更好。
附图说明
具体实施方式
存在一定困难。因此本发明将新闻配图生成带有占位符的新闻配图描述,将新闻文本与新
闻配图统一到同一模态,并在后续的步骤中选择与新闻配图相关的命名实体插入其中。
闻配图描述;
使用
people’;使用
Person>、
建了新闻知识图谱,将命名实体按照连接规则构造为新闻知识图谱,为后续分析实体之间
的关联奠定了基础。
下式:
命名实体和所有边构成的图G={V,E},即新闻知识图谱。
知识图谱中噪声干扰,从而选择出与新闻配图相关的命名实体。本发明提出了新闻知识图
谱驱动的图神经网络(News knowledge graph driven graph neural network,NKD‑GNN),
在完全分析新闻知识图谱中命名实体之间关联的基础上,选择与新闻配图相关的命名实体
插入到新闻配图描述中,从而生成带有命名实体的新闻配图描述。
为新闻知识图谱邻接矩阵的第i个实体对应的分块矩阵, 是重置门, 是更新
门,σ(·)是sigmoid函数, 是点乘运算符, 为t‑1时刻的实体vi向量,Wz为t时刻 的权
重矩阵,Wr为t时刻 的权重矩阵,Wo为t时刻激活函数输入的权重矩阵,Uz为t‑1时刻 的权
重矩阵,Ur为t‑1时刻 的权重矩阵,Uo为t‑1时刻激活函数输入的权重矩阵, 为实体vi的
候选向量, 为第s个重置门;n为序号。
息。公式(5)使用t‑1时刻节点vi向量 和t时刻节点vi的输入 得到节点vi的候选向量
公式(6)使用t‑1时刻实体向量 和节点候选向量 计算t时刻节点vi向量表示。直到
学习完所有节点信息,就得到了该节点最终的向量表示
当新闻知识图谱中边最多的命名实体有多个时,取其中频率最大的为重要节点vb;将新闻
知识图谱的全局向量 与重要节点向量 进行组合,得到新闻知识图谱的表示
向量Nr。
量Ng;其次将重要节点vb的向量定义为Nb;最后将新闻知识图谱的全局知识向量Ng与重要实
体向量Nb进行线性拼接得到新闻知识图谱表示向量Nr,过程如下式:
权重矩阵,矩阵 将Ng与Nb组合向量压缩映射到 的向量空间中,vb为重要实体向
量,n为序号,
名实体时,使用占位符中的类型来替换它们,例如使用词汇“PERSON”来替换插槽
的新闻配图描述与新闻文本仍然存在句式差异与结构差异。在计算二者匹配性时,不仅要
分析二者的句式结构相似度,还需要计算二者关键词的相似度。为此本发明提出采用混合
共同注意网络(Hybrid Co‑Attention Network,HCAN)方法计算二者的匹配性,在计算时,
分析二者的句式结构相似度并计算二者关键词的相似度,首先将新闻的文本划分为若干单
句,如果存在一个单句与带有命名实体的新闻配图描述匹配,则认为该新闻为图文匹配的
新闻。
n
,m为0‑n之间的某一序号;
Uc是否匹配。如果两个句子匹配则判别该新闻图文匹配;如果带有命名实体的新闻配图描
述与新闻文本的所有单句均不匹配,则认为该新闻图文不匹配。其中计算ORM,以及使用
Softmax函数进行分类的公式如下:
整体执行过程。
图2所示,两幅新闻配图各包含三篇相关文章。其中(a)为图文匹配的新闻,(b)为图文不匹
配的新闻。(a)新闻讲述的是欧冠的体育赛事,配图中Timo Werner在踢足球,相关文章中共
有8个命名实体,涉及人物、地点、组织三类实体。将这些实体构造为新闻知识图谱,(a)的新
闻知识图谱中的核心命名实体为Timo Werner,经过NKD‑GNN打分。Person类实体中得分最
高的为Timo Werner,Place类实体中得分最高的为Cologne。因此将这两个实体插入到带有
占位符的新闻配图描述中,得到该配图的解释性描述
有10个命名实体,涉及人物、地点、建筑三类实体。将两例新闻的命名实体构造为新闻知识
图谱,再为每一个实体进行打分。Organization类实体中得分最高的为Federal agent,
Place类实体中得分最高的为Washington。得到配图(b)的解释性描述
Piotr Dworczak讲述消费者行为的变化。配图是联邦警察在维护社会秩序。根据(b)新闻配
图的相关文章生成的带有命名实体的新闻配图描述为Federal agent standing in the
Washington behind the fire,与新闻文本完全不相关,经过计算认为此则新闻图文不匹
配,检测正确。
计算二者的匹配性。