基于神经自回归分布估计的涉案新闻主题模型构建方法及装置转让专利
申请号 : CN202010984648.2
文献号 : CN112434212B
文献日 : 2021-11-23
发明人 : 毛存礼 , 梁昊远 , 余正涛 , 郭军军 , 黄于欣 , 高盛祥
申请人 : 昆明理工大学
摘要 :
权利要求 :
1.基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率,依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索;
利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻中包含的案件要素的双向隐状态;并包括了新闻在位置i的前后向隐状态和新闻所包含的案件要素在位置i的前后向隐状态;利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息;利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度;利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息。
2.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:所述构建涉案新闻数据并预处理,得到案件要素库和涉案词向量包括如下:对涉案新闻和案件本体进行分析,根据其涉案人名、地名、事件描述以及案件触发词案件特征构建案件要素库作为模型的涉案外部知识;
利用裁判文书数据、涉案新闻数据以及word2vec算法预训练涉案领域的词向量作为模型的涉案先验知识。
3.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:不同于iDocNADEe的输入,将新闻分别表示为词序列v以及新闻中包含的案件要素序列k;
利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻中包含的案件要素的双向隐状态;
其中, 和 分别代表了新闻在位置i的前后向隐状态, 和 分别代表了新闻所包含的案件要素在位置i的前后向隐状态,g(·)代表sigmoid激活函数,代表前后向偏置向量,W, 分别代表参数矩阵和涉案领域词向量矩阵,H,V分别代表了主题数量和词表大小, 分别代表新闻中第k个词在参数矩阵和涉案领域词向量矩阵中的向量表示, 分别代表新闻中第j个案件要素在参数矩阵和涉案领域词向量矩阵中的向量表示,λ代表了平衡权重系数。
4.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权的具体步骤如下:
A、利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息:
其中, 分别代表了前向注意力向量和后向注意力向量,n为案件要素的数量;
B、利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度:
其中, 分别代表了前向相关度和后向相关度,v
C、利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息:其中, 分别代表了案件信息加权的新闻文本隐状态。
5.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率为:
其中,w∈{1,...,V}, 分别代表前后向偏置向量, 代表了连接隐藏层和输出层的权重矩阵。
6.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索包括:
根据每个词在案件要素指导下的自回归条件,计算新闻的对数似然函数logp(v):其中,D代表了新闻文本的长度,p(vi|v<i,k<i),p(vi|v>i,k>i)分别代表了第i个位置的词的前后向自回归条件概率;
利用梯度下降算法训练参数以最大化对数似然函数,由此构建涉案新闻的主题模型。
7.基于神经自回归分布估计的涉案新闻主题模型构建装置,其特征在于,包括用于执行如权利要求1‑6任一权利要求所述的方法的模块。
说明书 :
基于神经自回归分布估计的涉案新闻主题模型构建方法及
装置
技术领域
背景技术
档语义表征的有效方式,常用于信息检索、文本分类或摘要任务。传统主题模型主要考虑词
频统计特征,而忽略了文档中的词语出现的次序及上下文信息。神经主题模型由于能够获
得文本的深层语义信息,既可以在文本中捕获词汇之间的依赖关系,也能利用潜在主题捕
获全局语义信息,有效弥补了传统主题模型的缺陷,近年来在文本检索、文本分类、文本摘
要等自然语言处理任务中表现出较好的效果。
的关键在于分析主题词与案件之间的关联关系,以此作为先验知识指导文本中词语的主题
分布和文本的主题表征。然而,针对通用文档建模的神经主题模型不能将案件要素作为先
验知识来帮助提升涉案新闻文本中词语主题分布的准确性。
发明内容
线模型,精确率普遍都有所提升。
型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构建注意力机
制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐状态计算案
件要素指导的自回归条件概率;依据涉案新闻的自回归条件概率构建涉案主题模型,并利
用涉案新闻主题模型进行涉案新闻检索。
件要素的双向隐状态;
代表前后向偏置向量, 分别代表参数矩阵和涉案领域词向量矩阵,H,V
分别代表了主题数量和词表大小, 分别代表新闻中第k个词在参数矩阵和涉案领
域词向量矩阵中的向量表示, 分别代表新闻中第j个案件要素在参数矩阵和涉案
领域词向量矩阵中的向量表示,λ代表了平衡权重系数。
算:
表示,从而提高了用于涉案新闻领域的主题模型的性能;
附图说明
具体实施方式
量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向
隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权
的新闻隐状态计算案件要素指导的自回归条件概率;依据涉案新闻的自回归条件概率构建
涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索。
否属于涉案新闻,最后得到涉及65个案件的新闻40000余条;
包含的案件要素的双向隐状态;
代表前后向偏置向量, 分别代表参数矩阵和涉案领域词向量矩阵,H,V
分别代表了主题数量和词表大小, 分别代表新闻中第k个词在参数矩阵和涉案领
域词向量矩阵中的向量表示, 分别代表新闻中第j个案件要素在参数矩阵和涉案领
域词向量矩阵中的向量表示,λ代表了平衡权重系数。
常问询法院的蓝V账号以及各类新闻、报刊的微博账号,其中论坛来源主要来自对涉案信息
关注度高的论坛。爬虫程序则会自动根据设置的来源配置爬取格式和X‑path。若爬取到的
新闻未在训练模型的语料中出现,则调用人民法院涉法涉诉舆情监测系统接口对新闻进行
涉案相关性分析,然后通过构建的案件要素库自动抽取新闻中包含的案件要素,最后存储
方式为数据库存储和文本存储。其中,数据库存储是结构化的,将涉案新闻的ID、标题、正
文、发布时间、新闻来源和案件要素存入Oracle数据库;在文本存储中根据案件要素构建倒
排索引;
基于神经自回归分布估计的涉案新闻主题模型,计算每条涉案新闻由案件要素加权的主题
信息,计算步骤如下:
将利用该新闻的主题信息与数据库中其它新闻的主题信息两两计算余弦相似度:
新闻的ID。得到返回的新闻ID之后,模块将在数据库中查询相似度最高的N条新闻的ID,并
将这些新闻的标题、正文、发布时间以及来源反馈给用户,其中N由用户设置。
iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构
建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐
状态计算案件要素指导的自回归条件概率;依据涉案新闻的自回归条件概率构建涉案主题
模型,并利用涉案新闻主题模型进行涉案新闻检索。
及65个案件的40000余条新闻;
iDocNADEe模型,文档的每个词汇vi都有两个包含了上下文信息的隐状态,分别是前向隐状
态 以及后向隐状态 这两个隐状态分别由vi的上下文信息v<i=[v1,...,vi‑1]与v>i=
[vi+1,...,vD]以及引入预训练的词向量作为语义补充信息计算得到。即每个词vi的隐状态
包含了vi的完整上下文信息。前后向隐状态的计算公式如下:
分别代表了矩阵W,E中的第vk列。如图2所示。其中参数矩阵W作为一个可学习的参
数,代表了主题模型的主题——词分布,它的每一行Wj,:编码了第j个主题的主题分布,而每
一列 则是第vk个词的主题信息。
能够从根本上把握案件发生、发展的趋势和规律。对于涉案新闻主题抽取任务,分析涉案文
本与案件要素之间的关联关系有助于提高涉案主题分布的准确性。为此,根据刑事案件构
成要素的特点,从互联网中收集了有关某地公交坠江案,等刑事案件的相关新闻文档,通过
人工方式构建了案件要素库,为涉案新闻主题建模提供了外部知识。
此要计算出每个案件要素与主题的相关度,从而计算出各个不同案件要素的权重。此外,本
发明还考虑了案件要素的上下文顺序,将上文包含的案件要素融入到前向隐状态,将下文
包含的案件要素融入到后向隐状态。
前后向隐状态,计算公式如下:
要素前后向注意力向量:
的前后向隐状态与案件要素前后向注意力向量计算第i个词处的前后向注意力权值:
由一组二进制逻辑回归模型建模,然后通过这些概率来计算给定词的概率。利用二叉树,则
概率p(vi=w|vi,k>i)可以如下表示:
在其左子树中,则π(vi)1为0,否则为1)
函数的计算公式如下:
参数
v ,其词汇大小为D ,案件要素k的大小为n 。首先通过公式(1‑2)计算新闻的双向隐状态
和 再由公式(3‑8)计算案件要素双向注意力权值 和 最终由公式
(9‑10)计算带有案件要素加权的隐状态 和 最终,由下式得到涉案新闻经由案
件要素加权的主题信息
等重要信息。因此本发明仅选择了涉案新闻的标题文本来构建实验数据集,具体数据集信
息如表1。具体实验参数如表2所示。
成性能。困惑度的计算公式如下:
型效果越好。本发明使用了 等人提出的自动度量指标CV来验证主题词的连贯性,并使
用开源工具gensim完成此项指标的计算。
关文档所占比例。已知混淆矩阵(表3),则精确率计算公式如下:
明提出的模型有着更低的困惑度分数,这充分证明了以案件要素作为指导确实能使模型具
有更好的泛化能力。
的主题词的语义连贯性较差,因为其主要目的通过主题模型来优化语言模型,而DocNADE只
考虑了文本的前向序列并没有考虑反向序列,因此其效果较拓展类模型较差。而其它三种
方法都考虑到了文章的上下文信息,所以效果较好。其中,本文方法由于加入了案件要素作
为指导,故而产生的主题词更加连贯,且更加具有相关性。
个近邻词汇及其对应的余弦相似度得分。sy,sw分别代表使用本文提出方法计算得到的词的
向量表示与使用word2vec训练得到的词的向量表示所计算出余弦相似度。结果证实了本发
明提出的模型抽取到的主题词跟案件要素具有更大的语义相关性。
来抽取每篇新闻的主题信息,并将训练集中的新闻用作检索,而测试集中的新闻用作查询。
检索实验设置了多组不同的检索分数(fraction of retrieved documents)以进行对比。
将用作查询的新闻的主题信息与所有检索集中的新闻的主题信息做相似度计算,返回相似
度最高的前Np条新闻,Np的计算公式如下:
看到,检索分数与精确率成反比,因为检索分数越高,代表返回的新闻数量越多,而检索到
不相关新闻的数量也就越多,直接导致精确率的降低。当检索分数为1%时,检索系统所返
回新闻的数量恰好与检索集中一个类别新闻的平均数量相近,当检索分数继续升高时,返
回的新闻几乎都是无关新闻,因此精确率大幅度减低。但无论检索分数的高低,利用提出模
型所抽取的主题信息获得的检索精确率始终是最高的。这是因为将案件要素融入到模型,
因此模型所抽取的主题信息包含了案件信息能得到更好的质量。这也充分证明了使用案件
要素信息对模型进行注意力加权指导是有效的。
常问询法院的蓝V账号以及各类新闻、报刊的微博账号,其中论坛来源主要来自对涉案信息
关注度高的论坛。爬虫程序则会自动根据设置的来源配置爬取格式和X‑path。若爬取到的
新闻未在训练模型的语料中出现,则调用人民法院涉法涉诉舆情监测系统接口对新闻进行
涉案相关性分析,然后通过构建的案件要素库自动抽取新闻中包含的案件要素,最后存储
方式为数据库存储和文本存储。其中,数据库存储是结构化的,将涉案新闻的ID、标题、正
文、发布时间、新闻来源和案件要素存入Oracle数据库;在文本存储中根据案件要素构建倒
排索引;
基于神经自回归分布估计的涉案新闻主题模型,根据公式(18)计算每条涉案新闻由案件要
素加权的主题信息。
将利用该新闻的主题信息与数据库中其它新闻的主题信息两两计算余弦相似度:
之后,模块将在数据库中查询相似度最高的N条新闻的ID,并将这些新闻的标题、正文、发布
时间以及来源反馈给用户,其中N由用户设置。
提下作出各种变化。