基于神经自回归分布估计的涉案新闻主题模型构建方法及装置转让专利

申请号 : CN202010984648.2

文献号 : CN112434212B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 毛存礼梁昊远余正涛郭军军黄于欣高盛祥

申请人 : 昆明理工大学

摘要 :

本发明涉及基于神经自回归分布估计的涉案新闻主题模型构建方法及装置,属于自然语言处理技术领域。本发明首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率;依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索。本发明在困惑度和主题连贯性以及文档检索精确率等指标上的表现均优于基线模型。

权利要求 :

1.基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率,依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索;

利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻中包含的案件要素的双向隐状态;并包括了新闻在位置i的前后向隐状态和新闻所包含的案件要素在位置i的前后向隐状态;利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息;利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度;利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息。

2.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:所述构建涉案新闻数据并预处理,得到案件要素库和涉案词向量包括如下:对涉案新闻和案件本体进行分析,根据其涉案人名、地名、事件描述以及案件触发词案件特征构建案件要素库作为模型的涉案外部知识;

利用裁判文书数据、涉案新闻数据以及word2vec算法预训练涉案领域的词向量作为模型的涉案先验知识。

3.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:不同于iDocNADEe的输入,将新闻分别表示为词序列v以及新闻中包含的案件要素序列k;

利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻中包含的案件要素的双向隐状态;

其中, 和 分别代表了新闻在位置i的前后向隐状态, 和 分别代表了新闻所包含的案件要素在位置i的前后向隐状态,g(·)代表sigmoid激活函数,代表前后向偏置向量,W, 分别代表参数矩阵和涉案领域词向量矩阵,H,V分别代表了主题数量和词表大小, 分别代表新闻中第k个词在参数矩阵和涉案领域词向量矩阵中的向量表示, 分别代表新闻中第j个案件要素在参数矩阵和涉案领域词向量矩阵中的向量表示,λ代表了平衡权重系数。

4.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权的具体步骤如下:

A、利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息:

其中, 分别代表了前向注意力向量和后向注意力向量,n为案件要素的数量;

B、利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度:

其中, 分别代表了前向相关度和后向相关度,v

C、利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息:其中, 分别代表了案件信息加权的新闻文本隐状态。

5.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率为:

其中,w∈{1,...,V}, 分别代表前后向偏置向量, 代表了连接隐藏层和输出层的权重矩阵。

6.根据权利要求1所述的基于神经自回归分布估计的涉案新闻主题模型构建方法,其特征在于:依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索包括:

根据每个词在案件要素指导下的自回归条件,计算新闻的对数似然函数logp(v):其中,D代表了新闻文本的长度,p(vi|v<i,k<i),p(vi|v>i,k>i)分别代表了第i个位置的词的前后向自回归条件概率;

利用梯度下降算法训练参数以最大化对数似然函数,由此构建涉案新闻的主题模型。

7.基于神经自回归分布估计的涉案新闻主题模型构建装置,其特征在于,包括用于执行如权利要求1‑6任一权利要求所述的方法的模块。

说明书 :

基于神经自回归分布估计的涉案新闻主题模型构建方法及

装置

技术领域

[0001] 本发明涉及基于神经自回归分布估计的涉案新闻主题模型构建方法及装置,属于自然语言处理技术领域。

背景技术

[0002] 涉案新闻是指与司法案件相关的新闻,准确抽取涉案新闻主题信息对进一步开展涉案新闻检索、涉案新闻事件分析等研究具有重要价值。概率主题模型是文档主题抽取、文
档语义表征的有效方式,常用于信息检索、文本分类或摘要任务。传统主题模型主要考虑词
频统计特征,而忽略了文档中的词语出现的次序及上下文信息。神经主题模型由于能够获
得文本的深层语义信息,既可以在文本中捕获词汇之间的依赖关系,也能利用潜在主题捕
获全局语义信息,有效弥补了传统主题模型的缺陷,近年来在文本检索、文本分类、文本摘
要等自然语言处理任务中表现出较好的效果。
[0003] 涉案新闻通常包含了案件名称、涉案人员、涉案地点、涉案触发词等案件要素,这些案件要素能够简洁、准确地描绘一个案件的重要特征。由此可见,涉案新闻主题分析任务
的关键在于分析主题词与案件之间的关联关系,以此作为先验知识指导文本中词语的主题
分布和文本的主题表征。然而,针对通用文档建模的神经主题模型不能将案件要素作为先
验知识来帮助提升涉案新闻文本中词语主题分布的准确性。

发明内容

[0004] 为解决上述问题,本发明提供了基于神经自回归分布估计的涉案新闻主题模型构建方法及装置,本发明在困惑度、主题连贯性以及文档检索精确率等指标上表现均优于基
线模型,精确率普遍都有所提升。
[0005] 第一方面,本发明提供一种基于神经自回归分布估计的涉案新闻主题模型构建方法,首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由iDocNADEe模
型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构建注意力机
制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐状态计算案
件要素指导的自回归条件概率;依据涉案新闻的自回归条件概率构建涉案主题模型,并利
用涉案新闻主题模型进行涉案新闻检索。
[0006] 其中,所述构建涉案新闻数据并预处理,得到案件要素库和涉案词向量包括如下:
[0007] 对涉案新闻和案件本体进行分析,根据其涉案人名、地名、事件描述以及案件触发词案件特征构建案件要素库作为模型的涉案外部知识;
[0008] 利用裁判文书数据、涉案新闻数据以及word2vec算法预训练涉案领域的词向量作为模型的涉案先验知识。
[0009] 其中,由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:
[0010] 不同于iDocNADEe的输入,将新闻分别表示为词序列v以及新闻中包含的案件要素序列k;
[0011] 利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻中包含的案
件要素的双向隐状态;
[0012]
[0013]
[0014]
[0015]
[0016] 其中, 和 分别代表了新闻在位置i的前后向隐状态, 和分别代表了新闻所包含的案件要素在位置i的前后向隐状态,g(·)代表sigmoid激活函数,
代表前后向偏置向量, 分别代表参数矩阵和涉案领域词向量矩阵,H,V
分别代表了主题数量和词表大小, 分别代表新闻中第k个词在参数矩阵和涉案领
域词向量矩阵中的向量表示, 分别代表新闻中第j个案件要素在参数矩阵和涉案
领域词向量矩阵中的向量表示,λ代表了平衡权重系数。
[0017] 其中,用案件要素和新闻的双向隐状态构建注意力机制,对新闻隐状态加权的具体步骤如下:
[0018] A、利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息:
[0019]
[0020]
[0021] 其中, 分别代表了前向注意力向量和后向注意力向量,n为案件要素的数量;
[0022] B、利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度:
[0023]
[0024]
[0025] 其中, 分别代表了前向相关度和后向相关度,v<i为上文信息,v>i为下文信息,k<i为上文中包含的案件要素,k>i为下文中包含的案件要素,相关度的计算函数为点乘运
算:
[0026] C、利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息:
[0027]
[0028]
[0029] 其中, 分别代表了案件信息加权的新闻文本隐状态。
[0030] 其中,利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率为:
[0031]
[0032]
[0033] 其中,w∈{1,...,V}, 分别代表前后向偏置向量, 代表了连接隐藏层和输出层的权重矩阵。
[0034] 其中,依据涉案新闻的自回归条件概率构建涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索包括:
[0035] 根据每个词在案件要素指导下的自回归条件,计算新闻的对数似然函数logp(v):
[0036]
[0037] 其中,D代表了新闻文本的长度,p(vi|v<i,k<i),p(vi|v>i,k>i)分别代表了第i个位置的词的前后向自回归条件概率。
[0038] 利用梯度下降算法训练参数以最大化对数似然函数,由此构建涉案新闻的主题模型。
[0039] 本发明还提供一种基于神经自回归分布估计的涉案新闻主题模型构建装置,该装置包括用于执行第一方面的所述方法的模块。
[0040] 本发明的有益效果是:
[0041] 本发明将上下文信息和案件信息进行融合,既能利用上下文信息弥补传统主题模型忽略文本语序的问题,又能利用案件要素增强文本中与案件信息有关的词语的语义特征
表示,从而提高了用于涉案新闻领域的主题模型的性能;
[0042] 实验结果表明本发明提出的方法在困惑度、主题连贯性以及文档检索精确率等指标表现上均优于基线系统。

附图说明

[0043] 图1为本发明中的模型构建示意图;
[0044] 图2为本发明中的隐状态计算示意图;
[0045] 图3为本发明中的文档检索实验精确率对比图;
[0046] 图4为本发明中的装置结构框图;
[0047] 图5为本发明中的流程图。

具体实施方式

[0048] 实施例1:如图1‑5所示,第一方面,本发明提供一种基于神经自回归分布估计的涉案新闻主题模型构建方法,首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向
量;然后由iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向
隐状态构建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权
的新闻隐状态计算案件要素指导的自回归条件概率;依据涉案新闻的自回归条件概率构建
涉案主题模型,并利用涉案新闻主题模型进行涉案新闻检索。
[0049] 具体步骤如下:
[0050] Step1、涉案新闻数据爬取并根据涉案特性进行数据预处理;
[0051] Step1.1、根据近年来的数十起热点案件的关键词从互联网爬取相关新闻,并通过人民法院涉法涉诉舆情监测系统(http://116.55.241.12:8080/zhfyfull)判断该新闻是
否属于涉案新闻,最后得到涉及65个案件的新闻40000余条;
[0052] Step1.2、对涉案新闻和案件本体进行分析,根据其涉案人名、地名、事件描述以及案件触发词等案件特征构建案件要素库作为模型的涉案外部知识;
[0053] Step1.3、从中国裁判文书网爬取裁判文书数据(约9G),并利用裁判文书数据和涉案新闻数据以及word2vec算法预训练涉案领域的词向量作为模型的涉案先验知识。
[0054] Step2、构建基于神经自回归分布估计的涉案新闻主题模型;
[0055] 由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:
[0056] Step2.1、不同于iDocNADEe的输入,将新闻分别表示为词序列v以及新闻中包含的案件要素序列k;
[0057] Step2.2、利用词序列v、案件要素序列k以及iDocNADEe模型和双向语言模型的计算方式,结合作为涉案先验知识的涉案领域词向量计算涉案新闻的双向隐状态以及新闻中
包含的案件要素的双向隐状态;
[0058]
[0059]
[0060]
[0061]
[0062] 其中, 和 分别代表了新闻在位置i的前后向隐状态, 和分别代表了新闻所包含的案件要素在位置i的前后向隐状态,g(·)代表sigmoid激活函数,
代表前后向偏置向量, 分别代表参数矩阵和涉案领域词向量矩阵,H,V
分别代表了主题数量和词表大小, 分别代表新闻中第k个词在参数矩阵和涉案领
域词向量矩阵中的向量表示, 分别代表新闻中第j个案件要素在参数矩阵和涉案领
域词向量矩阵中的向量表示,λ代表了平衡权重系数。
[0063] Step2.3、利用平均池化操作和案件要素隐状态计算双向注意力向量作为新闻中所包含的案件要素信息:
[0064]
[0065]
[0066] 其中, 分别代表了前向注意力向量和后向注意力向量,n为案件要素的数量;
[0067] Step2.4、利用案件要素隐状态的双向注意力向量与涉案新闻的双向隐状态计算案件要素信息与新闻文本之间的双向相关度:
[0068]
[0069]
[0070] 其中, 分别代表了前向相关度和后向相关度,v算:
[0071] Step2.5、利用案件要素与新闻文本的相关度构建基于案件要素的注意力机制,从而对新闻文本的隐状态进行案件要素加权,使其具有案件信息:
[0072]
[0073]
[0074] 其中, 分别代表了案件信息加权的新闻文本隐状态。
[0075] Step2.6、利用神经自回归算法和案件要素加权的新闻隐状态计算案件要素指导的自回归条件概率为:
[0076]
[0077]
[0078] 其中,w∈{1,...,V}, 分别代表前后向偏置向量, 代表了连接隐藏层和输出层的权重矩阵。
[0079] Step2.7、根据每个词在案件要素指导下的自回归条件,计算新闻的对数似然函数logp(v):
[0080]
[0081] 其中,D代表了新闻文本的长度,p(vi|v<i,k<i),p(vi|v>i,k>i)分别代表了第i个位置的词的前后向自回归条件概率。
[0082] Step2.8、利用梯度下降算法训练参数以最大化对数似然函数,由此构建涉案新闻的主题模型。
[0083] 本发明还提供一种基于神经自回归分布估计的涉案新闻主题模型构建装置,该装置包括用于执行第一方面的所述方法的模块。
[0084] 具体的,例如所述方法的模块可以包括如下:
[0085] 涉案数据自动获取和存储模块,根据设置的案件关键词和新闻来源,自动爬取新闻,其中新闻来源包括微博、新闻网站和论坛,其中微博来源主要包括了各类法院账号、经
常问询法院的蓝V账号以及各类新闻、报刊的微博账号,其中论坛来源主要来自对涉案信息
关注度高的论坛。爬虫程序则会自动根据设置的来源配置爬取格式和X‑path。若爬取到的
新闻未在训练模型的语料中出现,则调用人民法院涉法涉诉舆情监测系统接口对新闻进行
涉案相关性分析,然后通过构建的案件要素库自动抽取新闻中包含的案件要素,最后存储
方式为数据库存储和文本存储。其中,数据库存储是结构化的,将涉案新闻的ID、标题、正
文、发布时间、新闻来源和案件要素存入Oracle数据库;在文本存储中根据案件要素构建倒
排索引;
[0086] 涉案新闻主题抽取模块,从数据库中读取新闻并进行预处理:去停用词、分词以及抽取案件要素。将新闻及其中的案件要素以序列的方式分别作为输入,自动调用训练好的
基于神经自回归分布估计的涉案新闻主题模型,计算每条涉案新闻由案件要素加权的主题
信息,计算步骤如下:
[0087] 1、根据Step2.1计算词序列的前后向隐状态:
[0088] 2、根据Step2.2计算案件要素序列的前后向隐状态:
[0089] 3、根据Step2.3计算案件要素平均向量:
[0090] 4、根据Step2.4计算案件要素与新闻文本的双向相关度:
[0091] 5、根据Step2.5计算案件要素加权的前后向隐状态:
[0092] 6、根据案件要素加权的前后向隐状态相加计算得到融合案件特征的主题信息:
[0093]
[0094] 其中,代表了新闻的主题信息。
[0095] 基于主题的涉案新闻检索模块,实验结果证明基于主题检索效果较好,因此利用新闻的主题信息进行相似度计算从而进行检索。更具体地,每输入一条涉案新闻,检索模块
将利用该新闻的主题信息与数据库中其它新闻的主题信息两两计算余弦相似度:
[0096]
[0097] 其中,A,B代表了两条涉案新闻的主题信息,n代表得到的主题信息的维度。得到主题信息的余弦相似度后,并根据该相似度从大到小对检索集中的涉案新闻进行排序并返回
新闻的ID。得到返回的新闻ID之后,模块将在数据库中查询相似度最高的N条新闻的ID,并
将这些新闻的标题、正文、发布时间以及来源反馈给用户,其中N由用户设置。
[0098] 实施例2:如图1‑5所示,基于神经自回归分布估计的涉案新闻主题模型构建方法,所述方法首先构建涉案新闻数据并预处理,得到案件要素库和涉案词向量;然后由
iDocNADEe模型计算新闻和案件要素的双向隐状态;再用案件要素和新闻的双向隐状态构
建注意力机制,对新闻隐状态加权;接下来利用神经自回归算法和案件要素加权的新闻隐
状态计算案件要素指导的自回归条件概率;依据涉案新闻的自回归条件概率构建涉案主题
模型,并利用涉案新闻主题模型进行涉案新闻检索。
[0099] 具体步骤为:
[0100] 涉案新闻数据爬取并根据涉案特性进行数据预处理;
[0101] 根据热点案件关键词从互联网爬取新闻数据,并通过人民法院涉法涉诉舆情监测系统(http://116.55.241.12:8080/zhfyfull)判断该新闻是否属于涉案新闻,最终得到涉
及65个案件的40000余条新闻;
[0102] 对涉案新闻和案件进行分析,根据其涉案人名、地名、事件描述以及案件触发词等构建案件要素库;
[0103] 从中国裁判文书网爬取裁判文书数据(约9G),并利用裁判文书数据和涉案新闻数据以及word2vec算法预训练涉案领域的词向量;
[0104] 由iDocNADEe模型计算新闻和案件要素的双向隐状态具体包括:
[0105] 将每一篇文档表示为一个序列v=[v1,v2,...,vD],其中,D是这篇文档的词数,vi∈{1,...,K}表示文档中第i个词在语料库词表中的下标,K是语料库词表的大小。基于
iDocNADEe模型,文档的每个词汇vi都有两个包含了上下文信息的隐状态,分别是前向隐状
态 以及后向隐状态 这两个隐状态分别由vi的上下文信息v<i=[v1,...,vi‑1]与v>i=
[vi+1,...,vD]以及引入预训练的词向量作为语义补充信息计算得到。即每个词vi的隐状态
包含了vi的完整上下文信息。前后向隐状态的计算公式如下:
[0106]
[0107]
[0108] 其中,g(·)代表任意非线性激活函数, 为偏置向量,H代表隐藏层的大小,即主题数量。 为参数矩阵, 是预训练的词向量矩阵,λ是权重系数。
分别代表了矩阵W,E中的第vk列。如图2所示。其中参数矩阵W作为一个可学习的参
数,代表了主题模型的主题——词分布,它的每一行Wj,:编码了第j个主题的主题分布,而每
一列 则是第vk个词的主题信息。
[0109] 案件要素是指案件的内在组成部分及各部分之间的相互关系和排列状况,如,刑事案件由何事、何时、何地、何物、何情、何故、何人等7要素构成,对案件构成要素进行分析
能够从根本上把握案件发生、发展的趋势和规律。对于涉案新闻主题抽取任务,分析涉案文
本与案件要素之间的关联关系有助于提高涉案主题分布的准确性。为此,根据刑事案件构
成要素的特点,从互联网中收集了有关某地公交坠江案,等刑事案件的相关新闻文档,通过
人工方式构建了案件要素库,为涉案新闻主题建模提供了外部知识。
[0110] 虽然案件要素包含了丰富的案件信息,但不同的案件要素所包含的信息重要程度并不相同。以上述涉案新闻的案件要素为例,“殴打”、“坠江”的重要程度应大于“某地”,因
此要计算出每个案件要素与主题的相关度,从而计算出各个不同案件要素的权重。此外,本
发明还考虑了案件要素的上下文顺序,将上文包含的案件要素融入到前向隐状态,将下文
包含的案件要素融入到后向隐状态。
[0111] 针对文本序列v,通过构建的案件要素库,可以提取出案件要素序列k=[k1,k2,...,kn],其中n是序列中所包含的案件要素数。为构建注意力机制,首先计算案件要素的
前后向隐状态,计算公式如下:
[0112]
[0113]
[0114] 其中,k<i∈v<i,k>i∈v>i。 分别代表文档v中第j个要素在参数矩阵W和预训练的词向量矩阵E中的向量表示。然后使用得到的案件要素的前后向隐状态计算出案件
要素前后向注意力向量:
[0115]
[0116]
[0117] 其中, 分别代表了前后向注意力向量,编码了案件要素所包含的信息,利用该向量对文本的隐状态进行加权可以得到带有案件信息的隐状态。使用新闻文本中第i个词
的前后向隐状态与案件要素前后向注意力向量计算第i个词处的前后向注意力权值:
[0118]
[0119]
[0120] 其中, 分别代表了前后向注意力权值, 表示注意力机制的对齐函数。最终新闻的案件要素加权隐向量由下式得到:
[0121]
[0122]
[0123] 利用神经自回归算法和利用注意力机制得到的融合案件要素信息的文本隐状态,可以计算每个词最终的前后向自回归条件(如图1上方的 ),计算公式如下:
[0124]
[0125]
[0126] 其中,w∈{1,...,K}。 分别为前后向的偏置向量。 代表连接隐藏层与输出层的权重矩阵。
[0127] 考虑到直接计算公式(11‑12)的计算成本过高,本发明使用二叉树对其进行简化。在在二叉树中,从根到叶子的每个路径都对应一个词汇。树中每个节点向左(或右)的概率
由一组二进制逻辑回归模型建模,然后通过这些概率来计算给定词的概率。利用二叉树,则
概率p(vi=w|vi,k>i)可以如下表示:
[0128]
[0129]
[0130] 其中:
[0131]
[0132]
[0133] 其中,l(vi)表示从根到词vi的路径上的树节点的序列,而π(vi)表示这些节点中的每个节点的二进制左(或右)选择的序列(例如l(vi)1将始终是树的根,如果词vi的叶子节点
在其左子树中,则π(vi)1为0,否则为1)
[0134] 在得到每个词的自回归条件概率之后,通过将文本中所有词的联合分布p(v)分解为每个词的条件分布的乘积对文本进行建模,即 最终,文档的对数似然
函数的计算公式如下:
[0135]
[0136] 其中,p(vi|vi,k>i)分别代表了新闻第i个位置的词的前后向自回归条件概率,最终以文档的对数似然函数logp(v)为优化目标,使用随机梯度下降算法优化
参数
[0137] 根据训练好的的涉案新闻主题模型抽取涉案新闻的主题信息。对于一篇涉案新闻* * * *
v ,其词汇大小为D ,案件要素k的大小为n 。首先通过公式(1‑2)计算新闻的双向隐状态
和 再由公式(3‑8)计算案件要素双向注意力权值 和 最终由公式
(9‑10)计算带有案件要素加权的隐状态 和 最终,由下式得到涉案新闻经由案
件要素加权的主题信息
[0138]
[0139] 经过对新闻的分析,发现与案件相关的新闻正文的长度不均衡,而且文本中包含了大量的噪声,但新闻标题基本上都包含了跟案件相关的一些信息,如案件名称、涉案人员
等重要信息。因此本发明仅选择了涉案新闻的标题文本来构建实验数据集,具体数据集信
息如表1。具体实验参数如表2所示。
[0140] 表1数据集具体信息
[0141]
[0142] 表2实验参数设置
[0143]
[0144] 在评价指标方面,本发明选取了困惑度、主题连贯性以及文档检索精确率作为评价指标。具体介绍如下:
[0145] 困惑度(PPL)是为了检验主题模型的泛化能力,困惑度越低,则代表模型具有更好的泛化能力。通过计算测试集中涉案新闻的困惑度来评估主题模型作为生成模型的文档生
成性能。困惑度的计算公式如下:
[0146]
[0147] 主题连贯性是为了对主题词的语义进行评价。该指标使用参考语料库上的滑动窗口来确定每个主题词的上下文特征。该指标分数越高,主题词的语义越一致,即代表主题模
型效果越好。本发明使用了 等人提出的自动度量指标CV来验证主题词的连贯性,并使
用开源工具gensim完成此项指标的计算。
[0148] 表3新闻检索系统中的混淆矩阵
[0149]
[0150] 为了对本发明提出的模型所抽取的主题信息进行评估,还设置了一个涉案新闻检索的实验,并使用精确率作为评价指标。新闻检索系统的精确率表示在检索到的文档中,相
关文档所占比例。已知混淆矩阵(表3),则精确率计算公式如下:
[0151]
[0152] 本发明所采用的对比模型如下:
[0153] (1)DocNADE:一种NADE和RSM的扩展模型,使用神经自回归估计对文本进行主题建模;
[0154] (2)TDLM:一种基于卷积神经网络、注意力机制以及LSTM网络的双神经网络模型,是一种多任务学习模型,由两个子任务主题学习与文本推断组成;
[0155] (3)ctx‑DocNADEe:在DocNADE的基础上引入了LSTM语言模型和Glove词向量,其文本的隐藏状态由三者共同计算得到;
[0156] (4)iDocNADEe:同样在DocNADE的基础上进行了改进,引入了Glove词向量和双向语言模型的计算方式。
[0157] 表4主题数H=50各模型的PPL分数
[0158]
[0159]
[0160] 表4展示了本发明提出的模型与其它对比实验在主题数H=50时的困惑度分数。由于TDLM模型主要针对语言模型,因此其在主题模型的效果并不明显。在相同主题数时,本发
明提出的模型有着更低的困惑度分数,这充分证明了以案件要素作为指导确实能使模型具
有更好的泛化能力。
[0161] 表5主题数H=50各模型的主题连贯性CV
[0162]
[0163] 表5展示了本发明提出的模型与其它对比模型分别在不同主题数下,每个主题取前10个(T10)以及前20个(T20)主题词的平均主题连贯性分数。结果表明,TDLM模型所得到
的主题词的语义连贯性较差,因为其主要目的通过主题模型来优化语言模型,而DocNADE只
考虑了文本的前向序列并没有考虑反向序列,因此其效果较拓展类模型较差。而其它三种
方法都考虑到了文章的上下文信息,所以效果较好。其中,本文方法由于加入了案件要素作
为指导,故而产生的主题词更加连贯,且更加具有相关性。
[0164] 表6模型所得5个最相邻词的相似度(%)
[0165]
[0166]
[0167] 为了进行词汇向量表示的测试,本发明使用构建的涉案新闻数据集对所提出的模型进行了训练,并使用作为每个词汇的向量表示(200维)。表6显示了在某些选定词汇的五
个近邻词汇及其对应的余弦相似度得分。sy,sw分别代表使用本文提出方法计算得到的词的
向量表示与使用word2vec训练得到的词的向量表示所计算出余弦相似度。结果证实了本发
明提出的模型抽取到的主题词跟案件要素具有更大的语义相关性。
[0168] 主题模型的一个重要用途就是得到文档的主题信息。通过执行一个涉案新闻检索任务以评估本发明所提出方法以及对比方法所得到的新闻主题信息的质量。使用公式(18)
来抽取每篇新闻的主题信息,并将训练集中的新闻用作检索,而测试集中的新闻用作查询。
检索实验设置了多组不同的检索分数(fraction of retrieved documents)以进行对比。
将用作查询的新闻的主题信息与所有检索集中的新闻的主题信息做相似度计算,返回相似
度最高的前Np条新闻,Np的计算公式如下:
[0169] Np=Nr*检索分数      (21)
[0170] 其中Nr是检索集的新闻数量。最终通过查询新闻的标签和返回的Np条新闻的标签计算检索精确率。结果如图3所示,纵轴代表各模型取得的精确率,横轴代表检索分数。可以
看到,检索分数与精确率成反比,因为检索分数越高,代表返回的新闻数量越多,而检索到
不相关新闻的数量也就越多,直接导致精确率的降低。当检索分数为1%时,检索系统所返
回新闻的数量恰好与检索集中一个类别新闻的平均数量相近,当检索分数继续升高时,返
回的新闻几乎都是无关新闻,因此精确率大幅度减低。但无论检索分数的高低,利用提出模
型所抽取的主题信息获得的检索精确率始终是最高的。这是因为将案件要素融入到模型,
因此模型所抽取的主题信息包含了案件信息能得到更好的质量。这也充分证明了使用案件
要素信息对模型进行注意力加权指导是有效的。
[0171] 根据本发明的构思,本发明还提供了一种基于神经自回归分布估计的涉案新闻主题模型构建装置,如图4所示,该装置包括:
[0172] 涉案数据自动获取和存储模块,根据设置的案件关键词和新闻来源,自动爬取新闻,其中新闻来源包括微博、新闻网站和论坛,其中微博来源主要包括了各类法院账号、经
常问询法院的蓝V账号以及各类新闻、报刊的微博账号,其中论坛来源主要来自对涉案信息
关注度高的论坛。爬虫程序则会自动根据设置的来源配置爬取格式和X‑path。若爬取到的
新闻未在训练模型的语料中出现,则调用人民法院涉法涉诉舆情监测系统接口对新闻进行
涉案相关性分析,然后通过构建的案件要素库自动抽取新闻中包含的案件要素,最后存储
方式为数据库存储和文本存储。其中,数据库存储是结构化的,将涉案新闻的ID、标题、正
文、发布时间、新闻来源和案件要素存入Oracle数据库;在文本存储中根据案件要素构建倒
排索引;
[0173] 涉案新闻主题抽取模块,从数据库中读取新闻并进行预处理:去停用词、分词以及抽取案件要素。将新闻及其中的案件要素以序列的方式分别作为输入,自动调用训练好的
基于神经自回归分布估计的涉案新闻主题模型,根据公式(18)计算每条涉案新闻由案件要
素加权的主题信息。
[0174] 基于主题的涉案新闻检索模块,实验结果证明基于主题检索效果较好,因此利用新闻的主题信息进行相似度计算从而进行检索。更具体地,每输入一条涉案新闻,检索模块
将利用该新闻的主题信息与数据库中其它新闻的主题信息两两计算余弦相似度:
[0175]
[0176] 其中,A,B分别代表了两条新闻的主题信息。得到主题信息的余弦相似度后,并根据该相似度从大到小对检索集中的涉案新闻进行排序并返回新闻的ID。得到返回的新闻ID
之后,模块将在数据库中查询相似度最高的N条新闻的ID,并将这些新闻的标题、正文、发布
时间以及来源反馈给用户,其中N由用户设置。
[0177] 上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前
提下作出各种变化。