以海量文书构建罪名演化网络的方法、装置、设备及介质转让专利

申请号 : CN202211283786.3

文献号 : CN115358896B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 张伟姚佳何行知唐怀都张凤朱娟

申请人 : 四川大学华西医院四川省监狱管理局

摘要 :

本申请实施例提供了一种以海量文书构建罪名演化网络的方法、装置、设备及介质,属于自然语言处理技术领域。其中方法包括:根据多个裁判文书获取罪名序列;根据罪名序列确定罪名转移概率;根据罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;将单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径进行罪名节点关联,得到罪名演化网络。这样,利用海量裁判文书,依托自然语言处理技术结构化提取数百万名罪犯的刑罚数据,并利用罪名转移概率来刻画罪名间演化的可能性,形成了一套罪名演化网络,便于分析罪名演化过程,提高罪名演化的分析效率。

权利要求 :

1.一种以海量文书构建罪名演化网络的方法,其特征在于,所述方法包括:根据多个裁判文书获取罪名序列;

根据所述罪名序列确定罪名转移概率;

根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;

将所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径进行罪名节点关联,得到罪名演化网络;

所述根据所述罪名序列确定罪名转移概率,包括:确定所述罪名序列中出现罪名 的次数,确定所述罪名序列中先出现罪名 、再出现罪名 的罪名转移出现次数;

将所述罪名转移出现次数与所述罪名序列中出现罪名 的次数的比值确定为罪名转移为罪名 的罪名转移概率。

2.根据权利要求1所述的方法,其特征在于,所述罪名转移概率包括单罪名重复违法概率,单罪名演变路径包括单罪名主演变路径和单罪名分支演变路径;

根据所述罪名转移概率确定单罪名演变路径,包括:根据所述单罪名重复违法概率确定单罪名主演变路径;

根据所述罪名序列确定所述单罪名主演变路径的相邻主罪名节点之间的分支转移罪名概率;

根据所述分支转移罪名概率确定所述单罪名分支演变路径。

3.根据权利要求1所述的方法,其特征在于,所述罪名转移概率包括罪名关联概率,所述根据所述罪名序列确定罪名转移概率,包括:分别确定所述罪名序列中出现罪名 的第一次数和出现罪名 的第二次数;

确定在所述罪名序列中先出现罪名 再出现罪名 的第三次数,以及先出现罪名 再出现罪名 的第四次数;

计算所述第一次数和所述第二次数的第一和值,计算所述第三次数和所述第四次数的第二和值,将所述第一和值和所述第二和值的比值确定为所述罪名关联概率;

根据所述罪名转移概率确定罪名间无向演变路径,包括:根据所述罪名关联概率确定所述罪名间无向演变路径。

4.根据权利要求1所述的方法,其特征在于,所述罪名转移概率包括罪名间双向犯罪转移概率;

根据所述罪名转移概率确定罪名间单向演变路径,包括:根据所述罪名间双向犯罪转移概率生成双向路径罪犯转移概率分布图;

根据所述双向路径罪犯转移概率分布图确定罪名间罪名转移主方向;

根据所述罪名间罪名转移主方向确定所述罪名间单向演变路径。

5.根据权利要求4所述的方法,其特征在于,所述根据所述罪名间罪名转移主方向确定所述罪名间单向演变路径,包括:根据所述罪名间罪名转移主方向确定罪名间初始单向演变路径;

从所述罪名间初始单向演变路径中确定罪名转移概率大于或等于预设转移概率阈值的目标犯罪转移路径;

根据所述目标犯罪转移路径确定多个起点罪名,对各所述起点罪名进行广度遍历,得到各所述起点罪名对应的罪名间单向演变路径。

6.根据权利要求1所述的方法,其特征在于,所述根据多个裁判文书获取罪名序列,包括:基于文书句式库对各所述裁判文书进行分段处理,形成标题段落、人员段落、正文段落、判决结果段落和落款段落,分别对所述标题段落、所述人员段落、所述正文段落、所述判决结果段落和所述落款段落进行指代消解处理,得到各个指代消解后段落;

基于罪名句式库和罪名知识库从各个所述指代消解后段落中提取非标准化关键信息;

基于罪名知识库对所述非标准化关键信息进行标准化处理及校验处理,得到结构化犯罪关键信息;

根据所述结构化犯罪关键信息生成所述罪名序列。

7.一种以海量文书构建罪名演化网络的装置,其特征在于,所述装置包括:获取模块,用于根据多个裁判文书获取罪名序列;

第一确定模块,用于根据所述罪名序列确定罪名转移概率;

第二确定模块,用于根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;

生成模块,用于根据所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径生成罪名演化网络;

所述第一确定模块,还用于确定所述罪名序列中出现罪名 的次数,确定所述罪名序列中先出现罪名 、再出现罪名 的罪名转移出现次数;

将所述罪名转移出现次数与所述罪名序列中出现罪名 的次数的比值确定为罪名转移为罪名 的罪名转移概率。

8.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行权利要求1至6中任一项所述的以海量文书构建罪名演化网络的方法。

9.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至6中任一项所述的以海量文书构建罪名演化网络的方法。

说明书 :

以海量文书构建罪名演化网络的方法、装置、设备及介质

技术领域

[0001] 本申请涉及自然语言处理技术领域,尤其涉及一种以海量文书构建罪名演化网络的方法、装置、设备及介质。

背景技术

[0002] 再犯罪又称重新犯罪,是指受过一定的刑罚处罚,刑罚执行完毕或者赦免以后,在法定期限内又犯法,再次被判处一定刑罚的罪犯。再犯罪一般具有报复、仇恨、补偿等心理特征,对社会危害性大。目前,缺少利用海量数据对罪名演化网络构建的方案。

发明内容

[0003] 为了解决上述技术问题,本申请实施例提供了一种以海量文书构建罪名演化网络的方法、装置、设备及介质。
[0004] 第一方面,本申请实施例提供了一种以海量文书构建罪名演化网络的方法,所述方法包括:
[0005] 根据多个裁判文书获取罪名序列;
[0006] 根据所述罪名序列确定罪名转移概率;
[0007] 根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;
[0008] 将所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径进行罪名节点关联,得到罪名演化网络。
[0009] 在一实施方式中,所述根据所述罪名序列确定罪名转移概率,包括:
[0010] 确定所述罪名序列中出现罪名 的次数,确定所述罪名序列中先出现罪名、再出现罪名 的罪名转移出现次数;
[0011] 将所述罪名转移出现次数与所述罪名序列中出现罪名 的次数的比值确定为罪名 转移为罪名 的罪名转移概率。
[0012] 在一实施方式中,所述罪名转移概率包括单罪名重复违法概率,单罪名演变路径包括单罪名主演变路径和单罪名分支演变路径;
[0013] 根据所述罪名转移概率确定单罪名演变路径,包括:
[0014] 根据所述单罪名重复违法概率确定单罪名主演变路径;
[0015] 根据所述罪名序列确定所述单罪名主演变路径的相邻主罪名节点之间的分支转移罪名概率;
[0016] 根据所述分支转移罪名概率确定所述单罪名分支演变路径。
[0017] 在一实施方式中,所述罪名转移概率包括罪名关联概率,所述根据所述罪名序列确定罪名转移概率,包括:
[0018] 分别确定所述罪名序列中出现罪名 的第一次数和出现罪名 的第二次数;
[0019] 确定在所述罪名序列中先出现罪名 再出现罪名  的第三次数,以及先出现罪名 再出现罪名 的第四次数;
[0020] 计算所述第一次数和所述第二次数的第一和值,计算所述第三次数和所述第四次数的第二和值,将所述第一和值和所述第二和值的比值确定为所述罪名关联概率;
[0021] 根据所述罪名转移概率确定罪名间无向演变路径,包括:
[0022] 根据所述罪名关联概率确定所述罪名间无向演变路径。
[0023] 在一实施方式中,所述罪名转移概率包括罪名间双向犯罪转移概率;
[0024] 根据所述罪名转移概率确定罪名间单向演变路径,包括:
[0025] 根据所述罪名间双向犯罪转移概率生成双向路径罪犯转移概率分布图;
[0026] 根据所述双向路径罪犯转移概率分布图确定罪名间罪名转移主方向;
[0027] 根据所述罪名间罪名转移主方向确定所述罪名间单向演变路径。
[0028] 在一实施方式中,所述根据所述罪名间罪名转移主方向确定所述罪名间单向演变路径,包括:
[0029] 根据所述罪名间罪名转移主方向确定罪名间初始单向演变路径;
[0030] 从所述罪名间初始单向演变路径中确定罪名转移概率大于或等于预设转移概率阈值的目标犯罪转移路径;
[0031] 根据所述目标犯罪转移路径确定多个起点罪名,对各所述起点罪名进行广度遍历,得到各所述起点罪名对应的罪名间单向演变路径。
[0032] 在一实施方式中,所述根据多个裁判文书获取罪名序列,包括:
[0033] 基于文书句式库对各所述裁判文书进行分段处理,形成标题段落、人员段落、正文段落、判决结果段落和落款段落,分别对所述标题段落、所述人员段落、所述正文段落、所述判决结果段落和所述落款段落进行指代消解处理,得到各个指代消解后段落;
[0034] 基于罪名句式库和罪名知识库从各个所述指代消解后段落中提取非标准化关键信息;
[0035] 基于罪名知识库对所述非标准化关键信息进行标准化处理及校验处理,得到结构化犯罪关键信息;
[0036] 根据所述结构化犯罪关键信息生成所述罪名序列。
[0037] 第二方面,本申请实施例提供了一种以海量文书构建罪名演化网络的装置,所述装置包括:
[0038] 获取模块,用于根据多个裁判文书获取罪名序列;
[0039] 第一确定模块,用于根据所述罪名序列确定罪名转移概率;
[0040] 第二确定模块,用于根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;
[0041] 生成模块,用于根据所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径生成罪名演化网络。
[0042] 第三方面,本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的以海量文书构建罪名演化网络的方法。
[0043] 第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的以海量文书构建罪名演化网络的方法。
[0044] 上述本申请提供的以海量文书构建罪名演化网络的方法、装置、设备及介质,根据多个裁判文书获取罪名序列;根据所述罪名序列确定罪名转移概率;根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;将所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径进行罪名节点关联,得到罪名演化网络。这样,利用海量裁判文书,依托自然语言处理技术结构化提取数百万名罪犯的刑罚数据,并利用罪名转移概率来刻画罪名间演化的可能性,形成了一套罪名演化网络,便于分析罪名演化过程,提高罪名演化的分析效率。

附图说明

[0045] 为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对本申请保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
[0046] 图1示出了本申请实施例提供的以海量文书构建罪名演化网络的方法的一流程示意图;
[0047] 图2示出了本申请实施例提供的以海量文书构建罪名演化网络的方法的另一流程示意图;
[0048] 图3示出了本申请实施例提供的单罪名演变路径的一示例图;
[0049] 图4示出了本申请实施例提供的罪名间无向演变路径的一示例图;
[0050] 图5示出了本申请实施例提供的双向路径罪犯转移概率分布图的一示例图;
[0051] 图6示出了本申请实施例提供的罪名间双向转移概率的一示例图;
[0052] 图7示出了本申请实施例提供的罪名演化网络的一示例图;
[0053] 图8示出了本申请实施例提供的以海量文书构建罪名演化网络的装置的一结构示意图。
[0054] 图标:800‑以海量文书构建罪名演化网络的装置,801‑获取模块,802‑第一确定模块,803‑第二确定模块,804‑生成模块。

具体实施方式

[0055] 下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
[0056] 通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0057] 在下文中,可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
[0058] 此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0059] 除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本申请的各种实施例中被清楚地限定。
[0060] 实施例1
[0061] 本公开实施例提供了一种以海量文书构建罪名演化网络的方法。
[0062] 具体的,参见图1,以海量文书构建罪名演化网络的方法包括:
[0063] 步骤S101,根据多个裁判文书获取罪名序列。
[0064] 在本实施例中,可以基于海量裁判文书,利用知识库和信息提取的结构化数据处理方案,获取罪名序列。罪名序列可以包括多个罪名,同一个罪名可以进行违法编号等结构化处理。
[0065] 在一实施方式中后,步骤S101包括:
[0066] 基于文书句式库对各所述裁判文书进行分段处理,形成标题段落、人员段落、正文段落、判决结果段落和落款段落,分别对所述标题段落、所述人员段落、所述正文段落、所述判决结果段落和所述落款段落进行指代消解处理,得到各个指代消解后段落;
[0067] 基于罪名句式库和罪名知识库从各个所述指代消解后段落中提取非标准化关键信息;
[0068] 基于罪名知识库对所述非标准化关键信息进行标准化处理及校验处理,得到结构化犯罪关键信息;
[0069] 根据所述结构化犯罪关键信息生成所述罪名序列。
[0070] 请参阅图2,裁判文书可以为裁判文书网站公开的数据,裁判文书数据量较大,可以覆盖大量罪犯判决数据。举例来说,可以将2001‑2020年之间的裁判文书案号含“刑”字共900多万裁判文书作为分析数据。通过裁判文书可以提取多个关键信息,关键信息可以为案号、裁判日期、姓名、别名、性别、生日、民族、文化、住址、籍贯、身体、党派、职业、历史罪名(处分时间、罪名、判决单位、刑罚手段、刑期)、当次罪名(判决时间、罪名、判决单位、刑罚手段、刑期)等。其中,在法律文书中,第一审刑事判决书的内容格式要求包括:被告人曾经受过刑事处分、劳动教养处分,或者又在以上限制自由的期间逃跑过的,可能构成累犯或者有法定从重、加重的情节,应写明其事由和时间。因此,罪犯的历史处分信息是应填尽填,裁判文书中的历史罪名与当次罪名可以支撑罪名演化网络构建。
[0071] 具体的,可以针对已经获取的500万份一审裁判文书,利用自然语言处理技术对裁判文书进行关键信息结构化提取,并依托姓名、生日等已提取的关键信息对裁判文书进行罪犯罪名信息去重,共提取出600万条罪犯的文书信息;针对600万名罪犯犯罪数据,进行演化网络构建。
[0072] 举例来说,参见表1,表1为文书结构化示例表,经过多次结构化处理,得到满足要求的结构化犯罪关键信息。
[0073] 表1、文书结构化示例表
[0074]
[0075] 请再次参见图2,对非结构化的裁判文件进行结构化处理的过程可以包括:首先各类句式库对文书进行分段化处理,利用正文起始句式、判决起始句式进行分段,形成标题、人员、正文、判决结果、落款五个段落;然后针对五个段落,在指代消解处理的基础上,利用对应的句式库及知识库进行信息提取,即通过人员称谓知识、人员信息句式、历史判断句式、判断结果句式,提取出罪犯对应字段的非标准化截取字段;再利用多个罪名知识库,对已提取字段进行标准化处理及合理性校验,即利用文书案号知识、罪名体系知识、刑罚手段知识进行数据标准合理性校验,保障文书数据提取的标准化、一致性,最终形成海量罪犯标准化罪名序列。
[0076] 需要说明的是,指代消解处理是针对裁判文书中回指性的指代词,如同年、今年、被告人等指代词进行指代消解处理,将指定词替换为原文,保证裁判文书提取出的信息更为准确和可用。
[0077] 具体的,基于罪名知识库对所述非标准化关键信息进行标准化处理及校验处理,包括:
[0078] 对所述非标准化关键信息进行日期数字标准化、刑罚时长数字标准化、刑罚手段标准化、罪名标准化和刑罚手段标准化,起始刑期的合理性校验、刑期与罪名数量一致性校验。
[0079] 在本实施例中,通过文书结构化操作,针对每名罪犯将形成自身的标准化罪名序列,主要包含罪犯所有的罪名序列:在什么时间被判了什么罪名,并被处以了什么刑罚手段,刑期是多长,在何时被释放。举例来说,经过结构化处理后,共解析出6027305人的标准化罪名序列,其中:4575497人仅有一次罪名,857185人有两次罪名,508855人有三到五次罪名,79949人有六到十次罪名,甚至5819人存在十次以上罪名。
[0080] 在一实施方式中,构建各类罪名知识库,包括:
[0081] 获取多类罪名种子词,基于各类罪名种子词进行相似词召回,从召回的相似词中确定相似度处于预设相似度范围的多个候选词;
[0082] 通过词向量模型对各类所述罪名种子词进行多轮扩充,从各轮扩充后词语中筛选出属于多个所述候选词的目标词语,根据多个所述目标词语得到各类罪名种子词对应的罪名知识库;
[0083] 构建所述罪名句式库,包括:
[0084] 采用词正则式与词性正则式对多个所述裁判文书进行机器自动标注,得到机器自动标注结果;
[0085] 根据所述机器自动标注结果对罪犯词正则式与罪犯词性正则式进行优化处理,根据优化后的词正则式和优化后词性正则式生成罪名句式库。
[0086] 需要说明的是,各类罪名知识库包括人员称谓知识库、案号知识库、罪名知识库、刑罚知识库等,各类罪名知识库由不同的词/短语组成。不同知识库的构建细节有所差异,但是大致流程可归纳为:通过外部司法知识、专家知识及句式特性挖掘,形成特定知识库的罪名种子词,如人员称谓中的被告、原告等;在罪名种子词的扩充中,训练了两个大规模的词向量模型,分别可以为Directional skip‑gram大规模预训练词向量模型,以及使用结巴分词器(paddle版本)对海量刑事裁判文书进行分词并训练的Word2Vec词向量模型,通过词向量可以将罪名种子词进行多轮扩充,如“被告”可以扩充到“原告方”、“被告方”、“上诉人”、“原审”、“被告一”等;不过,在每轮扩充后,可以利用人工筛选扩充后的罪名种子词表以保证词表的高准确性,当扩充后的词表在前100个词(Top100)中找不到对应的词,则停止词表扩充。
[0087] 进一步补充说明的是,罪名句式库包括正文起始句式、判决起始句式、人员信息句式、历史罪名句式、判决结果句式等,各罪名类句式库建立在知识库的基础上,由词正则式与词性正则式两类正则表达式组成,正则表达式对待提取字段保留相应的匹配空位。其中词正则就是常规基于词的正则表达式;而词性正则式,则是建立在分词及词性标注的基础上,融合了词与词性的正则表达式。句式库的构建以迭代方式进行完善,每轮迭代中:首先依托句式库对随机100份文书进行机器自动标注,然后利用人工进行二次标注,最后优化罪名句式库以解决机器自动标注存在的错误。
[0088] 步骤S102,根据所述罪名序列确定罪名转移概率。
[0089] 在本实施例中,为衡量从某种罪名 转移到另一种罪名 的可能性,引入罪名转移概率,用 表示。请在再次参阅图2,在获取海量罪名序列后,执行罪名转移概率生成的步骤。
[0090] 在一实施方式中,步骤S102包括:
[0091] 确定所述罪名序列中出现罪名 的次数,确定所述罪名序列中先出现罪名、再出现罪名 的罪名转移出现次数;
[0092] 将所述罪名转移出现次数与所述罪名序列中出现罪名 的次数的比值确定为罪名 转移为罪名 的罪名转移概率。
[0093] 需要说明的是,同一人中多次出现 或同一人中多次出现先出现罪名 、再出现罪名 的仅计算一次。为保证转移路径具备数据统计意义,在后续处理中,仅考虑转移概率大于0.1%、且序列出现次数大于100的转移路径。
[0094] 示范性地,所述将所述罪名转移出现次数与所述罪名序列中出现罪名 的次数的比值确定为罪名 转移为罪名 的罪名转移概率,包括:
[0095] 根据如下公式计算所述罪名转移概率;
[0096] ;
[0097] 其中, 表示所述罪名序列中罪名 的出现次数, 表示所述罪名序列中先出现罪名 再出现罪名 的转移出现次数。
[0098] 由于“盗窃罪”、“走私、贩卖、运输、制造毒品罪”、“吸毒罪”等容易反复的罪名演化中出现,需要将同一种罪名的多次违法进行区分,需将“罪名_违法序号”作为新的罪名。如某名罪犯的所有罪名及序号为“盗窃罪、吸毒罪、脱逃罪、盗窃罪、盗窃罪”,将该犯人的罪名修正为“盗窃罪_1、吸毒罪_1、脱逃罪_1、盗窃罪_2、盗窃罪_3”。其中,序号最长为9,即单种罪名达10次及以上的,违法序号均认定为9。下面对引入违法序号后计算罪名转移概率的具体过程进行说明。
[0099] 在一实施方式中,所述罪名序列包括罪名及违法序号;步骤S102包括:
[0100] 根据以下公式计算所述罪名转移概率:
[0101] 其中, 表示违法序列m的罪名 , 表示违法序列n的罪名 , 表示所述罪名序列中违法序列n的
罪名 的出现次数, 表示所述罪名序列中先出现违法序列n的罪
名 再出现违法序列m的罪名 的罪名转移出现次数,当罪名 与罪名 相
同时,m等于n加1的和值。
[0102] 示范性的,罪名 与罪名 相同可以用 表示,m等于n加1的和值可以用 表示。
[0103] 在本实施例中,在计算不同罪名的转移概率中,任意两个罪名间可以有两条转移路径,为了研究罪名间的关联度,需要对罪名转移概率进行公式优化,引入罪名关联概率。
[0104] 在一实施方式中,所述罪名转移概率包括罪名关联概率,所述根据所述罪名序列确定罪名转移概率,包括:
[0105] 分别确定所述罪名序列中出现罪名 的第一次数和出现罪名 的第二次数;
[0106] 确定在所述罪名序列中先出现罪名 再出现罪名  的第三次数,以及先出现罪名 再出现罪名 的第四次数;
[0107] 计算所述第一次数和所述第二次数的第一和值,计算所述第三次数和所述第四次数的第二和值,将所述第一和值和所述第二和值的比值确定为所述罪名关联概率。
[0108] 具体的,可以根据以下公式计算罪名关联概率:
[0109]
[0110] 其中, 表示所述罪名序列中出现罪名 的第一次数和出现罪名的第二次数的和值, 表示所述罪名序列中先出现罪名 再出现
罪名  的第三次数, 表示所述罪名序列中先出现罪名 再出
现罪名 的第四次数。
[0111] 需要指出的是,同一人中多次出现罪名 ,仅计算一次。同一人中多次出现多次出现罪名 ,仅计算一次。同一人中多次出现先出现罪名 再出现罪名  的情况时,仅计算一次。同一人中多次出现先出现罪名 再出现罪名 的情况时,仅计算一次。以此,便可以刻画出任意两个罪名间的无向演变路径及概率值。
[0112] 步骤S103,根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径。
[0113] 在本实施例中,单罪名演变路径分为主演变路径及分支演变路径:通过计算单种罪名的重复违法概率,绘制出演变路径的主演变路径;在演变的主路径上,罪犯经常会出现其他罪名,通过计算出哪些罪名会以更高或更低的概率转移回原罪名,绘制出演变路径的分支演变路径。请再此参阅图2,在获取罪名转移概率后,获取罪名间无向演变路径、单罪名演变路径和罪名间单向演变路径。
[0114] 在一实施方式中,所述罪名转移概率包括单罪名重复违法概率,单罪名演变路径包括单罪名主演变路径和单罪名分支演变路径;
[0115] 根据所述罪名转移概率确定单罪名演变路径,包括:
[0116] 根据所述单罪名重复违法概率确定单罪名主演变路径;
[0117] 根据所述罪名序列确定所述单罪名主演变路径的相邻主罪名节点之间的分支转移罪名概率;
[0118] 根据所述分支转移罪名概率确定所述单罪名分支演变路径。
[0119] 请参阅图3,对于盗窃罪这一单罪名来看,盗窃罪_1和盗窃罪_2的单罪名重复违法概率为39.1%,盗窃罪_2和盗窃罪_3的单罪名重复违法概率为49.1%,盗窃罪_3和盗窃罪_4的单罪名重复违法概率为52.9%,在盗窃罪_1和盗窃罪_2之间还有其他分支演变路径,例如,由逃脱罪_1转移回盗窃罪_2的概率为58.3,由奸淫幼女罪_1转移回盗窃罪_2的概率为57.7%,由逃脱罪_1转移回盗窃罪_3的概率为63.1%,由收购销售赃物罪_1转移回盗窃罪_4的概率为49%。需要说明的是,在图3中还有其他支路演化路径可以转移回到盗窃罪_2、盗窃罪_3和盗窃罪_4,详情参见图3,在此不做一一说明。
[0120] 在一实施方式中,所述罪名转移概率包括罪名关联概率,根据所述罪名转移概率确定罪名间无向演变路径,包括:
[0121] 根据所述罪名关联概率确定所述罪名间无向演变路径。
[0122] 请参阅图4,图4所示为罪名间的无向演变路径示意图,任意两个罪名间可以通过边连接,赌博罪与吸毒罪之间连接无向演变路径,故意杀人与吸毒罪之间连接无向演变路径,故意杀人罪与斗殴罪之间连接无向演变路径,斗殴罪与吸毒罪之间连接无向演变路径,吸毒罪与故意杀人罪之间连接无向演变路径,赌博罪与斗殴罪之间连接无向演变路径。需要说明的是,图4仅用作解释说明无向演变路径,在实际应用中,由于罪名复杂多变,任一两个罪名之间的无向演变路径也会更复杂,在此不做限制。
[0123] 在本实施例中,在计算不同罪名之间的转移概率中,任意两个罪名间存在一条双向演变路径。但是,双向演变路径一定程度会加大演化分析的困难,所以可以在双向演变路径中找到更明确的主演变方向,将双向路径简化为单向路径。如“盗窃罪”转移为“抢夺罪”的概率为0.7%,“抢夺罪”转移为“盗窃罪”的概率为28%,即“抢夺罪”更易转移为“盗窃罪”,反之,若盗窃罪”转移为“抢夺罪”的概率为1%,“抢夺罪”转移为“盗窃罪”的概率为1%,两个方向的概率相同,则没有主演变方向。
[0124] 为保证双向路径简化为单向路径是合理并且可行的,可以绘制双向演变路径的转移概率分布图,用于观察是否大多双向路径存在较为明显的方向性,即确定两个转移概率的差异是否比较大。
[0125] 参见图5,图5所示为双向路径转移概率分布图,其横坐标是双向路径的转移概率较大值,纵坐标是双向路径的转移概率较小值,按照不同区间绘制双向路径转移概率的分布图,共有[0,0.1%) [0.1%‑0.5%) [0.5%‑1%) [1%‑5%) [5%‑10%) [10%‑100%]六个区间。
[0126] 其中,双向路径中转移概率较大值为:
[0127]
[0128] 其中,双向路径中转移概率较小值为:
[0129]
[0130] 在一实施方式中,所述罪名转移概率包括罪名间双向犯罪转移概率;
[0131] 根据所述罪名转移概率确定罪名间单向演变路径,包括:
[0132] 根据所述罪名间双向犯罪转移概率生成双向路径罪犯转移概率分布图;
[0133] 根据所述双向路径罪犯转移概率分布图确定罪名间罪名转移主方向;
[0134] 根据所述罪名间罪名转移主方向确定所述罪名间单向演变路径。
[0135] 示范性的,参见图5,较大值位于1%‑5%范围区间,且较小值1%‑5%范围区间的双向转移概率有16个。举例来说,参见图6,聚众斗殴罪向赌博罪的转移概率为1.1%,赌博罪向聚众斗殴罪的转移概率为1.1%。抢劫罪向敲诈勒索罪的转移概率为1.3%,敲诈勒索罪向抢劫罪的转移概率为1.3%,除此之外,图6还示出了其他两个罪名之间的转移概率,详情参见图6。
[0136] 在一实施方式中,所述根据所述罪名间罪名转移主方向确定所述罪名间单向演变路径,包括:
[0137] 根据所述罪名间罪名转移主方向确定罪名间初始单向演变路径;
[0138] 从所述罪名间初始单向演变路径中确定罪名转移概率大于或等于预设转移概率阈值的目标犯罪转移路径;
[0139] 根据所述目标犯罪转移路径确定多个起点罪名,对各所述起点罪名进行广度遍历,得到各所述起点罪名对应的罪名间单向演变路径。
[0140] 在本实施例中,在单向演变路径构建完成后,再通过转移概率阈值筛选出较为可信的路径后,能够分析出哪些罪名一般只作为路径起点,而哪些罪名一般只作为路径终点。同时,选择只作为路径起点的罪名,进行广度遍历,能够得到不同罪名的演变路径。
[0141] 示范行的,起点罪名可以为持有使用假币罪、拐卖妇女儿童罪、非法侵入住宅罪、......、逃脱罪等,终点罪可以为传播性病罪、妨害公务罪、......、容留介绍卖淫罪等。举例来说,对起点罪名进行广度搜索,可以得到各个起点罪名对应的罪名间单向演变路径。
例如,起点罪名为抢夺罪,经过广度搜索,其对应的罪名间单向演变路径为抢夺罪‑盗窃罪‑诈骗罪,对于其他起点罪名,也可以经过广度搜索,以确定其对应的罪名间单向演变路径,在此不做限制。
[0142] 步骤S104,将所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径进行罪名节点关联,得到罪名演化网络。
[0143] 在本实施例中,可以先根据单罪名演变路径生成单罪名网络,根据罪名间无向演变路径生成罪名间无向演变网络,根据罪名间单向演变路径生成罪名间单向演变网络,单罪名网络、罪名间无向演变网络和罪名间单向演变网络分别包括罪名节点以及连接两个罪名节点的边,将单罪名网络、罪名间无向演变网络和罪名间单向演变网络的节点进行关联,得到罪名演化网络。请再此参阅图2,罪名演化网络可以包括罪名间无向演变网络、单罪演变网络及罪名间单向演变网络。
[0144] 示范性的,可以根据罪名演化网络生成可视化罪名演化图,可视化罪名演化图标注有罪名间单向转移概率、罪名间关联转移概率以及单罪名转移概率、罪名与违法序号的归属关系。
[0145] 请参阅图7,图7所示为可视化罪名演化图,其中,盗窃罪_1、盗窃罪_2、盗窃罪_3、盗窃罪_4、盗窃罪_5均属于盗窃罪,从盗窃罪_1演变至盗窃罪_5的单罪名演变概率分别为演变概率P1、演变概率P2、演变概率P3、演变概率P4,盗窃罪向抢劫罪转变的单向演变概率P5,抢劫罪向盗窃罪转变的单向演变概率P6,盗窃罪与抢劫罪之间的罪名关联概率P7。
[0146] 本实施例提供的以海量文书构建罪名演化网络的方法,根据多个裁判文书获取罪名序列;根据所述罪名序列确定罪名转移概率;根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;将所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径进行罪名节点关联,得到罪名演化网络。这样,利用海量裁判文书,依托自然语言处理技术结构化提取数百万名罪犯的刑罚数据,并利用罪名转移概率来刻画罪名间演化的可能性,形成了一套罪名演化网络,便于分析罪名演化过程,提高罪名演化的分析效率。
[0147] 实施例2
[0148] 此外,本公开实施例提供了一种以海量文书构建罪名演化网络的装置。
[0149] 具体的,如图8所示,以海量文书构建罪名演化网络的装置800包括:
[0150] 获取模块801,用于根据多个裁判文书获取罪名序列;
[0151] 第一确定模块802,用于根据所述罪名序列确定罪名转移概率;
[0152] 第二确定模块803,用于根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;
[0153] 生成模块804,用于根据所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径生成罪名演化网络。
[0154] 在一实施方式中,第一确定模块802,还用于确定所述罪名序列中出现罪名 的次数,确定所述罪名序列中先出现罪名 、再出现罪名 的罪名转移出现次数;
[0155] 将所述罪名转移出现次数与所述罪名序列中出现罪名 的次数的比值确定为罪名 转移为罪名 的罪名转移概率。
[0156] 在一实施方式中,所述罪名序列包括罪名及违法序号;第一确定模块802,还用于根据以下公式计算所述罪名转移概率:
[0157] 其中, 表示违法序列m的罪名 , 表示违法序列n的罪名 , 表示所述罪名序列中违法序列
n的罪名 的出现次数, 表示所述罪名序列中先出现违法序列n的
罪名 再出现违法序列m的罪名 的罪名转移出现次数,当罪名 与罪名
相同时,m等于n加1的和值。
[0158] 在一实施方式中,所述罪名转移概率包括单罪名重复违法概率,单罪名演变路径包括单罪名主演变路径和单罪名分支演变路径;第二确定模块803,还用于根据所述单罪名重复违法概率确定单罪名主演变路径;
[0159] 根据所述罪名序列确定所述单罪名主演变路径的相邻主罪名节点之间的分支转移罪名概率;
[0160] 根据所述分支转移罪名概率确定所述单罪名分支演变路径。
[0161] 在一实施方式中,所述罪名转移概率包括罪名关联概率,第一确定模块802,还用于分别确定所述罪名序列中出现罪名 的第一次数和出现罪名 的第二次数;
[0162] 确定在所述罪名序列中先出现罪名 再出现罪名  的第三次数,以及先出现罪名 再出现罪名 的第四次数;
[0163] 计算所述第一次数和所述第二次数的第一和值,计算所述第三次数和所述第四次数的第二和值,将所述第一和值和所述第二和值的比值确定为所述罪名关联概率;
[0164] 第二确定模块803,还用于根据所述罪名关联概率确定所述罪名间无向演变路径。
[0165] 在一实施方式中,所述罪名转移概率包括罪名间双向犯罪转移概率;第二确定模块803,还用于根据所述罪名间双向犯罪转移概率生成双向路径罪犯转移概率分布图;
[0166] 根据所述双向路径罪犯转移概率分布图确定罪名间罪名转移主方向;
[0167] 根据所述罪名间罪名转移主方向确定所述罪名间单向演变路径。
[0168] 在一实施方式中,第二确定模块803,还用于根据所述罪名间罪名转移主方向确定罪名间初始单向演变路径;
[0169] 从所述罪名间初始单向演变路径中确定罪名转移概率大于或等于预设转移概率阈值的目标犯罪转移路径;
[0170] 根据所述目标犯罪转移路径确定多个起点罪名,对各所述起点罪名进行广度遍历,得到各所述起点罪名对应的罪名间单向演变路径。
[0171] 在一实施方式中,获取模块801,用于基于文书句式库对各所述裁判文书进行分段处理,形成标题段落、人员段落、正文段落、判决结果段落和落款段落,分别对所述标题段落、所述人员段落、所述正文段落、所述判决结果段落和所述落款段落进行指代消解处理,得到各个指代消解后段落;
[0172] 基于罪名句式库和罪名知识库从各个所述指代消解后段落中提取非标准化关键信息;
[0173] 基于罪名知识库对所述非标准化关键信息进行标准化处理及校验处理,得到结构化犯罪关键信息;
[0174] 根据所述结构化犯罪关键信息生成所述罪名序列。
[0175] 在一实施方式中,以海量文书构建罪名演化网络的装置800还包括:
[0176] 第一构建模块,用于获取多类罪名种子词,基于各类罪名种子词进行相似词召回,从召回的相似词中确定相似度处于预设相似度范围的多个候选词;
[0177] 通过词向量模型对各类所述罪名种子词进行多轮扩充,从各轮扩充后词语中筛选出属于多个所述候选词的目标词语,根据多个所述目标词语得到各类罪名种子词对应的罪名知识库;
[0178] 第二构建模块,用于采用词正则式与词性正则式对多个所述裁判文书进行机器自动标注,得到机器自动标注结果;
[0179] 根据所述机器自动标注结果对罪犯词正则式与罪犯词性正则式进行优化处理,根据优化后的词正则式和优化后词性正则式生成罪名句式库。
[0180] 本实施例提供的以海量文书构建罪名演化网络的装置800可以实现实施例1所提供的以海量文书构建罪名演化网络的方法,为避免重复,在此不再赘述。
[0181] 本实施例提供的以海量文书构建罪名演化网络的装置,根据多个裁判文书获取罪名序列;根据所述罪名序列确定罪名转移概率;根据所述罪名转移概率确定单罪名演变路径、罪名间无向演变路径和罪名间单向演变路径;将所述单罪名演变路径、所述罪名间无向演变路径和所述罪名间单向演变路径进行罪名节点关联,得到罪名演化网络。这样,利用海量裁判文书,依托自然语言处理技术结构化提取数百万名罪犯的刑罚数据,并利用罪名转移概率来刻画罪名间演化的可能性,形成了一套罪名演化网络,便于分析罪名演化过程,提高罪名演化的分析效率。
[0182] 实施例3
[0183] 此外,本公开实施例提供了一种电子设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行实施例1所提供的以海量文书构建罪名演化网络的方法。
[0184] 本实施例提供的电子设备可以实现实施例1所提供的以海量文书构建罪名演化网络的方法,为避免重复,在此不再赘述。
[0185] 实施例4
[0186] 本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现实施例1所提供的以海量文书构建罪名演化网络的方法。
[0187] 在本实施例中,计算机可读存储介质可以为只读存储器(Read‑Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
[0188] 本实施例提供的计算机可读存储介质可以实现实施例1所提供的以海量文书构建罪名演化网络的方法,为避免重复,在此不再赘述。
[0189] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
[0190] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
[0191] 上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。