一种法院案件卷宗识别方法转让专利

申请号 : CN202110543832.8

文献号 : CN113239681B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 姜森谢绍韫

申请人 : 苏州黑云智能科技有限公司

摘要 :

本发明涉及一种法院案件卷宗识别方法,属于自然语言处理技术领域。该方法基于案情全文进行罪名分析和特征要素提取,提取案件要素,辅助法院工作人员分析案件,具体包括以下步骤:S1:采用基于规则的方法和相似度模型的方法对案件罪名进行分析;S2:构建语料库和规则库;S3:基于语义和句式规则进行段落划分;S4:采用基于规则的方法和基于实体识别的方法对案件中的关键特征要素进行提取;S5:规范数据格式;S6:展示分析结果。本发明提供的方法详细地分析和展示了判决书复杂案情中用户关注的信息数据,显著地提高了分析结果的细化度和准确率,有效地提升了法院工作人员分析案件的效率。

权利要求 :

1.一种法院案件卷宗识别方法,其特征在于:该方法基于案情全文进行罪名分析和特征要素提取,提取案件要素,辅助法院工作人员分析案件,具体包括以下步骤:S1:采用基于规则的方法和相似度模型的方法对案件罪名进行分析;

S2:构建语料库和规则库;

S3:基于语义和句式规则进行段落划分;

S4:采用基于规则的方法和基于实体识别的方法对案件中的关键特征要素进行提取;

S5:规范数据格式;

S6:展示分析结果;

所述S1中,基于规则的方法为构建罪名句式规则库,通过正则表达式提取与规则库相匹配的罪名数据;

若提取失效,未从判决书中提取到罪名数据,则采用基于词向量模型word2vec,相似度模型的方法;

该方法首先基于大量的同案判决书文档,训练同案罪名的语料库模型,然后基于训练好的模型来对新的待处理文档进行罪名分析;

所述S2中,基于若干同类罪名案件,对相似段落和案情归纳分析,判决书的格式与法院所在地和时间有一定的关系,通过对一定的判决书进行归纳总结,总结句式规则和关键词库,根据不同罪名指定不同的正则表达式和词库,其中,故意伤害罪构建作案物品词库,贩卖毒品罪构建毒品词库;并通过案件数据迭代补全语料库和规则库,用于后续段落和结构化数据的提取;正则表达式是用来检索和替换符合某个模式和规则的文本;

所述S3中,将整个判决书划分为被告人个人信息段落、案情段落、本院认为段落和判刑结果段落;

其中,被告人个人信息段落基于语义来提取,包含各个被告人的姓名、出生年月、出生地、民族、文化程度、职业和住址;

案情段落基于句式规则来划分和提取,案情段落的句首句式符合句式规则,通过不断地迭代完善该句式规则,对所有判决文书的划分案情段落;

句式规则为:段落开始为‘本院认为’为加减刑段落,段落开始包含‘**犯**罪,被判处’的段落为判刑段落;

本院认为段落通过语义和句式规则来划分,包含报告人犯罪总结和判决依据信息;

判刑结果段落为各个被告人在该审中的判刑结果;

所述S4中,对于数值型的关键特征要素,采用基于句式规则的方式进行提取,通过正则表达式和句式语义提取正确的数值项;

对于枚举型的关键特征要素,构建其完整的词库,基于完整的词库,通过正则表达式和句式语义在案情中筛选特征值;

对于被害人和涉案地点的实体项关键特征要素,采用实体识别的方法进行提取,选用文本预处理模型BERT;

所述对于被害人和涉案地点的实体项特征,采用实体识别的方法进行提取,选用文本预处理模型BERT具体为:

第一步:选取数据集,在词性标注任务中,采用人名日报标注语料库,按7:3比例划分为训练集和测试集;

第二步:数据预处理,对于中文文本,对数据进行预处理,将文本拆分成一系列汉字,并对每个汉字进行词性标注;

标注采用“BIO”模式,其中“B”表示该汉字是词汇的开始字符;“I”表示该汉字是词汇的中间字符;“O”表示该汉字不在词汇当中;根据BERT模型的要求,设定最大序列长度,并根据此参数对序列进行设置数据长度padding;

第三步:模型训练,配置模型的存放路径、词表、预训练模型配置信息、最大序列长度、训练批次num_epochs和学习率的参数训练模型,并在数据分割时,保证所有词性标签在训练数据中均有出现;

第四步:实体识别提取,将待预测的句子拆分为一系列单字后输入到训练好的模型当中,模型输出每一个单字对应的预测词性,将”B“开头,后面跟着“I”的汉字拼接起来,直到遇到下一个”B”标签汉字,从而分出一个个标注词性的单词词语,从中取出被害人和涉案地点项;

其中,一系列单字就是按一个字一个字的拆分。

说明书 :

一种法院案件卷宗识别方法

技术领域

[0001] 本发明属于自然语言处理技术领域,涉及一种法院案件卷宗识别方法。

背景技术

[0002] 随着信息化时代的迅速发展以及人民法律意识的快速提升,法院需要处理的各类刑事案件判决文书数量和质量呈快速的增长和提升,如何提高法院分析判决文书的工作效
率成为了一个亟需解决的问题。在过去,对于待处理的判决文书,法院一般基于法律专家对
判决文书进行研读分析,案件文档处理效率低下,很难快速地建立各案件完整规范的案件
要素结构,且分析过程常常需要耗费大量的人力精力,很大程度上影响法院的案件处理效
率。因此,我们需要寻求一种技术,在法院分析案件时,协助法院工作人员快速地自动化分
析判决文书,智能地将刑事案件特征要素提取出来,清晰地将分析结果展示给用户。
[0003] 目前,在法院智能化领域,针对司法判决书数据的应用主要使用两类技术,分别是基于规则的司法判决书信息抽取技术和基于搜索引擎的类案检索技术。技术相关应用均集
中在对司法判决书的简单检索,以及对司法判决书中部分数据的精确抽取工作上,未能充
分考虑到司法判决书的信息冗余和表达方式多样的特性,不具备对部分案情信息的精确抽
取能力,难以满足面向司法判决书数据的后续分析需求。

发明内容

[0004] 有鉴于此,本发明的目的在于提供一种法院案件卷宗识别方法。协助法院工作人员对刑事案件判决文书进行快速分析,通过自然语言处理技术与Web开发技术相结合,精准
地对判决文书中的案情信息进行提取分析,并通过清晰的页面展示功能直观地反馈给用
户,从而满足各类司法场景中快速分析判决文书案情信息的需求,大幅度地提高法院工作
效率,为法院工作人员提供优质的服务。
[0005] 为达到上述目的,本发明提供如下技术方案:
[0006] 一种法院案件卷宗识别方法,该方法基于案情全文进行罪名分析和特征要素提取,提取案件要素,辅助法院工作人员分析案件,具体包括以下步骤:
[0007] S1:采用基于规则的方法和相似度模型的方法对案件罪名进行分析;
[0008] 相似度模型的方法是指根据word2vec余弦相似度,判断两个文章或者句子相似程度的算法。根据向量坐标,绘制在空间中,求得夹角的cos值。Cos值越接近1,则说明夹角越
小,即两向量相似。
[0009] S2:构建语料库和规则库;
[0010] S3:基于语义和句式规则进行段落划分;
[0011] S4:采用基于规则的方法和基于实体识别的方法对案件中的关键特征要素进行提取;
[0012] S5:规范数据格式;
[0013] S6:展示分析结果。
[0014] 可选的,所述S1中,基于规则的方法为构建罪名句式规则库,通过正则表达式提取与规则库相匹配的罪名数据;
[0015] 若提取失效,未从判决书中提取到罪名数据,则采用基于word2vec相似度模型的方式;
[0016] 该方式首先基于大量的同案判决书文档,训练同案罪名的语料库模型,然后基于训练好的模型来对新的待处理文档进行罪名分析。
[0017] 可选的,所述S2中,基于若干同类罪名案件,对相似段落和案情归纳分析,判决书的格式与法院所在地和时间有一定的关系,通过对一定的判决书进行归纳总结,总结句式
规则和关键词库,根据不同罪名指定不同的正则表达式和词库,其中,故意伤害罪构建作案
物品词库,贩卖毒品罪构建毒品词库;并通过案件数据迭代补全语料库和规则库,用于后续
段落和结构化数据的提取;正则表达式是用来检索和替换符合某个模式和规则的文本。
[0018] 可选的,所述S3中,将整个判决书划分为被告人个人信息段落、案情段落、本院认为段落和判刑结果段落;
[0019] 其中,被告人个人信息段落基于语义来提取,包含各个被告人的姓名、出生年月、出生地、民族、文化程度、职业和住址;
[0020] 案情段落基于句式规则来划分和提取,案情段落的句首句式符合一定的句式规则,通过不断地迭代完善该句式规则,对所有判决文书的划分案情段落;
[0021] 本院认为段落通过语义和句式规则来划分,包含报告人犯罪总结和判决依据信息;
[0022] 判刑结果段落为各个被告人在该审中的判刑结果。
[0023] 可选的,所述S4中,对于数值型的特征采用基于句式规则的方式进行提取,通过正则表达式和句式语义提取正确的数值项;数值型的特征为包括数字的特征,例如:31岁、
1985年生;
[0024] 对于枚举型的特征,构建其完整的词库,基于完整的词库,通过正则表达式和句式语义在案情中筛选特征值;枚举型的特征为具体的特征信息,例如:职业:务农、自由职业;
[0025] 对于被害人和涉案地点的实体项特征,采用实体识别的方法进行提取,选用BERT算法。被害人和涉案地点的实体项特征包括作案物品、作案地点和参与人物。
[0026] 可选的,所述对于被害人和涉案地点的实体项特征,采用实体识别的方法进行提取,选用BERT算法具体为:
[0027] 第一步:选取数据集,在词性标注任务中,采用人名日报标注语料库,按7:3比例划分为训练集和测试集;
[0028] 第二步:数据预处理,对于中文文本,对数据进行预处理,将文本拆分成一系列汉字,并对每个汉字进行词性标注;
[0029] 标注采用“BIO”模式,其中“B”表示该汉字是词汇的开始字符,同时也表示单字词;“I”表示该汉字是词汇的中间字符;“O”表示该汉字不在词汇当中;根据BERT模型的要求,设
定最大序列长度,并根据此参数对序列进行padding;
[0030] 第三步:模型训练,配置模型的存放路径、词表、预训练模型配置信息、checkpoint、最大序列长度、num_epochs和学习率的参数训练模型,并在数据分割时,保证
所有词性标签在训练数据中均有出现;
[0031] 第四步:实体识别提取,将待预测的句子拆分为一系列单字后输入到训练好的模型当中,模型输出每一个单字对应的预测词性,将”B“开头,后面跟着“I”的汉字拼接起来,
直到遇到下一个”B”标签汉字,从而分出一个个标注词性的单词词语,从中取出被害人和涉
案地点项。
[0032] 可选的,所述S5中,将结构化提取过程得到的相关数据转化为标准的表达形式,构建相应的映射机制,将提取出的关键特征要素统一为规范的数据格式。
[0033] 本发明的有益效果在于:详细地分析和展示了判决书复杂案情中用户关注的信息数据,显著地提高了分析结果的细化度和准确率,有效地提升了法院工作人员分析案件的
效率。
[0034] 本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可
以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和
获得。

附图说明

[0035] 为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0036] 图1为本发明的系统架构图;
[0037] 图2为案件卷宗识别的流程图。

具体实施方式

[0038] 以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实
施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离
本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示
意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相
互组合。
[0039] 其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不
代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是
可以理解的。
[0040] 本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系
为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或
暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述
位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术
人员而言,可以根据具体情况理解上述术语的具体含义。
[0041] 要实现对法院案件的卷宗识别,关键技术在对案件卷宗中关键要素的精准提取,在本发明中主要是通过语料库,规则库和实体识别相关技术来对案件要素进行分析和提
取。整体的判决文书分析流程如附图2所示,流程输入为判决文书,输出为分析结果,分析过
程依次为罪名识别,构建语料库和规则库,段落划分,结构化提取,数据格式规范和分析结
果展示。
[0042] 在本发明中,针对不同类型的刑事案件,我们确定的案件关键要素主要包括被告人个人信息(姓名,出生年月,出生地,民族,文化程度,职业,住址)、案情关键信息(如:故意
伤害罪包含被害人、作案工具、作案手段、犯罪场所、严重程度;盗窃罪包含盗得的涉案物品
和与涉案金额相关的严重程度等)、罪名和刑期(判刑,刑期,缓刑,罚金)。
[0043] 图1为本发明的系统架构图,核心在于卷宗识别系统的设计与实现,其关键技术在于对相关特征要素的精准提取。
[0044] 图2为案件卷宗识别的流程图。输入为案件卷宗(支持文本、文件两种输入模式),输出为案情要素分析结果,中间部分为卷宗识别涉及的中间过程和方法。
[0045] 一种法院案件卷宗识别方法,基于案情全文进行罪名分析和特征要素提取,精准提取案件要素,辅助法院工作人员分析案件,提高工作效率。其包括:
[0046] 罪名分析采用基于规则的方法和相似度模型的方法对案件罪名进行分析。其中,基于规则的方法为构建罪名句式规则库,通过正则表达式提取与规则库相匹配的罪名数
据;对于判决文书而言,该方式的提取成功率在九成以上。若上述方式提取失效,未从判决
书中提取到罪名数据,则采用基于word2vec相似度模型的方式。该方式首先基于大量的同
案判决书文档,训练同案罪名的语料库模型,接着便可以基于训练好的模型来对新的待处
理文档进行罪名分析。
[0047] 构建语料库和规则库基于大量同类罪名案件,对相似段落和案情归纳分析,总结句式规则和关键词库,并通过大量的案件数据迭代补全语料库和规则库,用于后续段落和
结构化数据的提取。
[0048] 段落划分基于语义和句式规则,可将整个判决书划分为被告人个人信息段落,案情段落,本院认为段落和判刑结果段落。其中,被告人个人信息段落基于语义来提取,包含
各个被告人的姓名,出生年月,出生地,民族,文化程度,职业,住址等信息。案情段落基于句
式规则来划分和提取,案情段落的句首句式符合一定的句式规则,通过不断地迭代完善该
句式规则,可对所有判决文书的划分案情段落。本院认为段落通过语义和句式规则来划分,
包含报告人犯罪总结和判决依据信息。最后,文末数据为各个被告人在该审中的判刑结果,
遵循一定的语义和句式规则。
[0049] 结构化提取采用基于规则的方法和基于实体识别的方法对案件中的关键特征要素进行提取。对于不同的罪名而言,需要提取的信息也有所不同。例如,故意伤害罪需要提
取的特征又作案工具、作案手段、被害人伤情严重程度、加刑项、减刑项,非法经营罪需要提
取的有涉案物品、涉案金额、加刑项、减刑项。其中,对于数值型的特征采用基于句式规则的
方式进行提取,通过正则表达式和句式语义提取正确的数值项。对于枚举型的特征,构建其
完整的词库,基于完整的词库,通过正则表达式和句式语义在案情中筛选特征值。对于被害
人、涉案地点等实体项特征,采用实体识别的方法进行提取,选用BERT算法,具体步骤为:
[0050] 第一步:选取数据集,在词性标注任务中,采用人名日报标注语料库,将其按7:3比例划分为训练集、测试集;第二步:数据预处理,对于中文文本,对数据进行预处理,将文本
拆分成一系列汉字,并对每个汉字进行词性标注。标注采用“BIO”模式,其中“B”表示该汉字
是词汇的开始字符,同时也表示单字词;“I”表示该汉字是词汇的中间字符;“O”表示该汉字
不在词汇当中。根据BERT模型的要求,设定最大序列长度,并根据此参数对序列进行
padding。第三步:模型训练,配置模型的存放路径、词表、预训练模型配置信息、
checkpoint、最大序列长度、num_epochs、学习率等参数训练模型,并在数据分割时,保证所
有词性标签在训练数据中均有出现。第四步:实体识别提取,同前3步训练模型一样,将待预
测的句子拆分为一系列单字后输入到训练好的模型当中,模型输出每一个单字对应的预测
词性,通过进一步处理,将”B“开头,后面跟着“I”的汉字拼接起来,直到遇到下一个”B”标签
汉字,从而分出一个个标注词性的单词词语,从中取出被害人、涉案地点项。
[0051] 数据格式规范采用映射机制,将结构化提取过程得到的相关数据转化为标准的表达形式,由于不同地区不同的人在表达方式上存在着很大的差异,对于相同信息的表达有
着很大的落差,因此需要构建相应的映射机制,将提取出的关键特征要素统一为规范的数
据格式。以审判日期为例,审判日期存在“二〇二〇年三月十六日”、“二零二零年三月十六
日”等多种写法,需要通过映射机制处理成“2020‑03‑16”的标准格式。
[0052] 在一系列分析工作完成之后,分析结果展示通过美观直观的用户界面将提取出来的各个关键要素数据输出在页面上,供法院工作人员直观理解案件中的详情要素,用户界
面支持文本,文件两种输入模式,对于输入的案情数据,通过上述构建语料库和规则库、段
落划分、结构化提取过程,将所有用户关注的信息提取出来,并通过一定的映射机制,将提
取结果处理成标准的数据格式,然后将处理完的结果显示在用户页面上,供相关法院工作
人员分析案件参考,极大地提升了案件分析工作效率。
[0053] 实施例:
[0054] 下文中将结合附图对本发明的实施例进行详细说明。如图2所示,本发明实施例一以故意伤害罪为例提供了一种判决书案情卷宗识别方法。包括以下步骤:具体的,判决文书
为整个系统的输入,在构建相应罪名的语料库和规则库时,用户需要从判决文书网下载大
量同案的判决文书文件,按相应罪名进行分类;
[0055] 进一步的,罪名识别采用基于规则的方法和相似度模型的方法对案件罪名进行识别分析。当用户输入一段新的案情时,该方法会首先构建罪名式规则库,通过正则表达式提
取与规则库相匹配的罪名数据作为罪名提取的结果。若未从判决书中提取到罪名数据,该
方法则采用基于word2vec相似度模型的方式,基于大量的故意伤害罪文档,训练故意伤害
罪的语料库模型,并基于训练好的模型判断罪名是否为故意伤害罪。
[0056] 进一步的,构建故意伤害罪的语料库和规则库,基于大量的故意伤害罪文书数据归纳出通用的关键词库和句式规则,并通过持续地迭代过程不断地优化完善语料库和规则
库。
[0057] 进一步的,段落划分基于判决书各段落的语义和句式,将整个判决书划分为被告人个人信息段落、案情段落、本院认为段落和判刑结果段落。各段落中包含着具体的关键要
素,需要通过进一步的结构化提取,从这些段落中细化出更加具体的要素项。
[0058] 进一步的,结构化提取基于规则的方法和基于实体识别的方法对案件中的关键特征要素进行提取。对于不同的罪名而言,需要提取的信息也有所不同。故意伤害罪需要提取
的特征又作案工具、作案手段、被害人伤情严重程度、加刑项、减刑项。其中,对于数值型的
特征采用基于句式规则的方式进行提取,通过正则表达式和句式语义提取正确的数值项。
对于枚举型的特征,构建其完整的词库,基于完整的词库,通过正则表达式和句式语义在案
情中筛选特征值。
[0059] 进一步的,数据格式规范,通过映射机制,将提取结果中的一些数值型、日期型数据处理成标准的数据格式,供用户对比分析。
[0060] 进一步的,分析结果展示。美观直观的用户界面将提取出来的各个关键要素数据输出在页面上,供法院工作人员直观理解案件中的详情要素 ,用户界面支持文本,文件两
种输入模式,对于输入的案情数据,通过上述构建语料库和规则库、段落划分、结构化提取
过程,将所有用户关注的信息提取出来,并通过一定的映射机制,将提取结果处理成标准的
数据格式,然后将处理完的结果显示在用户页面上,供相关法院工作人员分析案件参考,极
大地提升了案件分析工作效率。
[0061] 一篇判决文书输入后的数据流程:
[0062] 下文中将结合附图对本发明的实施例进行详细说明。如图2所示,以故意伤害罪为例描述本判决书案情卷宗识别方法中的数据流程。包括以下步骤:具体的,判决文书为整个
系统的输入,当用户提交一篇doc、docx、txt格式的判决文书,后台接收到该文件,并读取其
中的全部文字内容;
[0063] 进一步的,根据文书中关于判决的描述识别到“判处被告人***故意伤害罪”,判别该篇判决文书为故意伤害罪的文书。
[0064] 进一步的,将全文按照段落进行分隔开,依次从每个段落中定位被告人个人信息、被害人信息、判决书类型、犯罪地点、作案工具、判决时间等信息。通过基于规则的方法和基
于实体识别的方法对案件中的关键特征要素进行提取。
[0065] 最后,将提取到的信息排列组合后呈现给用户。