一种法院案件卷宗识别方法转让专利
申请号 : CN202110543832.8
文献号 : CN113239681B
文献日 : 2021-10-12
发明人 : 姜森 , 谢绍韫
申请人 : 苏州黑云智能科技有限公司
摘要 :
权利要求 :
1.一种法院案件卷宗识别方法,其特征在于:该方法基于案情全文进行罪名分析和特征要素提取,提取案件要素,辅助法院工作人员分析案件,具体包括以下步骤:S1:采用基于规则的方法和相似度模型的方法对案件罪名进行分析;
S2:构建语料库和规则库;
S3:基于语义和句式规则进行段落划分;
S4:采用基于规则的方法和基于实体识别的方法对案件中的关键特征要素进行提取;
S5:规范数据格式;
S6:展示分析结果;
所述S1中,基于规则的方法为构建罪名句式规则库,通过正则表达式提取与规则库相匹配的罪名数据;
若提取失效,未从判决书中提取到罪名数据,则采用基于词向量模型word2vec,相似度模型的方法;
该方法首先基于大量的同案判决书文档,训练同案罪名的语料库模型,然后基于训练好的模型来对新的待处理文档进行罪名分析;
所述S2中,基于若干同类罪名案件,对相似段落和案情归纳分析,判决书的格式与法院所在地和时间有一定的关系,通过对一定的判决书进行归纳总结,总结句式规则和关键词库,根据不同罪名指定不同的正则表达式和词库,其中,故意伤害罪构建作案物品词库,贩卖毒品罪构建毒品词库;并通过案件数据迭代补全语料库和规则库,用于后续段落和结构化数据的提取;正则表达式是用来检索和替换符合某个模式和规则的文本;
所述S3中,将整个判决书划分为被告人个人信息段落、案情段落、本院认为段落和判刑结果段落;
其中,被告人个人信息段落基于语义来提取,包含各个被告人的姓名、出生年月、出生地、民族、文化程度、职业和住址;
案情段落基于句式规则来划分和提取,案情段落的句首句式符合句式规则,通过不断地迭代完善该句式规则,对所有判决文书的划分案情段落;
句式规则为:段落开始为‘本院认为’为加减刑段落,段落开始包含‘**犯**罪,被判处’的段落为判刑段落;
本院认为段落通过语义和句式规则来划分,包含报告人犯罪总结和判决依据信息;
判刑结果段落为各个被告人在该审中的判刑结果;
所述S4中,对于数值型的关键特征要素,采用基于句式规则的方式进行提取,通过正则表达式和句式语义提取正确的数值项;
对于枚举型的关键特征要素,构建其完整的词库,基于完整的词库,通过正则表达式和句式语义在案情中筛选特征值;
对于被害人和涉案地点的实体项关键特征要素,采用实体识别的方法进行提取,选用文本预处理模型BERT;
所述对于被害人和涉案地点的实体项特征,采用实体识别的方法进行提取,选用文本预处理模型BERT具体为:
第一步:选取数据集,在词性标注任务中,采用人名日报标注语料库,按7:3比例划分为训练集和测试集;
第二步:数据预处理,对于中文文本,对数据进行预处理,将文本拆分成一系列汉字,并对每个汉字进行词性标注;
标注采用“BIO”模式,其中“B”表示该汉字是词汇的开始字符;“I”表示该汉字是词汇的中间字符;“O”表示该汉字不在词汇当中;根据BERT模型的要求,设定最大序列长度,并根据此参数对序列进行设置数据长度padding;
第三步:模型训练,配置模型的存放路径、词表、预训练模型配置信息、最大序列长度、训练批次num_epochs和学习率的参数训练模型,并在数据分割时,保证所有词性标签在训练数据中均有出现;
第四步:实体识别提取,将待预测的句子拆分为一系列单字后输入到训练好的模型当中,模型输出每一个单字对应的预测词性,将”B“开头,后面跟着“I”的汉字拼接起来,直到遇到下一个”B”标签汉字,从而分出一个个标注词性的单词词语,从中取出被害人和涉案地点项;
其中,一系列单字就是按一个字一个字的拆分。
说明书 :
一种法院案件卷宗识别方法
技术领域
背景技术
率成为了一个亟需解决的问题。在过去,对于待处理的判决文书,法院一般基于法律专家对
判决文书进行研读分析,案件文档处理效率低下,很难快速地建立各案件完整规范的案件
要素结构,且分析过程常常需要耗费大量的人力精力,很大程度上影响法院的案件处理效
率。因此,我们需要寻求一种技术,在法院分析案件时,协助法院工作人员快速地自动化分
析判决文书,智能地将刑事案件特征要素提取出来,清晰地将分析结果展示给用户。
中在对司法判决书的简单检索,以及对司法判决书中部分数据的精确抽取工作上,未能充
分考虑到司法判决书的信息冗余和表达方式多样的特性,不具备对部分案情信息的精确抽
取能力,难以满足面向司法判决书数据的后续分析需求。
发明内容
地对判决文书中的案情信息进行提取分析,并通过清晰的页面展示功能直观地反馈给用
户,从而满足各类司法场景中快速分析判决文书案情信息的需求,大幅度地提高法院工作
效率,为法院工作人员提供优质的服务。
小,即两向量相似。
规则和关键词库,根据不同罪名指定不同的正则表达式和词库,其中,故意伤害罪构建作案
物品词库,贩卖毒品罪构建毒品词库;并通过案件数据迭代补全语料库和规则库,用于后续
段落和结构化数据的提取;正则表达式是用来检索和替换符合某个模式和规则的文本。
1985年生;
定最大序列长度,并根据此参数对序列进行padding;
所有词性标签在训练数据中均有出现;
直到遇到下一个”B”标签汉字,从而分出一个个标注词性的单词词语,从中取出被害人和涉
案地点项。
效率。
以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和
获得。
附图说明
具体实施方式
施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离
本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示
意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相
互组合。
代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是
可以理解的。
为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或
暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述
位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术
人员而言,可以根据具体情况理解上述术语的具体含义。
取。整体的判决文书分析流程如附图2所示,流程输入为判决文书,输出为分析结果,分析过
程依次为罪名识别,构建语料库和规则库,段落划分,结构化提取,数据格式规范和分析结
果展示。
伤害罪包含被害人、作案工具、作案手段、犯罪场所、严重程度;盗窃罪包含盗得的涉案物品
和与涉案金额相关的严重程度等)、罪名和刑期(判刑,刑期,缓刑,罚金)。
据;对于判决文书而言,该方式的提取成功率在九成以上。若上述方式提取失效,未从判决
书中提取到罪名数据,则采用基于word2vec相似度模型的方式。该方式首先基于大量的同
案判决书文档,训练同案罪名的语料库模型,接着便可以基于训练好的模型来对新的待处
理文档进行罪名分析。
结构化数据的提取。
各个被告人的姓名,出生年月,出生地,民族,文化程度,职业,住址等信息。案情段落基于句
式规则来划分和提取,案情段落的句首句式符合一定的句式规则,通过不断地迭代完善该
句式规则,可对所有判决文书的划分案情段落。本院认为段落通过语义和句式规则来划分,
包含报告人犯罪总结和判决依据信息。最后,文末数据为各个被告人在该审中的判刑结果,
遵循一定的语义和句式规则。
取的特征又作案工具、作案手段、被害人伤情严重程度、加刑项、减刑项,非法经营罪需要提
取的有涉案物品、涉案金额、加刑项、减刑项。其中,对于数值型的特征采用基于句式规则的
方式进行提取,通过正则表达式和句式语义提取正确的数值项。对于枚举型的特征,构建其
完整的词库,基于完整的词库,通过正则表达式和句式语义在案情中筛选特征值。对于被害
人、涉案地点等实体项特征,采用实体识别的方法进行提取,选用BERT算法,具体步骤为:
拆分成一系列汉字,并对每个汉字进行词性标注。标注采用“BIO”模式,其中“B”表示该汉字
是词汇的开始字符,同时也表示单字词;“I”表示该汉字是词汇的中间字符;“O”表示该汉字
不在词汇当中。根据BERT模型的要求,设定最大序列长度,并根据此参数对序列进行
padding。第三步:模型训练,配置模型的存放路径、词表、预训练模型配置信息、
checkpoint、最大序列长度、num_epochs、学习率等参数训练模型,并在数据分割时,保证所
有词性标签在训练数据中均有出现。第四步:实体识别提取,同前3步训练模型一样,将待预
测的句子拆分为一系列单字后输入到训练好的模型当中,模型输出每一个单字对应的预测
词性,通过进一步处理,将”B“开头,后面跟着“I”的汉字拼接起来,直到遇到下一个”B”标签
汉字,从而分出一个个标注词性的单词词语,从中取出被害人、涉案地点项。
着很大的落差,因此需要构建相应的映射机制,将提取出的关键特征要素统一为规范的数
据格式。以审判日期为例,审判日期存在“二〇二〇年三月十六日”、“二零二零年三月十六
日”等多种写法,需要通过映射机制处理成“2020‑03‑16”的标准格式。
面支持文本,文件两种输入模式,对于输入的案情数据,通过上述构建语料库和规则库、段
落划分、结构化提取过程,将所有用户关注的信息提取出来,并通过一定的映射机制,将提
取结果处理成标准的数据格式,然后将处理完的结果显示在用户页面上,供相关法院工作
人员分析案件参考,极大地提升了案件分析工作效率。
为整个系统的输入,在构建相应罪名的语料库和规则库时,用户需要从判决文书网下载大
量同案的判决文书文件,按相应罪名进行分类;
取与规则库相匹配的罪名数据作为罪名提取的结果。若未从判决书中提取到罪名数据,该
方法则采用基于word2vec相似度模型的方式,基于大量的故意伤害罪文档,训练故意伤害
罪的语料库模型,并基于训练好的模型判断罪名是否为故意伤害罪。
库。
素,需要通过进一步的结构化提取,从这些段落中细化出更加具体的要素项。
的特征又作案工具、作案手段、被害人伤情严重程度、加刑项、减刑项。其中,对于数值型的
特征采用基于句式规则的方式进行提取,通过正则表达式和句式语义提取正确的数值项。
对于枚举型的特征,构建其完整的词库,基于完整的词库,通过正则表达式和句式语义在案
情中筛选特征值。
种输入模式,对于输入的案情数据,通过上述构建语料库和规则库、段落划分、结构化提取
过程,将所有用户关注的信息提取出来,并通过一定的映射机制,将提取结果处理成标准的
数据格式,然后将处理完的结果显示在用户页面上,供相关法院工作人员分析案件参考,极
大地提升了案件分析工作效率。
系统的输入,当用户提交一篇doc、docx、txt格式的判决文书,后台接收到该文件,并读取其
中的全部文字内容;
于实体识别的方法对案件中的关键特征要素进行提取。