保险行业文档智能化解析方法和装置转让专利
申请号 : CN202011621201.5
文献号 : CN112307741B
文献日 : 2021-03-30
发明人 : 岳潭 , 胡宗海
申请人 : 北京邮电大学
摘要 :
权利要求 :
1.一种保险行业文档智能化解析方法,其特征在于,所述方法包括以下步骤:将PDF格式的保险行业文档原数据转化为CSV格式的数据,其中所述CSV格式的数据包含保险行业文档文本识别特征维度,所述保险行业文档文本识别特征维度至少包括保险行业特征维度和文本位置特征维度;其中,所述文本位置特征维度包括:上或下、左或右、宽度以及高度特征维度;
对转化后的CSV格式的数据进行数据预处理,所述预处理包括数据清洗处理;
对数据清洗后的CSV格式的数据,基于文本位置对文本特征进行上下文语义信息的捕捉,获得所述文本特征的上下文特征,以得到的上下文特征扩充数据清洗后的CSV格式的数据;
对要作为训练样本的CSV格式的数据利用多个类别进行标注获得训练样本集,所述多个类别至少包括正文内容和多个不同级别的标题类别;
从训练样本集中选取预定个数的样本作为训练集,利用训练集对随机森林算法进行训练,并利用训练后的随机森林算法对测试样本进行特征重要性评估和按类别分类,得到测试样本数据特征的类别分类结果;其中,对随机森林算法进行训练时引入包括保险公司类别和保单类别在内的样本重要性特征,在决策树分类时使所述样本重要性特征具有指示重要的权重;
基于类别分类结果对保险行业文档内容进行重组,生成结构化文件输出,并基于保险行业的行业需求确定的重要属性,对所述重要属性进行抽取。
2.根据权利要求1所述的方法,其特征在于,所述保险行业文档文本识别特征维度还包括以下特征维度中的至少一种:页码、字号大小、文本计数、文本内容和字体;
所述多个类别还包括:无用内容类别。
3.根据权利要求1所述的方法,其特征在于,所述保险行业特征维度包括保险公司识别特征维度。
4.根据权利要求3所述的方法,其特征在于,将PDF格式的原数据转化为CSV格式的数据包括:利用pdfplumber框架将PDF格式的原数据转化为CSV格式的数据,所述pdfplumber框架基于保险行业的文档内容与语义习惯确定断句规则,并进行断句。
5.根据权利要求1所述的方法,其特征在于,所述对转化后的CSV格式的数据进行数据清洗处理,包括:对转化后的CSV格式的数据进行以下处理中的至少一种:去除停用词、去除标点、去除水印、去除语气助词。
6.根据权利要求1所述的方法,其特征在于,所述基于类别分类结果对保险行业文档内容进行重组,生成结构化文件输出,并基于保险行业的行业需求确定的重要属性,对所述重要属性进行抽取,包括:
将分类得到的不同类别的数据保存为字典数据类型,所述字典数据类型中包括“key”与“value”属性;
将数据写入json格式的文件中,通过字典数据类型中的“key”与“value”属性对文本中的各级标题与正文内容进行嵌套式保存;
对于已经通过字典数据类型保存好的文本内容中对重要属性进行属性抽取。
7.根据权利要求6所述的方法,其特征在于,对于已经通过字典数据类型保存好的文本内容进行属性抽取,包括:
通过正则表达式算法来进行文本内容的匹配和抽取,并将抽取的数据保存为字典数据类型。
8.一种保险行业文档智能化解析装置,该装置包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1‑7中任意一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任意一项所述方法的步骤。
说明书 :
保险行业文档智能化解析方法和装置
技术领域
背景技术
进行智能化解析,分类等。然而,当今社会在文本数据领域,绝大多数的文本以非结构化形
式存在。而结构化数据才能更好地进行机器学习的训练及预测。所以,将文本数据结构化解
析是当今自然语言处理领域的一大难题。
是一种针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文
件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的
技术。对于OCR系统,如何除错或利用辅助信息提高识别正确率,是最重要的课题。而在实际
应用中,由于不同行业的文档具有不同的特征,尤其在保险行业,OCR技术在保险文档的文
本识别中无法满足需求。
贝叶斯模型,用来更好地拟合数据模型。该系统虽然对文档进行了一定的处理,但处理的精
度较低;且数据集文档大多数是论文摘要,而且原始文档是较为易处理的数据结构,非PDF
格式。其对于保存形式基本是PDF格式的文档,无法做到精细的结构化解析。因此,针对保险
行业的保存形式为PDF格式的文档,在解析过程中如何提高准确率和效率是亟待解决的技
术问题。
发明内容
度至少包括保险行业特征维度和文本位置特征维度;
的数据;
本数据特征的类别分类结果;
上或下、左或右、宽度以及高度特征维度;所述多个类别还包括:无用内容类别。
行业的文档内容与语义习惯确定断句规则,并进行断句。
去除语气助词。
具有指示重要的权重。
取,包括:将分类得到的不同类别的数据保存为“字典”数据类型,所述字典数据类型中包括
“key”与“value”属性;将数据写入json格式的文件中,通过字典数据类型中的“key”与
“value”属性对文本中的各级标题与正文内容进行嵌套式保存;对于已经通过字典数据类
型保存好的文本内容中对重要属性进行属性抽取。
数据类型。
计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
本位置对文本特征进行上下文语义信息的捕捉,获得文本特征的上下文内容,从而对CSV格
式样本进行了样本数据维度的增广;使得后续的算法可以更好的进行文本特征的识别,分
类和抽取;提高了结构化解析的准确率及效率。
知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的
结构实现到并获得。
附图说明
具体实施方式
不作为对本发明的限定。
的其他细节。
有文本内容识别准确率的损失。2)建立算法模型。3)属性抽取,对文档中重要的属性进行抽
取。
估,从而无法准确抽取数据的问题,本发明提供了一种保险行业文档智能化解析方法和装
置。
险行业特征维度和文本位置特征维度。
要预先将PDF格式的文档数据转换成文本可识别的特定格式数据。文本可识别特定格式是
指在后续的数据处理过程中,文本内容可被识别及应用的数据格式,如CSV格式。
重新人为定义断句规则,将一些识别错误导致的断句进行错误标识,并进一步让算法进行
学习和拟合,充分降低了句子错误识别率。更具体地,在pdfplumber算法框架的基础上,对
字符级别和单词短语级别的文本抽取模块进行重新编程,基于保险行业的文档内容和语义
习惯,重新人为定义断句规则,以为对短语中不正常断句的问题进行重新识别与分断。该断
句过程属于对转换格式后的数据的一种数据预处理过程。降低句子错误识别率在后续的算
法模型中会提高拟合效果和分类准确率。
险行业特征维度和文本位置特征维度。保险行业特征维度可以是能够表征行业属性的特征
维度,文本位置特征维度用于表示文本在转换后的文档中的坐标位置。具体的,保险行业特
征维度可以是保险公司识别特征维度,也即,能够识别出保险公司的特征度,如保险公司名
称。保险行业特征维度还可以是表征保险行业的其他特征维度,如保单类型等,本发明并不
限于此。
特征维度、文本计数特征维度、文本内容特征维度和字体特征维度等。而文本位置特征维度
具体的包括上或下、左或右、宽度以及高度特征维度。
文本内容(content)、保险公司(company,表中用数字代号表示)及文本坐标位置(top,
left,width,height)等特征维度。此外还可以增加保险公司类别及保单类别等等特征。
式数据进行分词处理。
行调试。另外,英文切词方面可以采用NLTK框架,该框架对于英文领域有着较好的准确率。
对CSV格式数据进行分词后,可进一步的去除标点符号以及语气助词等常用的无用词。应当
理解的是,为了更准确进行分类处理,还可以人工比对选用该领域的特定停用词。例如,在
数据清洗之前可人为定义保险行业的常用停用词,并基于人为定义的保险行业的常用停用
词采用JIEBA框架对CSV格式的数据进行数据清洗。
格式的数据。
数据中文本内容的位置进行上下文捕捉,使得每一个文本样本不仅有自己对应的特征,还
有其上下文内容的特征,如上下文坐标位置,语义向量等。上下文捕捉可实现样本数据维度
的增广,以生成更多的上下文特征。
即在后期的类别分类过程中,可更好的被算法拟合、分类及抽取。
别出关键属性。对训练样本标注后得到有标注的数据集,该数据集进一步的作为训练样本
集。作为示例,CSV格式的数据内容可主要被标注为5个类别,分别是:无用内容,标注值为“‑
1”;正文内容,标注为“0”;一级标题,标注为“1”;二级标题,标注为“2”;三级标题,标注为
“3”。但应当理解的是,数据的类别可根据实际需要进行确定,且其标注值仅是一种用于表
示上述具体类别的简单表现形式,因此也可采用其他类型的标注值。
分类,得到测试样本数据特征的类别分类结果。
分,评估各个变量在分类中所起的作用。随机森林中随机是核心,通过随机的选择样本、特
征,降低决策树之间的相关性。
样本,而且不需要降维,具有极好的准确率;并且随机森林算法能够评估各个特征在分类问
题上的重要性。
结点随机不重复地选择多个(如d个)特征,利用这d个特征分别对训练集进行划分,找到最
佳的划分特征(可用基尼系数、增益率或者信息增益判别)。
些特征有大的权重,以提升分类准确率。
后随机改变OOB中的第j列,保持其他列不变,对第j列进行随机的上下置换,得到误差e2。至
此,可以用e1‑e2来刻画特征j的重要性。其依据就是,如果一个特征很重要,那么其变动后
会非常影响测试误差,如果测试误差没有怎么改变,则说明特征j不重要。
数据类型;该“字典”数据类型包括“key”与“value”属性。进一步将数据写入json格式的文
件中,通过字典数据类型当中的“key”与“value”属性对文本当中的各级标题与正文内容进
行嵌套式保存。如:一级标题—二级标题—三级标题—正文内容。进而对保存的文本数据进
行输出。另外,在该步骤中,除了采用python语言之外,还可以采用其他种类的语言,只要确
保所保存的数据能够按照预定格式进行输出即可。
名(CompanyName)”、“年龄(age)”、“支付方式(payment)”等。在该步骤中,由于文本为“字
典”数据类型,因此可通过“key”属性查找“value”。可构造正则表达式,通过正则表达式算
法来进行文本内容的匹配和抽取。
效率有明显提升效果;且该方法在处理过程中还进一步的提高了文档断句识别的准确率及
效率。
结果后,进一步的将文档内容生成结构化文件输出,从而实现了保险行业文档的结构化解
析。
分成若干部分,将不同文档进行智能结构化输出,在比较过程中,通过信息披露、结构化呈
现等方式,横向对比,方便使用者进行相似保险文档之间的差异性比较,节省大量阅读保险
产品文档的时间。
中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步
骤。
储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移
动磁盘、CD‑ROM或技术领域内所公知的任意其它形式的有形存储介质。
体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的
技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺
序。
是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每
个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的
范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插
件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代
码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传
输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。
机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软
盘、CD‑ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联
网等的计算机网络被下载。
提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
实施方式的特征。
任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。