报告纠错系统和方法转让专利
申请号 : CN202110231426.8
文献号 : CN112949291B
文献日 : 2022-05-06
发明人 : 李迪 , 孙建中 , 张琦 , 张强 , 王凯媛 , 张贵发
申请人 : 赛飞特工程技术集团有限公司
摘要 :
权利要求 :
1.一种报告纠错系统,其特征在于,包括:输入模块(1),用于输入原始报告;
纠错模块(2),用于对所述原始报告进行纠错;以及输出模块(3),用于输出纠错后的结果报告;
其中所述纠错模块(2)包括第一纠错模块(21)和第二纠错模块(22),所述第一纠错模块(21)用于对所述原始报告中的内容性错误进行纠错,所述第二纠错模块(22)用于对所述原始报告中的知识性错误进行纠错;
所述内容性错误包括格式错误,所述第一纠错模块(21)配置有格式标准库,所述第一纠错模块(21)用于根据所述格式标准库对所述格式错误进行纠错;
所述内容性错误还包括语义错误,所述第一纠错模块(21)还配置有语言模型,所述第一纠错模块(21)还用于根据所述语言模型对所述语义错误进行纠错;
所述知识性错误包括法律法规和标准规范的引用与有效性错误以及相关条款漏评,所述第二纠错模块(22)配置有规范引用库,所述第二纠错模块(22)用于根据所述规范引用库对所述法律法规和标准规范的引用与有效性错误以及相关条款漏评进行纠错;
所述知识性错误还包括常识型知识性错误,所述第二纠错模块(22)配置有常识型知识性错误数据库,所述第二纠错模块(22)还用于根据所述常识型知识性错误数据库对所述常识型知识性错误进行纠错。
2.根据权利要求1所述的报告纠错系统,其特征在于,所述知识性错误还包括所述原始报告中出现的无关单位、项目或地点的文字错误、关键内容遗漏或漏评的错误、前后不一致的错误以及关键附件缺失的错误。
3.根据权利要求1所述的报告纠错系统,其特征在于,所述格式错误包括封面、标题、段落的缩进和行间距、字体的字号、单位和上下角标、页眉、页脚以及页码的错误。
4.根据权利要求1所述的报告纠错系统,其特征在于,所述语义错误包括错别字、词语重复或缺失以及同音字的错误。
5.根据权利要求1所述的报告纠错系统,其特征在于,所述纠错模块(2)还包括错误统计模块,所述错误统计模块用于统计所述原始报告中出现的所述内容性错误和所述知识性错误的位置和总数N并生成错误统计报告,所述输出模块(3)还用于输出所述错误统计报告。
6.根据权利要求1所述的报告纠错系统,其特征在于,还包括陈述性章节生成模块,所述陈述性章节生成模块用于生成陈述性章节;
所述输入模块(1)还用于输入所述陈述性章节的标题和模板;
所述输出模块(3)还用于输出所述陈述性章节;
其中所述陈述性章节包括评价说明、自然条件、安全检查表和附件。
7.根据权利要求1所述的报告纠错系统,其特征在于,还包括在线编辑模块,所述在线编辑模块用于对所述原始报告和所述结果报告进行在线编辑。
8.应用于根据权利要求1‑7中任一项所述的报告纠错系统的报告纠错方法,其特征在于,包括以下步骤:
S1,通过所述输入模块(1)输入所述原始报告;
S2,通过所述第一纠错模块(21)对所述原始报告中的所述内容性错误进行纠错;
S3,通过所述第二纠错模块(22)对所述原始报告中的所述知识性错误进行纠错;
S4,通过所述输出模块(3)输出纠错后的所述结果报告。
9.根据权利要求8所述的报告纠错方法,其特征在于,所述内容性错误包括所述格式错误和所述语义错误,所述步骤S2具体包括步骤:S21,建立所述格式标准库,根据所述格式标准库对所述格式错误进行纠错;
S22,配置所述语言模型,根据所述语言模型对所述语义错误进行纠错。
10.根据权利要求8所述的报告纠错方法,其特征在于,所述知识性错误包括所述法律法规和标准规范的引用与有效性错误以及相关条款漏评,所述步骤S3具体包括:建立所述规范引用库,根据所述规范引用库对所述法律法规和标准规范的引用与有效性错误以及相关条款漏评进行纠错。
11.根据权利要求8所述的报告纠错方法,其特征在于,在所述步骤S3和S4之间还包括步骤:
S5,统计所述原始报告中出现的所述内容性错误和所述知识性错误的位置和总数N并生成错误统计报告;
所述步骤S4还包括通过所述输出模块(3)输出所述错误统计报告。
12.根据权利要求11所述的报告纠错方法,其特征在于,所述步骤S5具体包括分别统计所述原始报告中出现的所述内容性错误的数量N1、所述知识性错误的数量N2和所述总数N并生成所述错误统计报告;
如果满足以下条件中的一项或多项,则所述步骤S4还包括通过所述输出模块(3)输出审核预警:
所述数量N1≥阈值T1,
所述数量N2≥阈值T2,
所述总数N≥阈值T。
13.根据权利要求8所述的报告纠错方法,其特征在于,所述步骤S1还包括通过所述输入模块(1)输入陈述性章节的标题和模板;
在所述步骤S1与S4之间还包括步骤:S6,根据所述陈述性章节的所述标题和所述模板生成所述陈述性章节;
所述步骤S4还包括通过所述输出模块(3)输出所述陈述性章节。
说明书 :
报告纠错系统和方法
技术领域
背景技术
房地产、矿业、资产、保险的评估报告,还有许多不同类型的评估报告,如项目评估报告、质
量监督评估报告、投资环境评估报告、供应商评估报告等。
术人员可能通过自然语言处理(Natural Language Processing,NLP)技术利用计算机对评
估报告中出现的错误进行纠错,这极大地节省了人力和时间。然而,在通过NLP进行纠错时,
本领域技术人员只考虑到报告中出现的内容性错误而忽略了报告中可能出现的知识性错
误。
发明内容
系统的报告纠错方法。
中纠错模块包括第一纠错模块和第二纠错模块,第一纠错模块用于对原始报告中的内容性
错误进行纠错,第二纠错模块用于对原始报告中的知识性错误进行纠错。
标准规范的引用与有效性错误以及相关条款漏评进行纠错。
误统计报告。
节;其中陈述性章节包括评价说明、自然条件、安全检查表和附件。
错;S3,通过第二纠错模块对原始报告中的知识性错误进行纠错;S4,通过输出模块输出纠
错后的结果报告。
错误进行纠错。
有效性错误以及相关条款漏评进行纠错。
计报告。
S4还包括通过输出模块输出审核预警:数量N1≥阈值T1,数量N2≥阈值T2,总数N≥阈值T。
输出模块输出陈述性章节。
纠错模块和第二纠错模块,第一纠错模块用于对原始报告中的内容性错误进行纠错,第二
纠错模块用于对原始报告中的知识性错误进行纠错。
内容性错误进行纠错而忽略了报告中可能出现的知识性错误,导致纠错后的结果报告中仍
存在大量需要人工审核纠错的部分,并且审核人员可能倾向于重点关注计算机纠错中已经
发现的错误,从而难以发现计算机未能纠正的错误,这对于报告的审核反而是不利的。本文
所提供的报告纠错系统包括第一纠错模块和第二纠错模块,第一纠错模块对原始报告中的
内容性错误进行纠错,第二纠错模块对原始报告中的知识性错误进行纠错,更大程度地对
报告中可能存在的错误进行纠正,从而进一步减轻报告撰写和审核人员的工作负担。
附图说明
具体实施方式
统的报告纠错方法。应当注意的是,安全报告包括“评估报告”和“评价报告”,职业危害一般
采用“评价报告”,而环境影响和能源技术多采用“评估报告”。在本文上下文中,为简单起见
均使用“评估报告”,本文中的“评估报告”应理解为“评估报告”和“评价报告”的总称。
例也处于本申请所要求保护的范围内。
及输出模块3,用于输出纠错后的结果报告;其中纠错模块2包括第一纠错模块21和第二纠
错模块22,第一纠错模块21用于对原始报告中的内容性错误进行纠错,第二纠错模块22用
于对原始报告中的知识性错误进行纠错。诸如报告撰写人员或报告审核人员等用户可以通
过输入模块1将已撰写完成或部分撰写完成的评估报告输入到本申请提供的报告纠错系统
中,纠错模块2随即对原始报告中的内容性错误和知识性错误进行纠错,并通过输出模块3
将纠错后的结果报告反馈给用户以供参考。用户可以根据结果报告对原始报告中出现的错
误进行进一步修改或调整,如果检查到结果报告中已经没有问题,也可以直接将所输出的
结果报告作为最终报告提交至请求制作报告的客户。
的显著错误,撰写人员在自我审查过程中容易意识到自己所犯的这种低级错误;另一些错
误可能是由于撰写人员对于某些依赖于外界的知识不了解而产生的难以发现的错误,这种
错误很难被撰写人员自己发现;也就是说,与外界的知识不相关而只与报告本身的内容相
关的错误称为“内容性错误”,而需要结合外界知识才能发现和确定的错误称为“知识性错
误”。例如,内容性错误可以包括报告中出现的格式错误(诸如段落、字体的设置错误)和语
义错误(诸如错别字、同音字)等,知识性错误可以包括报告中所引用的法律法规名称或颁
布时间错误等。
有各种预先设定好的标准格式,这些标准格式针对不同类型、不同行业的报告可以有所不
同,但对于相同类型的报告应当相同。本领域技术人员可以根据行业习惯制定特定行业的
报告格式标准。或者,报告制定方可以根据其规定制定报告格式标准。在一些情况下,可以
由审核人员或总工建立格式标准库并将制定好的格式标准输入到格式标准库中,报告撰写
人员再将其撰写完成或部分撰写完成的原始报告通过输入模块1输入到本申请提供的报告
纠错系统并获得结果报告。
本领域已知的任何语言模型,例如包括但不限于LM(Language Model)、kenLM、BERT
(Bidirectional Encoder Representation from Transformers)、ERNIE(Enhanced
Language Representation with Informative Entities)、ELMO(Embeddings from
Language Models)语言模型。在训练语言模型之前,需要准备大量的数据源,这些数据源尽
可能地以错误与正确成对出现,例如错误与正确的单词、句子、段落、文档等不同级别的数
据。尽可能多地收集此类标准数据。在本申请一具体实施例中,语言模型的程序实现需要分
布式运行,即需要大数据的存储环境,需要GPU(Graphics Processing Unit,图形处理器)
服务器的支持。经调研发现本领域中目前支持的文本纠错是基于1‑2编辑距离的,对于评估
报告中的复杂错误难以解决,因此在本申请一具体实施例中,将序列到序列(seq2seq)模型
作为基线(baseline)进行训练,并参考grammarly的语义纠错以及基于维基百科的GEC
(Grammatical Error Correction,语法错误纠正)的训练方式。此外,考虑到平行语料的不
足,可以进行数据增强用以增加训练数据。
范引用库对法律法规和标准规范的引用与有效性错误以及相关条款漏评进行纠错。具体
地,这些法律法规和标准规范的引用与有效性错误可以包括法律法规和标准规范的名称、
支持的扩展名称、文本内容、颁布时间、失效时间等详细信息。与标准格式库类似地,可以事
先建立规范引用库,规范引用库中储存有法律法规和标准规范的上述相关内容,并且应适
时地对规范引用库进行更新以确保其中的法律法规和标准规范满足时间相关需求。报告制
作方可以根据需要将公司资源库中的法律法规和标准规范整合到规范引用库中,也可以参
考本领域现有的一些法律法规和标准规范制定规范引用库,例如国家信息中心所提供的中
国法律法规数据库。第二纠错模块22也涉及到相应的模型和算法,例如对文本内容进行分
词可以利用BERT+CRF(Conditional Random Field,条件随机场)模型,实体识别可以使用
BERT+BILSTM(Bidirectional Long Short Term Memory)+CRF模型。在本申请一具体实施
例中,知识性错误还包括原始报告中出现的无关单位、项目或地点的文字错误、关键内容遗
漏或漏评的错误、前后不一致的错误以及关键附件缺失的错误。可以通过NER(Named
Entity Recognition,命名实体识别)技术对原始报告中出现的无关单位(项目)或地点等
文字错误进行纠错;利用文本匹配算法对原始报告中出现的关键内容遗漏或漏评的错误
(例如评估范围与评估内容不一致)进行纠错;利用DB(Differentiable Binarization,可
微二值化)+TAC(Text Angle Classification)+CRNN(Convolution Recurrent Neural
Network,卷积递归神经网络)模型对原始报告中出现的前后不一致的错误(例如图文不一
致、文字内容前后不对应、逻辑错误等)和关键附件缺失的错误进行纠错。此外,本文所述的
知识性错误还可以包括常识型知识性错误,例如“青海湖是淡水湖”就是一种常识型知识性
错误,青海湖实际上是咸水湖。为此,可以利用过去在审核过程中出现的常识型知识性错误
建立常识型知识性错误数据库,并通过该常识型知识性错误数据库对原始报告中出现的常
识型知识性错误进行纠错。
意组合或者任何其他具体的格式错误。
他语义错误。
模块3还用于输出错误统计报告。通过审查错误统计报告,撰写人员能够方便地发现自己所
撰写的报告发生错误的类型、位置和数量,有助于撰写人员发现自身撰写方面的不足并提
高撰写能力,例如,如果原始报告中出现的内容性错误比较多,则说明撰写人员在撰写过程
中比较粗心大意,撰写人员应更细心地撰写并多次检查报告;又例如,如果原始报告中出现
的知识性错误比较多,则说明撰写人员对于本领域相关知识的了解程度较薄弱,撰写人员
需要更多地查阅相关知识。生成错误统计报告还可以减轻审核人员的负担,便于审核人员
确认、查找和纠正原始报告中出现的错误。通过审查错误统计报告,审核人员也能够对报告
撰写人员的撰写水平进行粗略的评估,以便后续对撰写人员的教学和督导。此外,也可以将
错误统计报告整合在纠错报告中,生成在错误位置处带有批注的结果报告,并将这些错误
的说明、总数N等相关信息整合在批注中。
块3还用于输出陈述性章节;其中陈述性章节包括评价说明、自然条件、安全检查表和附件。
上述中,“陈述性章节”是指内容相对固定的章节。在相同类型的报告中,陈述性章节的内容
一致性较强,可以事先建立陈述性章节库,当需要在报告中生成陈述性章节时只需输入章
节标题和模板即可从库中调出相应的一致性内容。
告中的内容存疑则可以手动编辑原始报告和结果报告。例如,当撰写人员发现原始报告中
有部分内容缺失或易位时,可以在生成结果报告之前或期间手动地修改原始报告,然后将
修改后的原始报告输入报告纠错系统进行机器纠错以用于后续用途。又例如,当撰写人员
或审核人员认为结果报告中纠正的错误不满足要求时,可以手动地修改这些错误并生成经
人工修改后的结果报告。
骤:S1,通过输入模块1输入原始报告;S2,通过第一纠错模块21对原始报告中的内容性错误
进行纠错;S3,通过第二纠错模块22对原始报告中的知识性错误进行纠错;S4,通过输出模
块3输出纠错后的结果报告。应当注意的是,本申请所提供的报告纠错方法中的步骤S1‑S4
应当串联执行,即按照执行顺序分别为执行S1,执行S2,执行S3和执行S4。尤其应当注意的
是,步骤S2应当在步骤S3之前执行而不应当在步骤S3之后执行。也就是说,本申请所提供的
报告纠错方法中首先对原始报告中出现的内容性错误进行纠错,然后再对原始报告中出现
的知识性错误进行纠错,这两个步骤应当显著区分并严格按照上述顺序执行。这是因为原
始报告中出现的内容性错误可能会对知识性错误有影响,如果不首先对原始报告中的内容
性错误进行纠正则知识性错误的纠正可能遗漏或出错。内容性错误对知识性错误的影响主
要体现在格式错误的一部分(诸如字体的单位和角标)以及语义错误。在一个示例中,假设
原始报告中同时出现内容性错误和知识性错误,并且该内容性错误是语义错误中的同音字
错误,知识性错误是法律法规和标准规范的引用错误,例如,原始报告中需要引用《中华人
民共和国消防法》,并需要标注其施行日期2009年5月1日,如果报告撰写人员将原始报告中
的《中华人民共和国消防法》错写成《中华人民共和国效仿法》,并且施行日期错写成了2019
年5月1日,则根据上述报告纠错方法应当先对内容性错误进行纠错再对知识性错误进行纠
错,即先将《中华人民共和国效仿法》纠正为《中华人民共和国消防法》,再识别所引用的《中
华人民共和国消防法》的施行日期并将其从2019年5月1日纠正为2009年5月1日。如果在上
述示例中先通过第二纠错模块22对知识性错误进行纠错,则第二纠错模块22可能无法识别
《中华人民共和国效仿法》并进一步对其施行日期进行纠错,随后通过第一纠错模块21对内
容错误进行纠错,则第一纠错模块21将《中华人民共和国效仿法》纠正为《中华人民共和国
消防法》,这样执行步骤的结果可能是《中华人民共和国消防法》的名称虽然正确,但是其施
行日期仍然有误。因此,按照本申请所提供的顺序执行报告纠错方法的步骤是至关重要的,
在既进行内容性纠错又进行知识性纠错的情况下,采用上述方法能够进一步降低结果报告
中仍存在的错误的概率。
根据语言模型对语义错误进行纠错。在本申请一具体实施中,知识性错误包括法律法规和
标准规范的引用与有效性错误以及相关条款漏评,步骤S3具体包括:建立规范引用库,根据
规范引用库对法律法规和标准规范的引用与有效性错误以及相关条款漏评进行纠错。这些
步骤的有益效果如以上关于报告纠错系统所述,此处不再赘述。
还包括通过输出模块3输出错误统计报告。进一步地,步骤S5具体包括分别统计原始报告中
出现的内容性错误的数量N1、知识性错误的数量N2和总数N并生成错误统计报告;如果满足
以下条件中的一项或多项,则步骤S4还包括通过输出模块3输出审核预警:数量N1≥阈值
T1,数量N2≥阈值T2,总数N≥阈值T。上述中,阈值T1、阈值T2和阈值T2可以由报告制作方的
审核人员规定。参照图3,图3是本申请所提供的报告纠错方法的一个具体实施例中输出审
核预警的条件的逻辑示意图,先判断数量N1是否大于等于阈值T1,再判断数量N2是否大于
等于阈值T2,最后判断总数N是否大于等于阈值T,当报告纠错过程中发现的内容性错误数
量N1、知识性错误N2和总数N中任一项超过其相应阈值时,说明原始报告中出现的错误比较
多,在这种情况下则通过输出模块3发送审核预警,告知撰写人员或审核人员该报告中出现
的错误较多,可能需要更严格的审核程序。应当注意的是,图3中的示意性逻辑图仅用于方
便说明本实施例,而不是对本申请的限制。例如,判断数量N1是否大于等于阈值T1,数量N2
是否大于等于阈值T2,总数N是否大于等于阈值T的逻辑顺序可以与图3中描绘的不同,例如
可以先对数量N2进行判断或者先对总数N进行判断,也可以分别独立地判断这三者与其阈
值之间的大小关系。这些阈值可以由报告制作方规定,作为原始报告的审核标准,例如报告
撰写人员在将其撰写的原始报告提交至审核人员之前首先需要利用本文所述的报告纠错
方法和系统进行纠错,如果原始报告中出现的错误较多,则输出模块3将输出审核预警,撰
写人员可以对原始报告或输出的结果报告自行修改并再次利用本文所述的报告纠错方法
和系统进行纠错,直至其中出现的错误低于一定阈值,再将原始报告和/或结果报告提交至
审核人员进行人工审核。在一些情况下,如果发现经机器纠错后的报告中出现的错误数量
较多,可以进一步审查纠错的内容是否真正正确,如果机器纠错中出现的错误比较多则考
虑优化报告纠错系统中所利用的算法和模型。此外,在报告审核系统的准确较高的情况下,
对于不同的评估报告撰写人员,可以统计其在一定周期内所提交的多个原始报告中出现的
内容性错误的数量N1、知识性错误的数量N2和总数N各自的平均值,将这些平均值作为评估
撰写人员撰写水平的一项指标并依据该指标对犯错误较少的撰写人员进行褒奖或者对犯
错误较多的撰写人员进行相关训练和督导。
生成陈述性章节;步骤S4还包括通过输出模块3输出陈述性章节。应当注意的是,步骤S6只
需要在步骤S1与步骤S4之间执行,即,步骤S6可以穿插在上述步骤S2、S3和S5头尾或之间,
或者可以是完全独立于步骤S2、S3和S5的步骤。步骤S6的执行与步骤S2、S3和S5互相不会产
生影响。
在本申请所要求保护的范围之内。
具体示例的情况下实践。在一些实施例中并未详细示出本领域技术人员所公知的方法、结
构和/或技术,以便不模糊对本申请的理解。
下现将会想到多种变化、改变和替代。应当理解,本文中描述的本申请实施方案的各种替代
方案任选地用于实施本申请。旨在以下述权利要求限定本申请的范围,并由此涵盖这些权
利要求范围内的方法和结构及其等同物。