一种自然资源业务流程审查方法、系统、设备和介质转让专利
申请号 : CN202210498518.7
文献号 : CN114638596B
文献日 : 2022-09-02
发明人 : 黎海波 , 黄滢冰 , 邓少平 , 徐启恒 , 蔡从建 , 刘利园 , 李园 , 陶然 , 曾宝逊 , 吴锦全 , 黄泽鑫
申请人 : 广州城市信息研究所有限公司
摘要 :
权利要求 :
1.一种自然资源业务流程审查方法,其特征在于,包括:获取待审查文件,提取所述待审查文件的批文信息和地理信息;
获取审查有效信息,根据所述审查有效信息对所述待审查文件的批文信息执行一致性审查;
构建项目规模分类模型,将通过一致性审查后的所述待审查文件输入到所述项目规模分类模型中,识别所述待审查文件的项目规模;
所述待审查文件的项目规模包括大型项目、中型项目和小型项目,根据所述待审查文件的项目规模,采用相应的空间分析方法对所述待审查文件的地理信息执行空间分析审查,包括:当识别出所述待审查文件的项目规模为大型项目时,采用Feature Manipulate Engine空间分析方法对所述待审查文件的地理信息执行空间分析;
当识别出所述待审查文件的项目规模为中型项目时,采用地理处理服务空间分析方法对所述待审查文件的地理信息执行空间分析;
当识别出所述待审查文件的项目规模为小型项目时,采用RESTful API空间分析方法对所述待审查文件的地理信息执行空间分析。
2.根据权利要求1所述的一种自然资源业务流程审查方法,其特征在于,所述待审查文件的批文信息包括印章信息、日期信息和关键词信息;
所述提取所述待审查文件的批文信息,包括:
基于HSV色彩空间模型,提取所述待审查文件中预设颜色印章,并基于边缘提取和霍夫检测,对所述预设颜色印章进行处理得到所述印章信息;
基于OCR文字识别技术,识别所述待审查文件中的文本信息,并从文本信息中提取所述日期信息和所述关键词信息。
3.根据权利要求2所述的一种自然资源业务流程审查方法,其特征在于,所述获取审查有效信息,根据所述审查有效信息对所述待审查文件的批文信息执行一致性审查,包括:获取印章审查有效信息,根据印章审查有效信息对所述印章信息进行比对,若比对成功则所述印章信息通过一致性审查;
获取日期审查有效信息,根据日期审查有效信息对所述日期信息进行比对,若比对成功则所述日期信息通过一致性审查;
获取关键词审查有效信息,根据关键词审查有效信息对所述关键词信息进行比对,若比对成功则所述关键词信息通过一致性审查。
4.根据权利要求2所述的一种自然资源业务流程审查方法,其特征在于,所述从文本信息中提取日期信息,包括:在所述文本信息的行区域中,筛选文本字数少于等于预设字数的文本和/或文本长度小于预设长度的文本作为候选日期;
在所述候选日期中,筛选符合预设日期格式的文本作为日期信息。
5.根据权利要求2所述的一种自然资源业务流程审查方法,其特征在于,从文本信息中提取关键词信息,包括:基于FastR‑CNN网络提取目标文本区域,
基于卷积循环神经网络,对所述目标文本区域内的文字内容进行识别得到关键词信息。
6.根据权利要求1所述的一种自然资源业务流程审查方法,其特征在于,所述构建项目规模分类模型,包括:基于XGBoost算法库,提取每个训练样本的特征值,并标记每个所述训练样本执行空间分析检查所需的分析耗时;
根据所述训练样本的特征值和分析耗时对项目规模分类模型进行训练;
所述特征值包括所述地理信息中的项目面积、地块数。
7.一种自然资源业务流程审查系统,其特征在于,包括:提取模块,用于获取待审查文件,提取所述待审查文件的批文信息和地理信息;
有效审查模块,用于获取审查有效信息,根据所述审查有效信息对所述待审查文件的批文信息执行一致性审查;
分类模块,用于构建项目规模分类模型,将通过一致性审查后的所述待审查文件输入到所述项目规模分类模型中,识别所述待审查文件的项目规模;空间审查模块,用于根据所述待审查文件的项目规模,采用相应的空间分析方法对所述待审查文件的地理信息执行空间分析审查;所述待审查文件的项目规模包括大型项目、中型项目和小型项目,空间审查模块,具体用于:当识别出所述待审查文件的项目规模为大型项目时,采用FME空间分析方法对所述待审查文件的地理信息执行空间分析;
当识别出所述待审查文件的项目规模为中型项目时,采用GP空间分析方法对所述待审查文件的地理信息执行空间分析;
当识别出所述待审查文件的项目规模为小型项目时,采用Rest API空间分析方法对所述待审查文件的地理信息执行空间分析。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的自然资源业务流程审查方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的自然资源业务流程审查方法的步骤。
说明书 :
一种自然资源业务流程审查方法、系统、设备和介质
技术领域
背景技术
息的读取判别、表单的录入以及案件入库管理等过程中,仍采取人工的方式,工作量大,智
能化水平不高。
景及对象有所不同。目前各种业务审查和审批,在涉及空间分析方法时均只采用单一方法,
遇到复杂的审查业务时,单一的空间分析方法效率低、不稳定,甚至会因为分析负载过大导
致服务奔溃的现象。
发明内容
审查方法的步骤。
件时,大量依靠人工,智能化水平低下的问题,实现基于纸质材料的识别提取,有效提升自
然资源行政审批的效率与科学性,实现全省自然资源政务工作的全面智能化;并且,自动将
待审查文件的业务根据项目规模进行分类,快速选择与项目规模相应的空间分析方法,高
效完成对待审查文件的地理信息的空间分析,进一步提升业务审查和审批速度。
附图说明
具体实施方式
算、大数据、物联网等信息化新技术的快速发展,使海量数据的采集、清理与存储具备了技
术条件,建设统一开放的国土空间大数据资源体系成为可能。当前,自然资源空间基础数据
已初具规模,大数据的建设已有雄厚的基础,但是在自然资源业务流程办理、审批、管理过
程中还面临着以下问题:
工智能算法,实现基于纸质材料的关键业务信息识别提取与自然资源行政审批表单智能填
报,有效提升自然资源行政审批的效率与科学性,实现全省自然资源政务工作的全面智能
化;
进行监督学习,将地理空间信息分析划分为前端、后台以及中间件分析,形成梯度增强决策
树以及由此形成的随机森林模型,以此为依据对所有地理信息空间分析进行分类,并使用
新生成样本数据持续学习完善模型,提升地理空间分析效率。
料、或证照类资料、或非批文类资料、或非证照类资料等等,所上传的业务资料在本实施例
中被称为待审查文件,其中,一方面,在对待审查文件进行自动审查时,具体需要对审查待
审查文件中的印章、日期、是否包含关键词、落款等多种批文信息进行一致性审查,从而确
定所上传的待审查文件是否符合申报条件;另一方面,在确定符合申报条件后,在技术审查
工作环节均需对待审查文件的项目地理信息进行空间分析,通过项目规模分类模型对待审
查文件进行分类后,采用对应的空间分析方法对地理信息进行空间分析,减轻系统分析压
力,提升地理空间分析效率,加快审批速度。
糊、残缺等一系列问题;印章经常并非加盖在干干净净的白纸上,所以在进行印章提取作业
时,程序经常要面对的是一个噪声很大的待测图像;而且,许多人盖印时习惯将印章加盖在
自己名字上方。这些各种各样的情况都使得印文图案并非完全独立、不受影响地出现在纸
张当中,因此,在审查待审查文件中的印章信息时,这些问题对机器的正常识别可能造成较
大干扰,大大增加了印章提取和识别作业的复杂程度。
属性)、饱和度S(Saturation,颜色深浅)、亮度V(Value,灰度)是面对不同色彩时人体视觉
感知到的三种基本差异量;反过来用这三个感知分量也可以描述任意一种颜色;并将建立
在这三个基本参量上的色彩模型称为HSV色彩空间模型。HSV色彩空间模型中,不同颜色有
不同的取值范围,红色的HSV范围为[0‑10,43‑255,46‑255]以及[156‑180,43‑255,46‑
255],将这部分颜色的像素点抽出点即可抽取出红色的图像,抽取出红色图像后,将红色转
换为灰度图,印章图像的提取和转换过程如图2所示。
学操作中的腐蚀对印章图像进行去噪处理,中值滤波不仅可以去除孤点噪声,而且可以保
持图像的边缘特性,不会使图像产生显著的模糊。在一定条件下,其可以克服线性滤波器处
理图像细节模糊的问题,而且它对滤除脉冲干扰和图像扫描噪声非常有效。形态学操作中
的腐蚀可以沿着物体边界移除像素并缩小物体的大小,增强图像的特征。
动窗口)在图像中漫游,并将模板中心与图中某个像素位置重合;(2)读取模板中各对应像
素的灰度值;(3)将这些灰度值从小到大排列;(4)取这一列数据的中间数据,将其赋给对应
模板中心位置的像素。经过中值滤波后的印章图像的灰度效果如图3所示,经过腐蚀后的印
章图像如图4所示。
为噪声就是灰度变化很大的地方,所以容易被识别为伪边缘。
可能不是边缘,这一步就有了所有可能是边缘的集合。
素宽的边缘变成一个单像素宽的边缘。即“胖边缘”变成“瘦边缘”。
低于low的剔除。在low和high之间的设置为弱边缘。进一步判断,如果其领域内有强边缘像
素,保留,如果没有,剔除。
具体的检测过程为:通过圆方程 ,得到𝑎 ,𝑏 ,𝑟 ,通过这3个参数锁定一
个半径为𝑟 ,圆心在( 𝑎 ,𝑏 )的圆;转换直角坐标到参数空间( 𝑎 ,𝑏 ,𝑟 ),当
中𝑥 、𝑦 和𝑟 明确时,(𝑎 ,𝑏 )的轨迹变成了半径为𝑟 ,圆心在(𝑥 ,𝑦 )的圆,当无法确定𝑟 时,(𝑎 ,𝑏 ,𝑟 )变为顶点在(𝑥 ,𝑦 )的圆锥。𝑥 −𝑦 坐标系中一个圆边界的多个点,对应于𝑎 −𝑏 −𝑟 坐标系的多个圆锥;这些点在原图像中位于同一个圆上,转换后的多个圆锥将交会在同一点上。进行交点数量的统计局部,先取值最大的交点,其坐标对应着𝑥 −
𝑦 坐标系中的半径𝑟 和圆心(𝑎 ,𝑏 )。
操作后,可以确定印章信息。
和/或文本长度小于预设长度的文本等于作为候选日期;在所述候选日期中,筛选符合预设
日期格式的文本作为日期信息。
文2mm 4mm,端正、居中下压成文时间,印章用红色,当印章下弧无文字时,采用下套方式,即
~
仅以下弧压在成文时间上;当印章下弧有文字时,采用中套方式,即印章中心线压在成文时
间上。通过对大量公文日期进行分析,发现日期位置与印章位置往往有交叉。所以首先根据
位置,筛选出所有与印章有交叉的文本,但是这种方式并不一定准确,因为部分审批文件的
公章会盖在正文上,导致识别错误。(2)从文本字数分析,日期所在行的文本字数往往比较
少,大约11个字,从文本长度分析,日期所在行的文本长度一般小于印章直径的2倍。根据这
个规律,筛选出字数较少且长度较短的文本区域作为候选日期。(3)从日期格式分析,日期
往往有固定的格式,目前存在2种格式的日期,分别为“2010年12月22日”与“二〇一〇年十
二月二十二日”,依据这种规则,从文本筛选出符合“XXXX年XX月XXX日”的文本作为最终日
期。
审批效率。利用OCR文字识别技术进行识别提取的过程为:
卷积网络对所要检测对象的目标特征进行科学合理的有效提取和分类,能够有效提高检测
效率。相较于传统的检测技术,FastR‑CNN中采用了多项创新性技术,不仅能够提高训练和
测试速度,而且还能在一定程度上提高检测精度。
样本的RPN(RegionProposalNetworks)网络,将算法结构分为两个部分,先由RPN网络判断
候选框是否为目标,再经分类定位的多任务损失判断目标类型,整个网络流程都能共享卷
积神经网络提取的的特征信息,节约计算成本,且解决FastR‑CNN算法生成正负样本候选框
速度慢的问题,同时避免候选框提取过多导致算法准确率下降。对于受限场景的文字检测,
FasterR‑CNN的表现较为出色,可以通过多次检测确定不同粒度的文本区域。其中的RPN是
一种全卷积的网络形式,所输入的数据主要是图像类型。在RPN卷积中的1至ReLU5层主要是
通用结构部分,主要是由5个卷积层、2个池化层以及2个归一化层,按照一定的排列顺序组
成的,所采用的激活函数主要是ReLU,窗口在FasterR‑CNN中起着重要的作用。在FasterR‑
CNN的默认配置中,图像的位置有9个窗口。在RPN之后,得到了不同大小的候选区域,不同大
小的区域表示不同大小的CNN特征图。接下来需要创建一个有效的结构来处理具有不同大
小的特征,感兴趣区域池可以通过将特征映射缩小到相同的大小来简化问题。与具有固定
大小的最大池化不同,感兴趣区域池将输入特征图划分为固定数量的大致相等的区域,然
后在每个区域上应用最大池化。在固定的ROI池输出作为输入的情况下,最终分类器和回归
器的体系结构可以有很多选择。
取。
进行切割,从而避免了文本切割对识别造成的影响,同时也可以像RNN一样对序列字符进行
识别,直接得到识别结果。CRNN的网络结构包含三个部分:卷积层、循环层和转换层,依次从
下往上组成。卷积层可以实现对图像中的特征序列提取,用来对字符的描述,其中卷积层的
最顶层就是形成的序列特征,然后将这些卷积特征输入到循环层,对这些序列进行预测,最
后转换层对预测的序列进行最终的序列识别结果。
的政务部门的公章或其它法律有效章;日期审查有效信息是指待审查文件中的落款日期为
具备法律效力的日期,并以此判断待审查文件是否有效;关键词审查有效信息可以根据审
批流程具体设置,比如在待审查文件中增加不存在未批先用、报批材料齐全等关键词信息,
可以提高业务审批效率。
待审查文件中的印章信息、日期信息和关键词信息是否符合申报要求,若符合申报要求则
待审查文件通过一致性审查,若不符合申报要求,则反馈给申报人使其进行申报资料的补
正操作等。
因为分析负载过大导致服务崩溃,不利于系统对文件的审查。本实施例根据历史数据归纳
业务审查涉及的空间分析方法,采用集成学习技术对使用效果样本数据进行监督学习,形
成梯度增强决策树(GBDT)以及由此形成的随机森林模型,自动将待审查文件根据项目规模
进行分类,进而快速选择相应的空间分析方法,并使用新生成样本数据持续学习完善模型,
提升业务审查和审批速度。
为例,决策树每个节点预测值等于这个节点的所有项目空间分析耗时平均值。分枝时穷举
所有特征值(项目面积、地块数、坐标点数)的每个阈值,并找最好的分割点,衡量最优的标
准是最小化平方误差(分类树为最大信息熵)。通过最小化平方误差能够找到最可靠的分枝
依据。分枝直到每个叶子节点上项目的空间分析耗时都唯一或者达到预设的终止条件(如
节点个数上限)。
策算法的改进,求解损失函数极值时使用了牛顿法,将损失函数泰勒展开到二阶,另外损失
函数中加入了正则化项。训练时的目标函数由两部分构成,第一部分为梯度提升算法损失,
第二部分为正则化项。损失函数定义为:
训练结果得到,在经过10000次训练后,精度不再下降,由此导出决策分类树作为项目规模
分类模型。
目规模,
数据转换问题看作是从一种格式到另一种格式的变换,而是完全致力于将GIS 要素同构化
并向用户提供组件以使用户能够将数据处理为所需的表达方式。事实上,许多GIS用户为了
在同一系统中获得不同的数据表达方式,也使用FME来操纵数据。FME 也提供一套空间分析
方案,能够有效的处理复杂的空间分析计算。FME分析的优点是对大型复杂型项目进行分析
时速度较快,缺点是系统启动时间较慢,对小型项目分析时间反而速度没有前两种方案快。
另外FME的节点数有限,不能同时展开多个项目的分析,必须排队处理。
Javascript调用工具服务,辅助分析处理功能进行开发。本实施例所说的GP服务是指某些
指定的分析模型而制定分析服务,如土地规划分析模型,基本农田压覆分析模型等。GP 服
务的优点是处理大型项目空间分析时较快,缺点是过于依赖arcgis 服务器,当项目过多时
必须依靠arcgis服务器自身的负载均衡来减轻服务器的计算压力,适合处理中型规模的项
目。
做信息提供者和信息用户之间的合同——建立消费者(呼叫)所需的内容和制作者(响应)
要求的内容。ArcGIS 平台提供了丰富的REST风格的web服务,以ArcGIS REST API方式对外
提供,我们通过ArcGISREST API可以访问地图服务、要素服务、影像服务、地理处理服务等
多种类型的Web服务,这些服务可以来自Portal、online或是Arcgis server。本实施例所用
的Rest API 服务是指使用Arcgis 提供的各种基础的空间计算服务,再通过组合,封装为
空间分析服务。Rest API 的优点在于体量较轻,可以部署在任何一台服务器上,由于其使
用的是基础的空间计算服务,从软件层面上更容易处理arcgis服务器的负载均衡,如可以
对请求做排队处理,或者多线程处理。对简单图形处理的速度非常快,消耗资源较少。适合
处理简单小型项目(占项目的大多数)。
均每日达到1300多次,系统的空间图层分析能力明显增强。
流程审查方法的步骤。
骤。
任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。