一种基于OCR引擎的智能审单方法及系统转让专利

申请号 : CN202210887226.2

文献号 : CN114973290B

文献日 : 2022-11-04

本发明提出了一种基于OCR引擎的智能审单方法及系统，包括：进行待审核单据上传；按照预审规则选择待审核单据并检验文本格式，对待审核单据进行排序和格式转化，并合并为PDF文件；基于OCR引擎对PDF文件进行识别，提取PDF文件中的贸易背景资料和合同章内容对应的文本，获取识别结果；对识别结果进行数据清洗和信息比较，对待审核单据进行审核。本发明提出一种基于OCR引擎的智能审单方法及系统，令整个审单过程无需逐个单据进行审核，可有效提高审核效率，能够将贸易背景资料及合同章内容对应的文本进行识别和提取，实现了对合同印章的识别，适用于合同等非固定格式文件的识别。

1.一种基于OCR引擎的智能审单方法，其特征在于，包括以下步骤：S1：基于OSS对象存储服务进行待审核单据上传；

S2：按照预审规则选择待审核单据并检验文本格式，对待审核单据进行排序和格式转化，并合并为PDF文件；

S3：基于OCR引擎对PDF文件进行识别，提取PDF文件中的贸易背景资料和合同章内容对应的文本，获取识别结果；

S4：对识别结果进行数据清洗和信息比较，根据比较结果对待审核单据进行审核，完成智能审单；

在所述S3中，OCR引擎使用CTPN算法模型提取出PDF文件中的文本内容，再利用NLP技术对文本内容进行解析，得到贸易背景资料；所述CTPN算法模型包括VGG16网络层、滑动卷积层、循环层、LSTM网络层、Softmax层和文本生成器；其中，提取出PDF文件中的文本内容的具体过程为：S3A1：读取PDF文件内容并对每一页内容进行拆分，得到多份单页内容；

S3A2：将单页内容依次输入VGG16网络层中进行特征提取，生成多份单页内容的特征图；

S3A3：利用滑动卷积层对特征图进行多次滑动卷积操作，获取多个特征向量，生成新的特征图；

S3A4：利用循环层对新的特征图进行重塑处理，将新的特征图重塑为LSTM网络层能够处理的大小，得到重塑特征图；

S3A5：利用LSTM网络层对重塑特征图进行卷积处理并配置锚点，获取文本位置；

S3A6：在Softmax层中判断文本位置中是否包含文本，对文本所在的文本位置进行中心坐标修正和高度修正，生成修正结果；

S3A7：利用修正结果，由文本生成器将中心坐标、高度相近的文本位置进行合并，构造成为一个文本行；再将多个文本行进行合并，得到PDF文件的文本内容；

OCR引擎提取PDF文件中的合同章内容对应的文本过程具体为：S3C1：对S3A1中得到的多份单页内容分别进行印章识别，得到包含印章的单页内容；

S3C2：基于三阶贝塞尔曲线算法对包含印章的单页内容进行处理，剪裁处印章中环形文字区块；

S3C3：将环形文字区块中的所有曲形文本拉直成水平文本行图片；

S3C4：利用卷积层对水平文本行图片进行图像特征提取，得到图像特征；

S3C5：通过循环层对图像特征进行序列建模，对图像特征的特征表征进行改善；

S3C6：将特征表征改善后的图像特征进行线性分类，通过CTC解码获得最终的识别结果，得到合同章内容对应的文本。

2.根据权利要求1所述的一种基于OCR引擎的智能审单方法，其特征在于，在所述S2中，所述预审规则为先过滤出待审核单据中带有排序标识的字符，然后对字符转义为数字并根据数字对待审核单据进行排序；所述格式转化过程为：将webp格式文件采用流处理方式转换为png格式并对分辨率进行适应性调整。

3.根据权利要求1所述的一种基于OCR引擎的智能审单方法，其特征在于，在所述S3中，所述NLP技术包括Look‑up层、BiLSTM层、CRF层和Filtrate层；利用NLP技术对文本内容进行解析，得到贸易背景资料的过程具体为：S3B1：利用Look‑up层将文本内容中的每一个单词映射为一个词向量，得到多个词向量；

S3B2：BiLSTM层通过学习文本内容中上下文的信息，输出每个词向量对应于每个标签的得分概率；

S3B3：将BiLSTM层的输出作为CRF层的输入，通过学习标签之间的顺序依赖信息，得到每个词向量预测的序列标注；

S3B4：利用Filtrate层对每个词向量预测的序列标注进行处理，将无效标注进行过滤，并将有效标注归并到一个结果集输出，即得到贸易背景资料。

4.一种基于OCR引擎的智能审单系统，其特征在于，包括金单前端单元、单据合并单元、OCR合同识别服务单元、智能审单单元；其中：所述金单前端单元基于OSS对象存储服务将待审核单据进行上传；

所述单据合并单元用于按照预审规则选择待审核单据并检验文本格式，对待审核单据进行排序和格式转化，并合并为PDF文件；

所述OCR合同识别服务单元基于OCR引擎对PDF文件进行识别，提取PDF文件中的贸易背景资料和合同章内容对应的文本，获取识别结果；

所述智能审单单元对识别结果进行数据清洗和信息比较，根据比较结果对待审核单据进行审核，完成智能审单；

在所述OCR合同识别服务单元中内置有OCR引擎，OCR引擎使用CTPN算法模型提取出PDF文件中的文本内容，再利用NLP技术对文本内容进行解析，得到贸易背景资料；所述CTPN算法模型包括VGG16网络层、滑动卷积层、循环层、LSTM网络层、Softmax层和文本生成器；其中，所述OCR合同识别服务单元提取出PDF文件中的文本内容的具体过程为：S3A1：读取PDF文件内容并对每一页内容进行拆分，得到多份单页内容；

S3A2：将单页内容依次输入VGG16网络层中进行特征提取，生成多份单页内容的特征图；

S3A3：利用滑动卷积层对特征图进行多次滑动卷积操作，获取多个特征向量，生成新的特征图；

S3A4：利用循环层对新的特征图进行重塑处理，将新的特征图重塑为LSTM网络层能够处理的大小，得到重塑特征图；

S3A5：利用LSTM网络层对重塑特征图进行卷积处理并配置锚点，获取文本位置；

S3A6：在Softmax层中判断文本位置中是否包含文本，对文本所在的文本位置进行中心坐标修正和高度修正，生成修正结果；

在所述OCR合同识别服务单元中，OCR引擎提取PDF文件中的合同章内容对应的文本过程具体为：S3C1：对S3A1中得到的多份单页内容分别进行印章识别，得到包含印章的单页内容；

S3C2：基于三阶贝塞尔曲线算法对包含印章的单页内容进行处理，剪裁处印章中环形文字区块；

S3C3：将环形文字区块中的所有曲形文本拉直成水平文本行图片；

S3C4：利用卷积层对水平文本行图片进行图像特征提取，得到图像特征；

S3C5：通过循环层对图像特征进行序列建模，对图像特征的特征表征进行改善；

S3C6：将特征表征改善后的图像特征进行线性分类，通过CTC解码获得最终的识别结果，得到合同章内容对应的文本。

5.根据权利要求4所述的一种基于OCR引擎的智能审单系统，其特征在于，在所述单据合并单元中，所述预审规则为先过滤出待审核单据中带有排序标识的字符，然后对字符转义为数字并根据数字对待审核单据进行排序；所述格式转化过程为：将webp格式文件采用流处理方式转换为png格式并对分辨率进行适应性调整。

6.根据权利要求4所述的一种基于OCR引擎的智能审单系统，其特征在于，在所述OCR合同识别服务单元中，所述NLP技术包括Look‑up层、BiLSTM层、CRF层和Filtrate层；利用NLP技术对文本内容进行解析，得到贸易背景资料的过程具体为：S3B1：利用Look‑up层将文本内容中的每一个单词映射为一个词向量，得到多个词向量；

S3B2：BiLSTM层通过学习文本内容中上下文的信息，输出每个词向量对应于每个标签的得分概率；

S3B3：将BiLSTM层的输出作为CRF层的输入，通过学习标签之间的顺序依赖信息，得到每个词向量预测的序列标注；

S3B4：利用Filtrate层对每个词向量预测的序列标注进行处理，将无效标注进行过滤，并将有效标注归并到一个结果集输出，即得到贸易背景资料。

一种基于OCR引擎的智能审单方法及系统

技术领域

[0001] 本发明涉及信息审核技术领域，特别是涉及一种基于OCR引擎的智能审单方法及系统。

背景技术

[0002] 金融领域里，金单业务和供票业务运营及风险岗位人员在审核贸易背景资料合同时，仅能通过人工肉眼查看影像件，而由于合同内容种类繁多而且内容冗长，审核耗时较长也较容易出现错漏。为此，现有技术公开了一种基于规则引擎和OCR的报账及审核自动化方法，该方法通过引入OCR识别技术，可以快速识别出各类票据信息，并将识别的信息存储至数据库中，再利用预先在规则引擎中配置的校验规则匹配识别的信息，进行自动填写电子单据信息，其虽然可以有效提高单据的审核审核效率和质量，但当同一份材料对应多张图片/pdf时，该方法的识别效率很差，且其仅能针对预设的规则进行固定格式文件的识别，不适用于合同等非固定格式文件。

发明内容

[0003] 本发明为了解决以上至少一种技术缺陷，提供一种基于OCR引擎的智能审单方法及系统，在实现多个图片/pdf的自动合并提高审核效率的同时，实现了对合同印章的识别，适用于合同等非固定格式文件的识别。

[0004] 为解决上述技术问题，本发明的技术方案如下：

[0005] 一种基于OCR引擎的智能审单方法，包括以下步骤：

[0006] S1：基于OSS对象存储服务进行待审核单据上传；

[0007] S2：按照预审规则选择待审核单据并检验文本格式，对待审核单据进行排序和格式转化，并合并为PDF文件；

[0008] S3：基于OCR引擎对PDF文件进行识别，提取PDF文件中的贸易背景资料和合同章内容对应的文本，获取识别结果；

[0009] S4：对识别结果进行数据清洗和信息比较，根据比较结果对待审核单据进行审核，完成智能审单。

[0010] 上述方案中，OSS对象存储服务（Object Storage Service‑对象存储服务）作为待审核单据对象存储中心，分离了待审核单据得上传逻辑。待审核单据在对象存储服务中均采用Fileid作为命名，其信息存储在文件服务中。将待审核单据上传到OSS，则无需通过后端服务，前后端访问文件均可以直接对接OSS对象存储服务，大大降低了后端应用服务器的带宽压力。

[0011] 上述方案中，通过PDF合并技术将图片/pdf格式的待审核单据进行自动合并，令整个审单过程无需逐个单据进行审核，可有效提高审核效率；同时，本方案能够将贸易背景资料及合同章内容对应的文本进行识别和提取，实现了对合同印章的识别，适用于合同等非固定格式文件的识别。

[0012] 其中，在所述S2中，所述预审规则为先过滤出待审核单据中带有排序标识的字符，然后对字符转义为数字并根据数字对待审核单据进行排序；所述格式转化过程为：将webp格式文件采用流处理方式转换为png格式并对分辨率进行适应性调整。

[0013] 上述方案中，在需要合并PDF文件时，先按Fileid列表把待审核单据逐一下载，遇到webp格式的文件自动采用流处理方式转换为png格式，对于分辨率较大或者较小的图片，会自动压缩或调整分辨率，使调整后的图片更符合后续OCR识别及人工检测的视觉效果；然后采用把图片写入到PDF文件context中的方式将图片合并为PDF文件。由于采用OSS存储待审核单据及提供加速下载服务，使得整体文件合并效率非常高，操作响应快，用户体验较好。

[0014] 其中，在所述S3中，OCR引擎使用CTPN算法模型提取出PDF文件中的文本内容，再利用NLP技术对文本内容进行解析，得到贸易背景资料；所述CTPN算法模型包括VGG16网络层、滑动卷积层、循环层、LSTM网络层、Softmax层和文本生成器；其中，提取出PDF文件中的文本内容的具体过程为：

[0015] S3A1：读取PDF文件内容并对每一页内容进行拆分，得到多份单页内容；

[0016] S3A2：将单页内容依次输入VGG16网络层中进行特征提取，生成多份单页内容的特征图；

[0017] S3A3：利用滑动卷积层对特征图进行多次滑动卷积操作，获取多个特征向量，生成新的特征图；

[0018] S3A4：利用循环层对新的特征图进行重塑处理，将新的特征图重塑为LSTM网络层能够处理的大小，得到重塑特征图；

[0019] S3A5：利用LSTM网络层对重塑特征图进行卷积处理并配置锚点，获取文本位置；

[0020] S3A6：在Softmax层中判断文本位置中是否包含文本，对文本所在的文本位置进行中心坐标修正和高度修正，生成修正结果；

[0021] S3A7：利用修正结果，由文本生成器将中心坐标、高度相近的文本位置进行合并，构造成为一个文本行；再将多个文本行进行合并，得到PDF文件的文本内容。

[0022] 其中，在所述S3中，所述NLP技术包括Look‑up层、BiLSTM层、CRF层和Filtrate层；利用NLP技术对文本内容进行解析，得到贸易背景资料的过程具体为：

[0023] S3B1：利用Look‑up层将文本内容中的每一个单词映射为一个词向量，得到多个词向量；

[0024] S3B2：BiLSTM层通过学习文本内容中上下文的信息，输出每个词向量对应于每个标签的得分概率；

[0025] S3B3：将BiLSTM层的输出作为CRF层的输入，通过学习标签之间的顺序依赖信息，得到每个词向量预测的序列标注；

[0026] S3B4：利用Filtrate层对每个词向量预测的序列标注进行处理，将无效标注进行过滤，并将有效标注归并到一个结果集输出，即得到贸易背景资料。

[0027] 上述方案中，所述词向量对应于每个标签是根据实际需要进行预先设置的，而CRF层可以有效学习到标签之间的顺序依赖信息，形成每个词向量预测的序列标注。

[0028] 其中，在所述S3中，OCR引擎提取PDF文件中的合同章内容对应的文本过程具体为：

[0029] S3C1：对S3A1中得到的多份单页内容分别进行印章识别，得到包含印章的单页内容；

[0030] S3C2：基于三阶贝塞尔曲线算法对包含印章的单页内容进行处理，剪裁处印章中环形文字区块；

[0031] S3C3：将环形文字区块中的所有曲形文本拉直成水平文本行图片；

[0032] S3C4：利用卷积层对水平文本行图片进行图像特征提取，得到图像特征；

[0033] S3C5：通过循环层对图像特征进行序列建模，对图像特征的特征表征进行改善；

[0034] S3C6：将特征表征改善后的图像特征进行线性分类，通过CTC解码获得最终的识别结果，得到合同章内容对应的文本。

[0035] 上述方案中，可以将贸易背景资料进行提取并进行审核，对明显不符合规定的贸易背景资料进行提示，加快审批效率；在识别到贸易背景资料后，自动将其中的关键信息高亮加粗显示，方便审核人员快速定位找到有效信息，并根据审核清单逐项自动做出判断，有效避免人工审核出现遗漏，提升审核效率以提升工作人员的审核效率。

[0036] 本方案还提出一种基于OCR引擎的智能审单系统，包括金单前端单元、单据合并单元、OCR合同识别服务单元、智能审单单元；其中：

[0037] 所述金单前端单元基于OSS对象存储服务将待审核单据进行上传；

[0038] 所述单据合并单元用于按照预审规则选择待审核单据并检验文本格式，对待审核单据进行排序和格式转化，并合并为PDF文件；

[0039] 所述OCR合同识别服务单元基于OCR引擎对PDF文件进行识别，提取PDF文件中的贸易背景资料和合同章内容对应的文本，获取识别结果；

[0040] 所述智能审单单元对识别结果进行数据清洗和信息比较，根据比较结果对待审核单据进行审核，完成智能审单。

[0041] 其中，在所述单据合并单元中，所述预审规则为先过滤出待审核单据中带有排序标识的字符，然后对字符转义为数字并根据数字对待审核单据进行排序；所述格式转化过程为：将webp格式文件采用流处理方式转换为png格式并对分辨率进行适应性调整。

[0042] 其中，在所述OCR合同识别服务单元中内置有OCR引擎，OCR引擎使用CTPN算法模型提取出PDF文件中的文本内容，再利用NLP技术对文本内容进行解析，得到贸易背景资料；所述CTPN算法模型包括VGG16网络层、滑动卷积层、循环层、LSTM网络层、Softmax层和文本生成器；其中，所述OCR合同识别服务单元提取出PDF文件中的文本内容的具体过程为：

[0043] S3A1：读取PDF文件内容并对每一页内容进行拆分，得到多份单页内容；

[0044] S3A2：将单页内容依次输入VGG16网络层中进行特征提取，生成多份单页内容的特征图；

[0045] S3A3：利用滑动卷积层对特征图进行多次滑动卷积操作，获取多个特征向量，生成新的特征图；

[0046] S3A4：利用循环层对新的特征图进行重塑处理，将新的特征图重塑为LSTM网络层能够处理的大小，得到重塑特征图；

[0047] S3A5：利用LSTM网络层对重塑特征图进行卷积处理并配置锚点，获取文本位置；

[0048] S3A6：在Softmax层中判断文本位置中是否包含文本，对文本所在的文本位置进行中心坐标修正和高度修正，生成修正结果；

[0049] S3A7：利用修正结果，由文本生成器将中心坐标、高度相近的文本位置进行合并，构造成为一个文本行；再将多个文本行进行合并，得到PDF文件的文本内容。

[0050] 其中，在所述OCR合同识别服务单元中，所述NLP技术包括Look‑up层、BiLSTM层、CRF层和Filtrate层；利用NLP技术对文本内容进行解析，得到贸易背景资料的过程具体为：

[0051] S3B1：利用Look‑up层将文本内容中的每一个单词映射为一个词向量，得到多个词向量；

[0052] S3B2：BiLSTM层通过学习文本内容中上下文的信息，输出每个词向量对应于每个标签的得分概率；

[0053] S3B3：将BiLSTM层的输出作为CRF层的输入，通过学习标签之间的顺序依赖信息，得到每个词向量预测的序列标注；

[0054] S3B4：利用Filtrate层对每个词向量预测的序列标注进行处理，将无效标注进行过滤，并将有效标注归并到一个结果集输出，即得到贸易背景资料。

[0055] 其中，在所述OCR合同识别服务单元中，OCR引擎提取PDF文件中的合同章内容对应的文本过程具体为：

[0056] S3C1：对S3A1中得到的多份单页内容分别进行印章识别，得到包含印章的单页内容；

[0057] S3C2：基于三阶贝塞尔曲线算法对包含印章的单页内容进行处理，剪裁处印章中环形文字区块；

[0058] S3C3：将环形文字区块中的所有曲形文本拉直成水平文本行图片；

[0059] S3C4：利用卷积层对水平文本行图片进行图像特征提取，得到图像特征；

[0060] S3C5：通过循环层对图像特征进行序列建模，对图像特征的特征表征进行改善；

[0061] S3C6：将特征表征改善后的图像特征进行线性分类，通过CTC解码获得最终的识别结果，得到合同章内容对应的文本。

[0062] 与现有技术相比，本发明技术方案的有益效果是：

[0063] 本发明提出了一种基于OCR引擎的智能审单方法及系统，通过PDF合并技术将图片/pdf格式的待审核单据进行自动合并，令整个审单过程无需逐个单据进行审核，可有效提高审核效率；本方案能够将贸易背景资料及合同章内容对应的文本进行识别和提取，实现了对合同印章的识别，适用于合同等非固定格式文件的识别。

附图说明

[0064] 图1为本发明所述的一种基于OCR引擎的智能审单方法的流程示意图；

[0065] 图2为本发明所述的一种基于OCR引擎的智能审单系统的内部连接示意图；

[0066] 图3为本发明一实施例中所述的文件上传流程图；

[0067] 图4为本发明一实施例中所述的基于OCR引擎对PDF文件进行识别的流程图；

[0068] 图5为本发明一实施例中所述的OCR识别任务调动流程示意图；

[0069] 图6为本发明一实施例中所述的资源子流程示意图；

[0070] 图7为本发明一实施例中所述的每个资源获取处理用时的流程示意图。

具体实施方式

[0071] 附图仅用于示例性说明，不能理解为对本专利的限制；

[0072] 本实施例为完整的使用示例，内容较丰富

[0073] 为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

[0074] 对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

[0075] 下面结合附图和实施例对本发明的技术方案做进一步的说明。

[0076] 实施例1

[0077] 如图1所示，一种基于OCR引擎的智能审单方法，包括以下步骤：

[0078] S1：基于OSS对象存储服务进行待审核单据上传；

[0079] S2：按照预审规则选择待审核单据并检验文本格式，对待审核单据进行排序和格式转化，并合并为PDF文件；

[0080] S3：基于OCR引擎对PDF文件进行识别，提取PDF文件中的贸易背景资料和合同章内容对应的文本，获取识别结果；

[0081] S4：对识别结果进行数据清洗和信息比较，根据比较结果对待审核单据进行审核，完成智能审单。

[0082] 在具体实施过程中，OSS对象存储服务作为待审核单据对象存储中心，分离了待审核单据得上传逻辑。待审核单据在对象存储服务中均采用Fileid作为命名，其信息存储在文件服务中。将待审核单据上传到OSS，则无需通过后端服务，前后端访问文件均可以直接对接OSS对象存储服务，大大降低了后端应用服务器的带宽压力。

[0083] 在具体实施过程中，通过PDF合并技术将图片/pdf格式的待审核单据进行自动合并，令整个审单过程无需逐个单据进行审核，可有效提高审核效率；同时，本方案能够将贸易背景资料及合同章内容对应的文本进行识别和提取，实现了对合同印章的识别，适用于合同等非固定格式文件的识别。

[0084] 更具体的，在所述S2中，所述预审规则为先过滤出待审核单据中带有排序标识的字符，然后对字符转义为数字并根据数字对待审核单据进行排序；所述格式转化过程为：将webp格式文件采用流处理方式转换为png格式并对分辨率进行适应性调整。

[0085] 在具体实施过程中，在需要合并PDF文件时，先按Fileid列表把待审核单据逐一下载，遇到webp格式的文件自动采用流处理方式转换为png格式，对于分辨率较大或者较小的图片，会自动压缩或调整分辨率，使调整后的图片更符合后续OCR识别及人工检测的视觉效果；然后采用把图片写入到PDF文件context中的方式将图片合并为PDF文件。由于采用OSS存储待审核单据及提供加速下载服务，使得整体文件合并效率非常高，操作响应快，用户体验较好。

[0086] 更具体的，在所述S3中，OCR引擎使用CTPN算法模型提取出PDF文件中的文本内容，再利用NLP技术对文本内容进行解析，得到贸易背景资料；所述CTPN算法模型包括VGG16网络层、滑动卷积层、循环层、LSTM网络层、Softmax层和文本生成器；其中，提取出PDF文件中的文本内容的具体过程为：

[0087] S3A1：读取PDF文件内容并对每一页内容进行拆分，得到多份单页内容；

[0088] S3A2：将单页内容依次输入VGG16网络层中进行特征提取，生成多份单页内容的特征图；

[0089] S3A3：利用滑动卷积层对特征图进行多次滑动卷积操作，获取多个特征向量，生成新的特征图；

[0090] S3A4：利用循环层对新的特征图进行重塑处理，将新的特征图重塑为LSTM网络层能够处理的大小，得到重塑特征图；

[0091] S3A5：利用LSTM网络层对重塑特征图进行卷积处理并配置锚点，获取文本位置；

[0092] S3A6：在Softmax层中判断文本位置中是否包含文本，对文本所在的文本位置进行中心坐标修正和高度修正，生成修正结果；

[0093] S3A7：利用修正结果，由文本生成器将中心坐标、高度相近的文本位置进行合并，构造成为一个文本行；再将多个文本行进行合并，得到PDF文件的文本内容。

[0094] 更具体的，在所述S3中，所述NLP技术包括Look‑up层、BiLSTM层、CRF层和Filtrate层；利用NLP技术对文本内容进行解析，得到贸易背景资料的过程具体为：

[0095] S3B1：利用Look‑up层将文本内容中的每一个单词映射为一个词向量，得到多个词向量；

[0096] S3B2：BiLSTM层通过学习文本内容中上下文的信息，输出每个词向量对应于每个标签的得分概率；

[0097] S3B3：将BiLSTM层的输出作为CRF层的输入，通过学习标签之间的顺序依赖信息，得到每个词向量预测的序列标注；

[0098] S3B4：利用Filtrate层对每个词向量预测的序列标注进行处理，将无效标注进行过滤，并将有效标注归并到一个结果集输出，即得到贸易背景资料。

[0099] 更具体的，在所述S3中，OCR引擎提取PDF文件中的合同章内容对应的文本过程具体为：

[0100] S3C1：对S3A1中得到的多份单页内容分别进行印章识别，得到包含印章的单页内容；

[0101] S3C2：基于三阶贝塞尔曲线算法对包含印章的单页内容进行处理，剪裁处印章中环形文字区块；

[0102] S3C3：将环形文字区块中的所有曲形文本拉直成水平文本行图片；

[0103] S3C4：利用卷积层对水平文本行图片进行图像特征提取，得到图像特征；

[0104] S3C5：通过循环层对图像特征进行序列建模，对图像特征的特征表征进行改善；

[0105] S3C6：将特征表征改善后的图像特征进行线性分类，通过CTC解码获得最终的识别结果，得到合同章内容对应的文本。

[0106] 在具体实施过程中，可以将贸易背景资料进行提取并进行审核，对明显不符合规定的贸易背景资料进行提示，加快审批效率；在识别到贸易背景资料后，自动将其中的关键信息高亮加粗显示，方便审核人员快速定位找到有效信息，并根据审核清单逐项自动做出判断，有效避免人工审核出现遗漏，提升审核效率以提升工作人员的审核效率。

[0107] 实施例2

[0108] 更具体的，在实施例1的基础上，本方案还提出一种基于OCR引擎的智能审单系统，具体如图2所示，包括金单前端单元、单据合并单元、OCR合同识别服务单元、智能审单单元；其中：

[0109] 所述金单前端单元基于OSS对象存储服务将待审核单据进行上传；

[0110] 所述单据合并单元用于按照预审规则选择待审核单据并检验文本格式，对待审核单据进行排序和格式转化，并合并为PDF文件；

[0111] 所述OCR合同识别服务单元基于OCR引擎对PDF文件进行识别，提取PDF文件中的贸易背景资料和合同章内容对应的文本，获取识别结果；

[0112] 所述智能审单单元对识别结果进行数据清洗和信息比较，根据比较结果对待审核单据进行审核，完成智能审单。

[0113] 更具体的，在所述单据合并单元中，所述预审规则为先过滤出待审核单据中带有排序标识的字符，然后对字符转义为数字并根据数字对待审核单据进行排序；所述格式转化过程为：将webp格式文件采用流处理方式转换为png格式并对分辨率进行适应性调整。

[0114] 更具体的，在所述OCR合同识别服务单元中内置有OCR引擎，OCR引擎使用CTPN算法模型提取出PDF文件中的文本内容，再利用NLP技术对文本内容进行解析，得到贸易背景资料；所述CTPN算法模型包括VGG16网络层、滑动卷积层、循环层、LSTM网络层、Softmax层和文本生成器；其中，所述OCR合同识别服务单元提取出PDF文件中的文本内容的具体过程为：

[0115] S3A1：读取PDF文件内容并对每一页内容进行拆分，得到N份单页内容；

[0116] S3A2：将N份单页内容依次输入VGG16网络层中进行特征提取，生成多份单页内容的特征图，表示为的特征图，其中C表示通道数，W表示宽度，H表示高度；

[0117] S3A3：利用滑动卷积层对特征图进行多次滑动卷积操作，获取多个特征向量，生成新的特征图；其中，滑动卷积层先对特征图进行3x3的卷积，再进行im2col操作，即将一个[]矩阵变成一个[ ]矩阵，其原理是利用了行列式进行等价转换，每次操作都得到一个3x3通道数的特征向量，最后由所有特征向量生成一个新的特征图；

[0118] S3A4：利用循环层对新的特征图进行重塑处理，将新的特征图重塑为LSTM网络层能够处理的大小，得到重塑特征图；

[0119] S3A5：利用LSTM网络层对重塑特征图进行卷积处理并配置锚点，获取文本位置；

[0120] S3A6：在Softmax层中判断文本位置中是否包含文本，对文本所在的文本位置进行中心坐标修正和高度修正，生成修正结果；

[0121] S3A7：利用修正结果，由文本生成器将中心坐标、高度相近的文本位置进行合并，构造成为一个文本行；再将多个文本行进行合并，得到PDF文件的文本内容。

[0122] 更具体的，在所述OCR合同识别服务单元中，所述NLP技术包括Look‑up层、BiLSTM层、CRF层和Filtrate层；利用NLP技术对文本内容进行解析，得到贸易背景资料的过程具体为：

[0123] S3B1：利用Look‑up层将文本内容中的每一个单词映射为一个词向量，得到多个词向量；

[0124] S3B2：BiLSTM层通过学习文本内容中上下文的信息，输出每个词向量对应于每个标签的得分概率；

[0125] S3B3：将BiLSTM层的输出作为CRF层的输入，通过学习标签之间的顺序依赖信息，得到每个词向量预测的序列标注；

[0126] S3B4：利用Filtrate层对每个词向量预测的序列标注进行处理，将无效标注进行过滤，并将有效标注归并到一个结果集输出，即得到贸易背景资料。贸易背景资料包括买方、卖方、签订日期、有效日期等信息。

[0127] 更具体的，在所述OCR合同识别服务单元中，OCR引擎提取PDF文件中的合同章内容对应的文本过程具体为：

[0128] S3C1：对S3A1中得到的多份单页内容分别进行印章识别，得到包含印章的单页内容；

[0129] S3C2：基于三阶贝塞尔曲线算法对包含印章的单页内容进行处理，剪裁处印章中环形文字区块；

[0130] S3C3：将环形文字区块中的所有曲形文本拉直成水平文本行图片；

[0131] S3C4：利用卷积层对水平文本行图片进行图像特征提取，得到图像特征；

[0132] S3C5：通过循环层对图像特征进行序列建模，对图像特征的特征表征进行改善；

[0133] S3C6：将特征表征改善后的图像特征进行线性分类，通过CTC解码获得最终的识别结果，得到合同章内容对应的文本。

[0134] 在具体实施过程中，本系统结构简单，便于部署，可以很好地将基于OCR引擎的智能审单方法进行应用，利用PDF合并技术将图片/pdf格式的待审核单据进行自动合并，令整个审单过程无需逐个单据进行审核，有效提高审核效率；同时也能够将贸易背景资料及合同章内容对应的文本进行识别和提取，实现了对合同印章的识别，适用于合同等非固定格式文件的识别。

[0135] 实施例3

[0136] 更具体的，本实施例具体构建了一种智能审单系统，除包括金单前端单元、单据合并单元、OCR合同识别服务单元、智能审单单元（tradebgrd单元），还包含了交易核心服务单元（trade单元）和文件服务单元；其中，金单前端单元基于VUEjs的微前端框架实现，运行在Java虚拟机中，与金单交易核心服务单元交互获取后端数据，用于作为智能审单系统的展示UI；而交易核心服务单元基于Java的Spring boot开源框架实现，运行在Java虚拟机中，与智能审单单元交互获取贸易背景资料识别结果，用于对贸易背景识别结果进行智能化判断并把结果返回前端展示；智能审单单元基于Java的Spring boot开源框架实现，运行在Java虚拟机中，与OCR合同识别服务单元交互异步提交贸易背景合同文件识别任务及获取识别结果，用于对任务状态进行监控及调度（根据机器性能自动安排识别任务）并对识别结果进行数据初步清洗后返回金单交易核心服务单元；OCR合同识别服务单元采用C++编写，运行在docker容器中，提供合同文件内容识别及关键字抽取功能；而文件服务单元基于Java的Spring boot开源框架实现，其参与整个系统的文件上传、下载的过程。

[0137] 在具体实施过程中，如图3所示的文件上传流程图，首先由金单前端单元发起文件上传流程，到后端getToken并提交到trade单元中，由trade单元发起到文件服务单元getToken的任务；当文件服务单元收到getToken的任务，则向OSS对象存储服务发起getToken的任务，由OSS对象存储服务生成Token，并将Fileid列表依次返回到金单前端单元；金单前端单元利用Fileid列表及Token上传文件到OSS对象存储服务，由OSS对象存储服务接收文件并向金单前端单元通知文件服务上传完成的消息，由文件服务单元保存文件名称、大小，确认文件上传完成。

[0138] 上述文件上传流程中，将OSS对象存储服务作为待审核单据对象存储中心，分离了待审核单据得上传逻辑。待审核单据在对象存储服务中均采用Fileid作为命名，其信息存储在文件服务中。金单前端单元通过后端获取到访问签名Token后，可以直接将待审核单据上传到OSS，则无需通过后端服务，前后端访问文件均可以直接对接OSS对象存储服务，大大降低了后端应用服务器的带宽压力。

[0139] 更具体的，本系统在实际应用过程中，用户的贸易背景资料存在格式不规范、数据模型不清晰（多张图片对应对个材料）的问题，需要规范化格式并可以把属于一个材料的图片进行合并为一个PDF。图片合并为PDF文件功能包含前后端逻辑，具体为：

[0140] 金单前端单元采用TUploadFileSimple文件上传控件，TUploadFileSimple控件支持批量选择文件并检验文件格式，文件选择后将按照默认规则（先过滤文件名中带有排序标识的字符，然后对字符转义为数字并根据数字顺序进行排序）对文件排序，用户也可以在文件上传完毕后通过在金单前端单元上拖拽文件进行二次排序。TUploadFileSimple控件可以无缝地与系统的后端框架对接，内嵌的排序及拖拽动画效果可以提高使用体验。

[0141] 而在需要合并PDF文件时，先按Fileid列表把待审核单据逐一下载，遇到webp格式的文件自动采用流处理方式转换为png格式，对于分辨率较大或者较小的图片，会自动压缩或调整分辨率，使调整后的图片更符合后续OCR识别及人工检测的视觉效果；然后采用把图片写入到PDF文件context中的方式将图片合并为PDF文件。由于采用OSS存储待审核单据及提供加速下载服务，使得整体文件合并效率非常高，操作响应快，用户体验较好。

[0142] 更具体的，在OCR合同识别服务单元、智能审单单元中，涉及到一个基于OCR引擎对PDF文件进行识别的流程，具体如图4所示。

[0143] 在具体实施过程中，智能审单单元获取OSS存储中的PDF文件到OCR合同识别服务单元中，由OCR合同识别服务单元对PDF文件进行识别并返回任务提交成功信息；此时在智能审单单元开启轮询任务完成情况的判断，在OCR合同识别服务单元、智能审单单元交互过程中，由OCR合同识别服务单元返回任务状态给智能审单单元，由智能审单单元判断轮询任务是否完成，若是，则结束该流程；否则，则继续进行轮询任务的完成情况。

[0144] 在具体实施过程中，由于不同的硬件环境，OCR引擎的识别速率并不一样且处于对OCR服务器的保护，需要控制每个OCR服务器同时执行的任务数，因此本系统采用分布式系统架构进行OCR识别任务的调度，其还设计具有优先级调度功能，支持先进先出策略的调度程序，方便对OCR识别任务进行调度。

[0145] 更具体的，先进先出策略的调度程序中的对象包含调度服务、redis两部分，redis用于缓存分布式系统中的任务队列及redis资源锁。调度程序根据redis资源锁判断资源是否处于占用状态，然后根据该资源处理任务平均速率的两倍减去任务已进行的时间统计出预计总需等待的时间，与空闲的资源进行比对，若空闲资源预计所需时间更少，对空闲资源加锁后返回获取到的资源id，若比空闲资源的预计时间还要少，则进行预占用（已在预占用转态的机器不参与比较），在任务结束后直接获取锁并返回资源id。调度服务提供一个释放锁接口，工作线程检测到OCR识别完成后，调用释放锁接口归还资源。如图5所示，具体调度过程为：

[0146] OCR合同识别服务单元从OSS中加载文件并组装ocr识别参数；完成该操作后便可以进行获取资源子流程，获取资源并判断资源的获取情况，若成功获取，则进行ocr识别子流程，完成对于资源的ocr识别，结束操作；若获取失败，则抛出异常，结束操作。

[0147] 如图6所示，所述的资源子流程具体为：先获取所有资源并遍历每个资源配置，对每个资源，获取处理用时，判断可执行任务列表是否为空，若是，则返回获取资源失败；否则，则返回处理用时最少的资源。

[0148] 如图7所示，所述的对每个资源，获取处理用时的过程具体为：先查询redis资源锁，判断其是否被占用，所述redis资源锁缓存在redis中；若redis资源锁被占用，则查询redis资源预占用锁，判断其是否被预占用，若是，则返回资源已被占用，结束该子流程；若否，则返回资源对应的处理用时的两倍减去锁创建时间，结束该子流程；

[0149] 若redis资源锁未被占用，则返回资源对应的处理用时，结束该子流程。

[0150] 在具体实施过程中，本系统加入调度程序后，使得平均构建用时相对于随机分配资源的情况减少15%，进一步优化OCR服务器的资源使用效率。

[0151] 在具体实施过程中，在OCR合同识别服务单元中，可以将PDF文件转化问纯文字信息，其中采用CTPN算法模型提取出PDF文件中的文本内容，再利用NLP技术对文本内容进行解析，得到贸易背景资料；而对于合同章内容对应的文本的提取过程，其原理则是通过文字旋转特征和坐标等判断分布趋势相同的文字，并将其抽取成一个变量，获取到文字分布特征；接着由文字分布特征不同更准确地识别出合同章上的公司名字和其他附加信息；最后再对识别结果进行持久化保存。

[0152] 在具体实施过程中，在智能审单单元中，其通过查询OCR合同识别服务单元中的识别结果，并对识别结果进行数据清洗，包括如印章数据格式化（去除防伪码、去除地址分布办公室的干扰信息）、买卖双方名称处理（去除回车空格换行符等）、合同日期格式化（不同识别结果时间格式转为：yyyy‑MM‑dd）和合同金额格式化（单位转化、大写转小写）；而智能审单单元进行信息对比的内容具体包括印章与企业名相似度对比、合同日期与开单日期对比、开单方名称与买方名称对比、收单方名称与卖方名称对比、开单金额与合同金额对比、发票金融与合同金融对比等，最后根据比较结果对工单实现智能审核。

[0153] 显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

一种基于OCR引擎的智能审单方法及系统转让专利

申请号 : CN202210887226.2

文献号 : CN114973290B

文献日 : 2022-11-04

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 钟鸿敏 , 容绍俊 , 陈昕 , 何勇 , 孔彪

申请人 : 简单汇信息科技(广州)有限公司

摘要 :

权利要求 :

说明书 :