字符识别方法、装置、计算机设备和计算机可读存储介质转让专利

申请号 : CN202010128301.8

文献号 : CN111275051A

文献日 : 2020-06-12

相似专利: 请登录后查看

本申请涉及一种字符识别方法、装置、计算机设备和计算机可读存储介质。所述字符识别方法包括：获取文本图像中干扰信息的位置信息；根据所述干扰信息的位置信息，从所述文本图像中提取干扰区域图像；根据所述干扰区域图像和去干扰模型，得到去除所述干扰信息后的字符图像；根据所述字符图像和所述文本图像，获取所述文本图像的字符识别结果。采用本方法能够提升文本图像的字符识别准确率。

1.一种字符识别方法，其特征在于，所述方法包括：获取文本图像中干扰信息的位置信息；

根据所述干扰信息的位置信息，从所述文本图像中提取干扰区域图像；

根据所述干扰区域图像和去干扰模型，得到去除所述干扰信息后的字符图像；

根据所述字符图像和所述文本图像，获取所述文本图像的字符识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述字符图像和所述文本图像，获取所述文本图像的字符识别结果，包括：将所述文本图像中的所述干扰区域图像替换为所述字符图像，得到替换后的文本图像；

将所述替换后的文本图像输入至字符识别模型中，得到所述文本图像的字符识别结果。

3.根据权利要求1所述的方法，其特征在于，所述根据所述干扰区域图像和去干扰模型，得到去除所述干扰信息后的字符图像，包括：将所述干扰区域图像输入至所述去干扰模型中，得到输出图像；所述输出图像中每个像素点的输出像素值均为归一化后的像素值；

根据所述输出图像中各所述像素点的输出像素值，获取各所述像素点的真实像素值；

根据各所述像素点的所述真实像素值，生成所述字符图像。

4.根据权利要求3所述的方法，其特征在于，所述输出像素值包括归一化R值、归一化G值和归一化B值；所述根据所述输出图像中各所述像素点的输出像素值，获取各所述像素点的真实像素值，包括：对每个所述像素点的归一化R值、归一化G值和归一化B值分别乘预设倍数，得到每个所述像素点的真实R值、真实G值和真实B值；

将各所述像素点的真实R值、真实G值和真实B值确定为对应像素点的所述真实像素值。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述去干扰模型的训练过程包括：获取多组样本图像；每组样本图像均包括样本干扰区域图像和所述样本干扰区域图像对应的样本字符图像；

将初始全卷积网络的Softmax层替换为归一化层，并根据所述多组样本图像训练所述初始全卷积网络，得到所述去干扰模型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述多组样本图像训练所述初始全卷积网络，得到所述去干扰模型，包括：采用ImageNet数据集对所述初始全卷积网络的基础网络进行预训练，得到预训练后的基础网络；

将所述预训练后的基础网络的参数确定为所述初始全卷积网络的基础网络的初始化参数，并采用所述多组样本图像，训练参数初始化后的初始全卷积网络，得到所述去干扰模型。

7.根据权利要求1所述的方法，其特征在于，所述获取文本图像中干扰信息的位置信息，包括：将所述文本图像输入至干扰检测模型中，得到所述文本图像中干扰信息的位置信息；

所述位置信息包括位置框的坐标，所述干扰检测模型是基于SSD目标检测模型框架训练得到的；

所述根据所述干扰信息的位置信息，从所述文本图像中提取干扰区域图像，包括：根据所述位置框的坐标，在所述文本图像中截取与所述位置框的坐标对应的目标区域作为所述干扰区域图像。

8.一种字符识别装置，其特征在于，所述装置包括：第一获取模块，用于获取文本图像中干扰信息的位置信息；

提取模块，用于根据所述干扰信息的位置信息，从所述文本图像中提取干扰区域图像；

第二获取模块，用于根据所述干扰区域图像和去干扰模型，得到去除所述干扰信息后的字符图像；

识别模块，用于根据所述字符图像和所述文本图像，获取所述文本图像的字符识别结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

字符识别方法、装置、计算机设备和计算机可读存储介质

技术领域

[0001] 本发明涉及字符识别技术领域，特别是涉及一种字符识别方法、装置、计算机设备和计算机可读存储介质。

背景技术

[0002] 图像识别作为计算机视觉研究领域的分支之一，已被广泛应用在众多行业，字符识别技术属于图像识别领域。OCR(Optical Character Recognition，光学字符识别)作为一种字符识别技术，可以从输入的文本图像中识别出字符信息。在实际的应用场景中，合同文本图像、表单文本图像等输入图像中，均可能存在印章或手写字符等干扰信息。

[0003] 目前，对于存在印章或手写字符等干扰信息的文本图像，字符识别技术无法准确识别出文本图像中干扰信息下的字符信息，导致字符识别的准确率较低。

发明内容

[0004] 基于此，有必要针对上述技术问题，提供一种能够提升文本图像的字符识别准确率的字符识别方法、装置、计算机设备和计算机可读存储介质。

[0005] 第一方面，本申请实施例提供了一种字符识别方法，字符识别方法包括：获取文本图像中干扰信息的位置信息；根据干扰信息的位置信息，从文本图像中提取干扰区域图像；根据干扰区域图像和去干扰模型，得到去除干扰信息后的字符图像；根据字符图像和文本图像，获取文本图像的字符识别结果。

[0006] 在其中一个实施例中，根据字符图像和文本图像，获取文本图像的字符识别结果，包括：将文本图像中的干扰区域图像替换为字符图像，得到替换后的文本图像；将替换后的文本图像输入至字符识别模型中，得到文本图像的字符识别结果。

[0007] 在其中一个实施例中，根据干扰区域图像和去干扰模型，得到去除干扰信息后的字符图像，包括：将干扰区域图像输入至去干扰模型中，得到输出图像；输出图像中每个像素点的输出像素值均为归一化后的像素值；根据输出图像中各像素点的输出像素值，获取各像素点的真实像素值；根据各像素点的真实像素值，生成字符图像。

[0008] 在其中一个实施例中，输出像素值包括归一化R值、归一化G值和归一化B值；根据输出图像中各像素点的输出像素值，获取各像素点的真实像素值，包括：对每个像素点的归一化R值、归一化G值和归一化B值分别乘预设倍数，得到每个像素点的真实R值、真实G值和真实B值；将各像素点的真实R值、真实G值和真实B值确定为对应像素点的真实像素值。

[0009] 在其中一个实施例中，去干扰模型的训练过程包括：获取多组样本图像；每组样本图像均包括样本干扰区域图像和样本干扰区域图像对应的样本字符图像；将初始全卷积网络的Softmax层替换为归一化层，并根据多组样本图像训练初始全卷积网络，得到去干扰模型。

[0010] 在其中一个实施例中，根据多组样本图像训练初始全卷积网络，得到去干扰模型，包括：采用ImageNet数据集对初始全卷积网络的基础网络进行预训练，得到预训练后的基础网络；将预训练后的基础网络的参数确定为初始全卷积网络的基础网络的初始化参数，并采用多组样本图像，训练参数初始化后的初始全卷积网络，得到去干扰模型。

[0011] 第二方面，本申请实施例提供一种字符识别装置，装置包括：第一获取模块，用于获取文本图像中干扰信息的位置信息；提取模块，用于根据干扰信息的位置信息，从文本图像中提取干扰区域图像；第二获取模块，用于根据干扰区域图像和去干扰模型，得到去除干扰信息后的字符图像；识别模块，用于根据字符图像和文本图像，获取文本图像的字符识别结果。

[0012] 第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现如上述第一方面的方法的步骤。

[0013] 第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

[0014] 本申请实施例提供的技术方案带来的有益效果至少包括：

[0015] 通过获取文本图像中干扰信息的位置信息；根据干扰信息的位置信息，从文本图像中提取干扰区域图像；根据干扰区域图像和去干扰模型，得到去除干扰信息后的字符图像；根据字符图像和文本图像，获取文本图像的字符识别结果；由此，本申请根据字符图像和文本图像获取文本图像的字符识别结果，由于字符图像是采用去干扰模型对文本图像中的干扰区域图像去除干扰信息后得到的，因此，减少了干扰信息对字符识别的影响；避免了传统技术中，当文本图像中存在印章或手写字符等干扰信息时，字符识别技术无法准确识别出文本图像中干扰信息下的字符信息，导致字符识别的识别准确率低的问题。本申请提升了包括干扰信息的文本图像的字符识别准确率。

附图说明

[0016] 图1为一个实施例提供的字符识别方法的流程示意图；

[0017] 图2为一个实施例提供的字符识别方法的流程示意图；

[0018] 图3为一个实施例提供的字符识别方法中根据文本图像获取替换后的文本图像的示意图；

[0019] 图4为一个实施例提供的字符识别方法的流程示意图；

[0020] 图5为一个实施例提供的字符识别方法中步骤S320的细化步骤示意图；

[0021] 图6为一个实施例提供的去干扰模型训练过程的流程示意图；

[0022] 图7为一个实施例提供的去干扰模型训练过程中步骤S520的细化步骤示意图；

[0023] 图8为另一个实施例提供的字符识别方法的流程示意图；

[0024] 图9为另一个实施例提供的字符识别方法的流程示意图；

[0025] 图10为一个实施例提供的字符识别装置的结构框图；

[0026] 图11为一个实施例提供的计算机设备的内部结构图。

具体实施方式

[0027] 为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

[0028] 本申请实施例提供的字符识别方法、装置、计算机设备和计算机可读存储介质，旨在解决传统技术中，对于存在印章或手写字符等干扰信息的文本图像，字符识别技术无法准确识别出文本图像中干扰信息下的字符信息，导致字符识别的识别准确率低的技术问题。下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体地实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

[0029] 需要说明的是，本申请实施例提供的字符识别方法，其执行主体可以是字符识别装置，该字符识别装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。下述方法实施例中，均以执行主体是计算机设备为例来进行说明，计算机设备可以是服务器；可以理解的是，下述方法实施例提供的字符识别方法，也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

[0030] 请参考图1，其示出了本申请实施例提供的一种字符识别方法的流程示意图。本实施例涉及的是将文本图像中的干扰信息去除后再进行字符识别的具体实现过程。如图1所示，本实施例字符识别方法可以包括以下步骤：

[0031] 步骤S100，获取文本图像中干扰信息的位置信息。

[0032] 其中，文本图像可以是拍摄或扫描票据、合同文本、表单、证件等得到的图像，干扰信息可以是文本图像中覆盖了待识别字符、对待识别字符的识别形成干扰的印章或者手写字符等信息。

[0033] 本实施例中，对于存在干扰信息的文本图像，计算机设备首先获取文本图像中干扰信息的位置信息。作为一种实施方式，计算机设备可以采用SSD目标检测算法获取文本图像中干扰信息的位置信息。

[0034] 在其它实施例中，计算机设备还可以采用YOLO目标检测算法获取文本图像中干扰信息的位置信息，等等，在此不做具体限制。

[0035] 步骤S200，根据干扰信息的位置信息，从文本图像中提取干扰区域图像。

[0036] 计算机设备根据干扰信息的位置信息，确定干扰信息在文本图像中的具体位置，从文本图像中提取干扰区域图像。

[0037] 作为一种实施方式，位置信息可以包括位置框的坐标，计算机设备在文本图像中截取与位置框的坐标对应的目标区域作为干扰区域图像。

[0038] 在其它实施例中，计算机设备还可以对位置框的坐标乘预设系数进行修正，以提升提取的干扰区域图像的准确度，预设系数在实际实施时可以自行设置。

[0039] 步骤S300，根据干扰区域图像和去干扰模型，得到去除干扰信息后的字符图像。

[0040] 计算机设备根据干扰信息的位置信息，从文本图像中提取干扰区域图像后，根据该干扰区域图像和去干扰模型，得到去除干扰信息后的字符图像。本实施例中，去干扰模型可以是基于FCN(Fully Convolutional Networks，全卷积网络)模型框架训练得到的。

[0041] 传统技术中，FCN用于像素分割，即用于对图像中的每个像素进行分类，FCN的全连接层得到的特征经过Softmax层后，即可获得每个像素针对21种类别的类别概率值，其中，每个像素针对21种类别的类别概率值之和为1。

[0042] 本实施例中将FCN用于预测，不需要计算干扰区域图像中每个像素的类别概率值，因此，在去干扰模型的训练时，计算机去除FCN模型框架中的Softmax层，并通过调整去干扰模型的模型参数，控制去干扰模型输出每个像素点的三通道数值。

[0043] 计算机设备将去干扰模型输出的每个像素点的三通道数值，作为对应像素点的RGB像素值，由此，根据各像素点的RGB像素值即可得到字符图像。

[0044] 在其它实施例中，为了便于去干扰模型在训练过程中更好地学习，计算机设备还可以在去干扰模型中加入归一化层，即得到每个像素点的三通道数值后，再通过归一化操作，输出每个像素点归一化后的三通道数值。计算机设备再对每个像素点归一化后的三通道数值进行还原，得到字符图像。例如，归一化操作时对三通道数值各除以255，归一化至[0,1]区间内，还原时计算机设备则对归一化后的三通道数值分别乘以255，还原至[0,255]区间内，得到每个像素点的RGB像素值。

[0045] 步骤S400，根据字符图像和文本图像，获取文本图像的字符识别结果。

[0046] 计算机设备获取到字符图像后，根据字符图像和文本图像，获取文本图像的字符识别结果。

[0047] 本实施例中，作为一种实施方式，计算机设备可以将文本图像中的干扰区域图像替换为字符图像，再将替换后的文本图像输入至字符识别模型中，得到文本图像的字符识别结果，字符识别可以是OCR模型。

[0048] 在其它实施例中，作为一种实施方式，计算机设备还可以将文本图像中的干扰区域图像替换为空白图像，采用字符识别模型对替换后的文本图像进行字符识别、对字符图像进行字符识别，两次识别结果组成文本图像最终的字符识别结果。

[0049] 本实施例通过获取文本图像中干扰信息的位置信息；根据干扰信息的位置信息，从文本图像中提取干扰区域图像；根据干扰区域图像和去干扰模型，得到去除干扰信息后的字符图像；根据字符图像和文本图像，获取文本图像的字符识别结果；由此，本实施例根据字符图像和文本图像获取文本图像的字符识别结果，由于字符图像是采用去干扰模型对文本图像中的干扰区域图像去除干扰信息后得到的，因此，减少了干扰信息对字符识别的影响；避免了传统技术中，当文本图像中存在印章或手写字符等干扰信息时，字符识别技术无法准确识别出文本图像中干扰信息下的字符信息，导致字符识别的识别准确率低的问题。本实施例提升了包括干扰信息的文本图像的字符识别准确率。

[0050] 图2为另一个实施例提供的字符识别方法的流程示意图。在上述图1所示实施例的基础上，如图2所示，本实施例中，步骤S400包括步骤S410和步骤S420，具体地：

[0051] 步骤S410，将文本图像中的干扰区域图像替换为字符图像，得到替换后的文本图像。

[0052] 本实施例中，计算机设备获取文本图像中干扰信息的位置信息，根据干扰信息的位置信息，从文本图像中提取干扰区域图像，根据干扰区域图像和去干扰模型，得到去除干扰信息后的字符图像后，将文本图像中的干扰区域图像替换为字符图像，得到替换后的文本图像。

[0053] 步骤S420，将替换后的文本图像输入至字符识别模型中，得到文本图像的字符识别结果。

[0054] 计算机设备将替换后的文本图像输入至字符识别模型中，得到文本图像的字符识别结果，可以理解的是，替换后的文本图像是对文本图像中的干扰信息进行去除后得到的，由此，避免了干扰信息对文本图像的字符识别造成干扰，提升了文本图像的字符识别准确率。

[0055] 本实施例中，具体以干扰信息是印章为例，对本实施例字符识别方法的实施过程进行进一步说明。

[0056] 图3为本实施例中，根据文本图像获取替换后的文本图像的示意图。如图3所示，从左至右四张图像依次分别代表文本图像、干扰区域图像、字符图像、替换后的文本图像。文本图像中包括干扰信息印章，计算机设备根据SSD目标检测算法获取文本图像中干扰信息的位置信息，位置信息可以包括位置框的坐标，计算机设备在文本图像中截取与位置框的坐标对应的目标区域作为干扰区域图像，计算机设备根据干扰区域图像和去干扰模型，得到去除干扰信息后的字符图像，再将文本图像中的干扰区域图像替换为字符图像，得到替换后的文本图像。计算机设备将替换后的文本图像输入至字符识别模型中，得到文本图像的字符识别结果。由此，减少了干扰信息对字符识别的影响，提升了文本图像字符识别的准确率。

[0057] 在其它实施例中，作为一种实施方式，文本图像中的干扰信息也可以是多个印章，计算机设备根据SSD目标检测算法获取文本图像中各印章的位置框的坐标，再从文本图像中截取与各位置框的坐标分别对应的多个目标区域作为多个干扰区域图像，计算机设备将多个干扰区域图像输入至去干扰模型，得到去除干扰信息后的多个字符图像，计算机设备将文本图像中的多个干扰区域图像均替换为对应的字符图像，得到替换后的文本图像，由此，完成了对文本图像中干扰信息的去除，减少了干扰信息对字符识别的影响，提升了文本图像字符识别的准确率。

[0058] 图4为另一个实施例提供的字符识别方法的流程示意图。在上述图1所示实施例的基础上，如图4所示，本实施例中，步骤S300包括步骤S310、步骤S320和步骤S330，具体地：

[0059] 步骤S310，将干扰区域图像输入至去干扰模型中，得到输出图像。

[0060] 其中，输出图像中每个像素点的输出像素值均为归一化后的像素值。

[0061] 本实施例中，具体地，去干扰模型是基于FCN模型框架训练得到的，在去干扰模型训练时，计算机去除FCN模型框架中的softmax层，并加入归一化层，即采用归一化操作替代softmax操作，通过迭代训练调整去干扰模型的模型参数，控制去干扰模型的输出结果为每个像素点归一化后的像素值。

[0062] 步骤S320，根据输出图像中各像素点的输出像素值，获取各像素点的真实像素值。

[0063] 计算机设备根据输出图像中各像素点的输出像素值，获取各像素点的真实像素值。具体地，各像素点的输出像素值是除以255后归一化在[0,1]区间内的，但是真实像素值的取值范围在[0,255]区间内，因此，计算机设备对各像素点的输出像素值乘以255，得到各像素点的真实像素值。

[0064] 步骤S330，根据各像素点的真实像素值，生成字符图像。

[0065] 计算机设备获取各像素点的真实像素值，即为字符图像中各像素点的实际像素值。本实施例通过将干扰区域图像输入至去干扰模型中，得到输出图像；根据输出图像中各像素点的输出像素值，获取各像素点的真实像素值；根据各像素点的真实像素值，生成字符图像；由此，采用基于FCN模型框架的去干扰模型，得到各像素点归一化后的像素值，进一步对归一化后的像素值进行还原得到字符图像，实现了干扰区域图像中干扰信息的去除，避免了干扰信息对文本图像的字符识别造成的影响。

[0066] 在上述图4所示实施例的基础上，图5为另一个实施例提供的字符识别方法中步骤S320的细化步骤示意图。如图5所示，本实施例步骤S320包括步骤S321和步骤S322，具体地：

[0067] 步骤S321，对每个像素点的归一化R值、归一化G值和归一化B值分别乘预设倍数，得到每个像素点的真实R值、真实G值和真实B值。

[0068] 本实施例中，输出像素值包括归一化R值、归一化G值和归一化B值。计算机设备将干扰区域图像输入至去干扰模型中，得到输出图像，输出图像中每个像素点的像素值均为归一化后的三通道数值，即归一化R值、归一化G值和归一化B值。计算机设备对每个像素点的归一化R值、归一化G值和归一化B值分别乘预设倍数，本实施例中，预设倍数为255，得到每个像素点的真实R值、真实G值和真实B值。

[0069] 步骤S322，将各像素点的真实R值、真实G值和真实B值确定为对应像素点的真实像素值。

[0070] 计算机设备将各像素点的真实R值、真实G值和真实B值确定为对应像素点的真实像素值，根据各像素点的真实像素值，生成彩色的字符图像。

[0071] 本实施例对每个像素点的归一化R值、归一化G值和归一化B值分别乘预设倍数，得到每个像素点的真实R值、真实G值和真实B值；将各像素点的真实R值、真实G值和真实B值确定为对应像素点的真实像素值；由此，生成去除干扰信息后的字符图像，基于字符图像的字符识别，可以提升字符识别的准确率。

[0072] 在上述图1所示实施例的基础上，参见图6，图6为一个实施例提供的去干扰模型训练过程的流程示意图。如图6所示，本实施例去干扰模型的训练过程包括步骤S510和步骤S520，具体地：

[0073] 步骤S510，获取多组样本图像。

[0074] 每组样本图像均包括样本干扰区域图像和样本干扰区域图像对应的样本字符图像。在数据准备阶段，以干扰信息是印章为例，选取一张没有印章的文本拍照得到图像A，在图像A加盖印章再次拍照得到图像B，计算机设备采用SSD目标检测算法或者采用基于SSD目标检测模型框架训练得到干扰检测模型，获取图像B中印章的位置框的坐标；计算机设备根据该位置框的坐标从图像A中截取图像C，图像C即为一个样本字符图像；计算机设备根据该位置框的坐标从图像B中截取图像D，图像D即为一个样本干扰区域图像，由此，得到一组样本图像。在数据准备阶段，采用上述方法获取多组样本图像，样本图像选用不同格式种类的文本，由此，保证了样本的丰富性。

[0075] 步骤S520，将初始全卷积网络的Softmax层替换为归一化层，并根据多组样本图像训练初始全卷积网络，得到去干扰模型。

[0076] 其中，去干扰模型是基于FCN模型框架，即全卷积网络模型框架实现的。

[0077] 本实施例中，计算机设备先将参数初始化的初始全卷积网络的Softmax层替换为归一化层，然后将多组样本图像中，多个样本干扰区域图像作为模型的输入；将多个样本字符图像中，各像素点的像素值除以255归一化后，取每个样本字符图像对应的RGB三通道图像作为模型的输出，然后训练初始全卷积网络，得到去干扰模型。

[0078] 作为一种实施方式，参见图7，图7为另一个实施例中步骤S520的细化步骤示意图。如图7所示，步骤S520包括步骤S521和步骤S522，具体地：

[0079] 步骤S521，将初始全卷积网络的Softmax层替换为归一化层，并采用ImageNet数据集对初始全卷积网络的基础网络进行预训练，得到预训练后的基础网络。

[0080] 本实施例中，初始全卷积网络使用卷积神经网络AlexNet作为骨干网络，即基础网络。计算机设备将初始全卷积网络的Softmax层替换为归一化层后，采用ImageNet数据集对AlexNet进行预训练，ImageNet数据集是图像处理领域的公开数据集之一，对AlexNet进行预训练可以加快去干扰模型的训练速度。对AlexNet进行预训练得到预训练后的基础网络。

[0081] 步骤S522，将预训练后的基础网络的参数确定为初始全卷积网络的基础网络的初始化参数，并采用多组样本图像，训练参数初始化后的初始全卷积网络，得到去干扰模型。

[0082] 计算机设备将预训练后的基础网络的参数确定为初始全卷积网络的基础网络的初始化参数，也就是将初始全卷积网络的基础网络的参数，初始化为预训练后的基础网络的参数，计算机设备然后再采用多组样本图像，对基础网络参数初始化后的全卷积网络进行微调训练，也即是对该参数初始化后的初始全卷积网络的参数进行微调，得到去干扰模型。

[0083] 本实施例中，作为一种实施方式，根据实验效果，设置基础学习率为0.0001,权重衰减weight decay设置为0.0005,模型参数momentum因子设置为0.99，优化算法使用SGD优化算法，得到最优模型，即最终的去干扰模型。

[0084] 在字符识别过程中，计算机设备获取文本图像中干扰信息的位置信息，根据干扰信息的位置信息，从文本图像中提取干扰区域图像，根据干扰区域图像和本实施例训练得到的去干扰模型，得到去除干扰信息后的字符图像，计算机设备再根据字符图像和文本图像，获取文本图像的字符识别结果，提升了文本图像中字符识别的准确率。

[0085] 图8为另一个实施例提供的字符识别方法的流程示意图。在上述图1所示实施例的基础上，如图8所示，本实施例中，步骤S100包括步骤S110，具体地：

[0086] 步骤S110，将文本图像输入至干扰检测模型中，得到文本图像中干扰信息的位置信息。

[0087] 位置信息包括位置框的坐标，干扰检测模型是基于SSD目标检测模型框架训练得到的。本实施例中，干扰检测模型是基于SSD模型框架实现的，该模型框架使用VGG16作为骨干网络，并将VGG16的FC层替换为用于提取不同尺度特征的卷积层，该模型框架分别从Conv4_3、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2六个卷积层输出不同尺度下检测得到的目标的位置框坐标，以及各目标属于不同类别的置信度得分，再经过后处理得到最终的目标，即干扰信息的位置信息以及类别置信度得分。其中，后处理是将多个重合位置框中，置信度得分最高的一个位置框作为最终的位置框。

[0088] 本实施例中，以干扰信息是印章为例，对干扰检测模型的训练过程进行说明。在数据准备阶段，获取多个包含印章的样本文本图像，使用矩形框标记样本文本图像中的印章区域，记录相应的类别标签，类别标签包含四类：圆章、方章、矩形章以及背景。

[0089] 在训练过程中，采用ImageNet训练集对VGG16进行预训练，得到基础模型，对VGG16进行预训练可以加快干扰检测模型的训练速度；然后再采用标注完成的多个样本文本图像对包括基础模型的SSD模型框架进行参数微调，直至获取到最终的干扰检测模型。

[0090] 本实施例中，作为一种实施方式，根据实验效果，设置基础学习率为0.001,权重衰减weight decay设置为0.0005,模型参数momentum因子设置为0.99,优化算法使用SGD优化算法，得到最优模型，即最终的干扰检测模型。

[0091] 计算机设备将文本图像输入至干扰检测模型中，得到文本图像中干扰信息的位置信息，位置信息具体是位置框的坐标，若文本图像中包括多个干扰信息，如包括多个印章，位置信息则包括矩形坐标数组，矩形坐标数组包括多组坐标，每组坐标对应一个印章的位置。

[0092] 进一步地，请继续参见图8，本实施例步骤S200包括步骤S210，具体地：

[0093] 步骤S210，根据位置框的坐标，在文本图像中截取与位置框的坐标对应的目标区域作为干扰区域图像。

[0094] 计算机设备根据位置框的坐标，在文本图像中截取与位置框的坐标对应的目标区域作为干扰区域图像；根据干扰区域图像和训练的去干扰模型，得到去除干扰信息后的字符图像；根据字符图像和文本图像，获取文本图像的字符识别结果，由此，提升了文本图像中字符识别结果的准确率。

[0095] 参见图9，图9为另一个实施例提供的字符识别方法的流程示意图。在上述图1-图8所示实施例的基础上，如图9所示，本实施例中，字符识别方法包括：

[0096] 步骤S110，将文本图像输入至干扰检测模型中，得到文本图像中干扰信息的位置信息。

[0097] 位置信息包括位置框的坐标，干扰检测模型是基于SSD目标检测模型框架训练得到的。本实施例中，干扰检测模型是基于SSD模型框架实现的，计算机设备将文本图像输入至干扰检测模型中，得到文本图像中干扰信息的位置信息，位置信息具体是位置框的坐标，若文本图像中包括多个干扰信息，如文本图像包括多个印章，位置信息则包括矩形坐标数组，矩形坐标数组包括多组坐标，每组坐标对应一个印章的位置。

[0098] 步骤S210，根据位置框的坐标，在文本图像中截取与位置框的坐标对应的目标区域作为干扰区域图像。

[0099] 计算机设备根据位置框的坐标，在文本图像中截取与位置框的坐标对应的目标区域作为干扰区域图像。

[0100] 步骤S310，将干扰区域图像输入至去干扰模型中，得到输出图像。

[0101] 其中，输出图像中每个像素点的输出像素值均为归一化后的像素值。

[0102] 本实施例中，具体地，去干扰模型是基于FCN模型框架训练得到的，在去干扰模型训练时，计算机设备去除FCN模型框架中的Softmax层，并加入归一化层，即采用归一化操作替代Softmax操作，通过迭代训练调整去干扰模型的模型参数，控制去干扰模型的输出结果为每个像素点归一化后的像素值。

[0103] 步骤S321，对每个像素点的归一化R值、归一化G值和归一化B值分别乘预设倍数，得到每个像素点的真实R值、真实G值和真实B值。

[0104] 本实施例中，输出像素值包括归一化R值、归一化G值和归一化B值。计算机设备对每个像素点的归一化R值、归一化G值和归一化B值分别乘预设倍数，本实施例中，预设倍数为255，则得到每个像素点的真实R值、真实G值和真实B值。

[0105] 步骤S322，将各像素点的真实R值、真实G值和真实B值确定为对应像素点的真实像素值。

[0106] 计算机设备将各像素点的真实R值、真实G值和真实B值确定为对应像素点的真实像素值。

[0107] 步骤S330，根据各像素点的真实像素值，生成字符图像。

[0108] 计算机设备获取各像素点的真实像素值，即为字符图像中各像素点的实际像素值。由此，采用基于FCN模型框架的去干扰模型，得到各像素点归一化后的像素值，进一步对归一化后的像素值进行还原得到字符图像，实现了干扰区域图像中干扰信息的去除。

[0109] 步骤S410，将文本图像中的干扰区域图像替换为字符图像，得到替换后的文本图像。

[0110] 计算机设备根据干扰信息的位置信息，从文本图像中提取干扰区域图像，根据干扰区域图像和去干扰模型，得到去除干扰信息后的字符图像后，将文本图像中的干扰区域图像替换为字符图像，得到替换后的文本图像。

[0111] 步骤S420，将替换后的文本图像输入至字符识别模型中，得到文本图像的字符识别结果。

[0112] 计算机设备将替换后的文本图像输入至字符识别模型中，得到文本图像的字符识别结果，可以理解的是，替换后的文本图像是对文本图像中的干扰信息进行去除后得到的，由此，避免了干扰信息对文本图像的字符识别造成干扰，提升了文本图像的字符识别准确率。

[0113] 应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

[0114] 在一个实施例中，如图10所示，提供了一种字符识别装置，包括：第一获取模块10，用于获取文本图像中干扰信息的位置信息；提取模块20，用于根据干扰信息的位置信息，从文本图像中提取干扰区域图像；第二获取模块30，用于根据干扰区域图像和去干扰模型，得到去除干扰信息后的字符图像；识别模块40，用于根据字符图像和文本图像，获取文本图像的字符识别结果。

[0115] 可选地，识别模块40，包括：替换子模块，用于将文本图像中的干扰区域图像替换为字符图像，得到替换后的文本图像；识别子模块，用于将替换后的文本图像输入至字符识别模型中，得到文本图像的字符识别结果。

[0116] 可选地，第二获取模块30，包括：第一获取子模块，用于将干扰区域图像输入至去干扰模型中，得到输出图像；输出图像中每个像素点的输出像素值均为归一化后的像素值；第二获取子模块，用于根据输出图像中各像素点的输出像素值，获取各像素点的真实像素值；生成子模块，用于根据各像素点的真实像素值，生成字符图像。

[0117] 可选地，输出像素值包括归一化R值、归一化G值和归一化B值；第二获取子模块包括：还原单元，用于对每个像素点的归一化R值、归一化G值和归一化B值分别乘预设倍数，得到每个像素点的真实R值、真实G值和真实B值；确定单元，用于将各像素点的真实R值、真实G值和真实B值确定为对应像素点的真实像素值。

[0118] 可选地，装置还包括：第三获取模块，用于获取多组样本图像；每组样本图像均包括样本干扰区域图像和样本干扰区域图像对应的样本字符图像；第一训练模块，用于将初始全卷积网络的Softmax层替换为归一化层，并根据多组样本图像训练初始全卷积网络，得到去干扰模型。

[0119] 可选地，第一训练模块，包括：预训练子模块，用于将初始全卷积网络的Softmax层替换为归一化层，并采用ImageNet数据集对初始全卷积网络的基础网络进行预训练，得到预训练后的基础网络；训练子模块，用于将预训练后的基础网络的参数确定为初始全卷积网络的基础网络的初始化参数，并采用多组样本图像，训练参数初始化后的初始全卷积网络，得到去干扰模型。

[0120] 可选地，第一获取模块20，包括：第三获取子模块，用于将文本图像输入至干扰检测模型中，得到文本图像中干扰信息的位置信息；位置信息包括位置框的坐标，干扰检测模型是基于SSD目标检测模型框架训练得到的；提取模块20，包括：提取子模块，用于根据位置框的坐标，在文本图像中截取与位置框的坐标对应的目标区域作为干扰区域图像。

[0121] 本实施例提供的字符识别装置，可以执行上述字符识别方法实施例，其实现原理和技术效果类似，在此不再赘述。关于字符识别装置的具体限定可以参见上文中对于字符识别方法的限定，在此不再赘述。上述字符识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

[0122] 在一个实施例中，还提供了一种如图11所示的计算机设备，该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储字符识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种字符识别方法。

[0123] 本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体地计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

[0124] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Ramb微秒)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

[0125] 在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

[0126] 以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

[0127] 以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

字符识别方法、装置、计算机设备和计算机可读存储介质转让专利

申请号 : CN202010128301.8

文献号 : CN111275051A

文献日 : 2020-06-12

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 周康明 , 于洋

申请人 : 上海眼控科技股份有限公司

摘要 :

权利要求 :

说明书 :