图像识别方法、装置、计算机设备和存储介质转让专利

申请号 : CN201811625431.1

文献号 : CN109886077B

文献日 : 2021-07-09

相似专利: 请登录后查看

本申请涉及一种图像识别方法、系统、计算机设备和存储介质。所述方法包括：首先识别出原始图像中的目标图像，去除了原始图像中其他对识别结果的影响，之后对目标图像中的字段域和字符框同时检测，并基于该字段域和字符框的检测结果进行字段识别和字符识别，该方法可以克服在进行图像识别时，使用单一的识别手段得到的识别结果不准确的技术问题。

1.一种图像识别方法，其特征在于，所述方法包括：将原始图像输入图像检测模型，并根据所述图像检测模型的输出结果得到目标图像；

将所述目标图像输入文本初始检测模型，得到所述目标图像中的字段域和字符框；

将得到的所述目标图像中的字段域输入字段识别模型，得到所述目标图像的字段识别结果；

将得到的所述目标图像中的字符框输入字符识别模型，得到所述目标图像的字符识别结果；

根据所述字段识别结果和所述字符识别结果得到图像识别结果；

所述图像检测模型包括第一图像检测模型和第二图像检测模型，所述将原始图像输入图像检测模型，并根据所述图像检测模型的输出结果得到目标图像，包括：将所述原始图像输入第一图像检测模型，得到所述原始图像的特征图；

根据所述原始图像的特征图对所述原始图像进行修正，得到初始处理图像；

将所述初始处理图像输入第二图像检测模型，得到所述初始处理图像中目标区域的顶点坐标；

根据所述初始处理图像中目标区域的顶点坐标对所述初始处理图像进行修正，得到所述目标图像。

2.根据权利要求1所述的方法，其特征在于，所述将所述原始图像输入第一图像检测模型，得到所述原始图像的特征图；根据所述原始图像的特征图对所述原始图像进行修正，得到初始处理图像包括：

将所述原始图像输入所述第一图像检测模型，通过所述第一图像检测模型中的特征金字塔网络对所述原始图像进行特征提取，得到所述原始图像中目标区域的热图和倾斜角度图；

根据所述原始图像中目标区域的热图和倾斜角度图对所述原始图像进行修正，得到初始处理图像。

3.根据权利要求1所述的方法，其特征在于，所述第二图像检测模型包括：特征提取网络以及与所述特征提取网络连接的输出层，其中，所述特征提取网络包括ResNet网络，和/或，ResNet‑inception混合网络。

4.根据权利要求1所述的方法，其特征在于，若所述第二图像检测模型的特征提取层包括ResNet网络，则所述将所述初始处理图像输入第二图像检测模型，得到所述初始处理图像中目标区域的顶点坐标，包括：通过所述ResNet网络的ResNet block进行特征提取，得到特征提取结果，并将所述特征提取结果输入所述第二图像检测模型的输出层，输出初始处理图像中目标区域的顶点坐标；和/或，

若所述第二图像检测模型的特征提取层包括ResNet‑inception混合网络，则所述将所述初始处理图像输入第二图像检测模型，得到所述初始处理图像中目标区域的顶点坐标包括：

通过所述ResNet‑inception混合网络的ResNet block和inception block进行特征提取，得到特征提取结果，并将所述特征提取结果输入所述第二图像检测模型的输出层，输出初始处理图像中目标区域的顶点坐标。

5.根据权利要求1所述的方法，其特征在于，所述文本初始检测模型包含：EAST模型以及与所述EAST模型的特征提取网络连接的字段域识别神经网络；其中，所述字段域识别神经网络用于基于所述EAST模型的特征提取网络的输出结果，进行字段域识别。

6.根据权利要求1所述的方法，其特征在于，所述将所述目标图像输入文本初始检测模型，得到所述目标图像中的字段域和字符框，包括：将所述目标图像输入文本初始检测模型，所述文本初始检测模型中的EAST模型的特征提取网络对输入的所述目标图像进行特征提取，得到所述目标图像的特征图；

将所述目标图像的特征图输入所述EAST模型的特征融合层，得到融合后的特征图，并将所述融合后的特征图输入所述EAST模型的输出层，得到所述目标图像中的字符框；

将所述目标图像的特征图输入与所述EAST模型的特征提取网络连接的字段域识别神经网络，输出所述目标图片的字段域检测结果。

7.根据权利要求6所述的方法，其特征在于，所述将所述目标图像的特征图输入与所述EAST模型的特征提取网络连接的字段域识别神经网络，输出所述目标图片的字段域检测结果，包括：

根据所述字段域识别神经网络的输入数据的格式要求，对所述将所述目标图像的特征图进行编码，得到编码数据；

将所述编码数据输入字段域识别神经网络，输出所述目标图片的字段域检测结果。

8.根据权利要求1所述的方法，其特征在于，则所述将所述目标图像输入文本初始检测模型，得到所述目标图像中的字段域和字符框，包括：将所述目标图像输入文本初始检测模型，输出所述目标图像中的初始字段域和初始字符框；

根据所述目标图像中各字段域与对应的字符框之间存在固定位置关系，对所述初始字段域和初始字符框进行修正得到字段域和字符框。

9.根据权利要求1所述的方法，其特征在于，将所述字段域输入字段识别模型，得到所述目标图像的字段识别结果，包括：将得到的所述目标图像中的字段域输入字段识别模型，所述字段识别模型通过增加注意力机制的卷积循环神经网络对所述目标图像中的字段域进行处理，得到所述目标图像的字段识别结果。

10.根据权利要求1所述的方法，其特征在于，所述将得到的所述目标图像中的字符框输入字符识别模型，得到所述目标图像的字符识别结果，包括：将得到的所述目标图像中的字符框输入字符识别模型，所述字符识别模型的空间变换网络对所述目标图像中的字符框进行空间变换，得到空间变换结果；

所述字符识别模型的分类网络对所述空间变换结果进行处理得到分类结果；

所述字符识别模型的输出层基于所述分类结果，输出所述目标图像的字符识别结果。

11.根据权利要求1‑10任一所述的方法，其特征在于，所述方法还包括：基于图像检测的目标任务，构建所述图像检测模型的各网络层；

基于字段域和字符框检测的目标任务，构建所述文本初始检测模型的各网络层；

基于字段识别的目标任务，构建所述字段识别模型的各网络层；

基于字符识别的目标任务，构建所述字符识别模型的各网络层；

训练所述构建的图像检测模型的各网络层、文本初始检测模型的各网络层、字段识别模型的各网络层以及字符识别模型的各网络层，得到所述图像检测模型、所述文本初始检测模型、所述字段识别模型以及所述字符识别模型。

12.根据权利要求11所述的方法，其特征在于，所述训练所述构建的图像检测模型的各网络层，文本初始检测模型的各网络层，字段识别模型的各网络层以及字符识别模型的各网络层，得到所述图像检测模型，所述文本初始检测模型，所述字段识别模型以及所述字符识别模型，包括：

获取多个训练图像，并基于所述多个训练图像构建第一训练样本；

将所述第一训练样本输入所述构建的图像检测模型，得到第一训练结果，并根据所述第一训练结果得到第二训练样本；

将所述第二训练样本输入所述构建的文本初始检测模型，得到第二训练结果，并根据所述第二训练结果得到第三训练样本；

将所述第三训练样本分别输入所述构建的字段识别模型以及字符识别模型，得到第三训练结果；

迭代执行所述将所述第一训练样本输入所述构建的图像检测模型至所述得到第三训练结果的各个步骤，直至所述构建的图像检测模型的各网络层、所述文本初始检测模型的各网络层、所述字段识别模型的各网络层以及所述字符识别模型的各网络层收敛。

13.一种图像识别装置，其特征在于，所述装置包括：图像检测模块，用于将获取的原始图像输入图像检测模型，并根据所述图像检测模型的输出结果得到目标图像；

文本初始检测模块，用于将所述目标图像输入文本初始检测模型，得到所述目标图像中的字段域和字符框；

字段识别模块，用于将所述字段域输入字段识别模型，得到所述目标图像的字段识别结果；

字符识别模块，用于将所述字符框输入字符识别模型，得到所述目标图像的字符识别结果；

结果生成模块，用于根据所述字段识别结果和所述字符识别结果得到图像的识别结果；

根据所述原始图像的特征图对所述原始图像进行修正，得到初始处理图像；

将所述初始处理图像输入第二图像检测模型，得到所述初始处理图像中目标区域的顶点坐标；

根据所述初始处理图像中目标区域的顶点坐标对所述初始处理图像进行修正，得到所述目标图像。

14.一种计算机设备，包括存储器及处理器，所述存储器上存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。

图像识别方法、装置、计算机设备和存储介质

技术领域

[0001] 本申请涉及计算机视觉技术领域，特别是涉及一种图像识别方法、装置、计算机设备和存储介质。

背景技术

[0002] 在出行、金融、保险和车辆等行业的业务中，经常会需要录入用户的驾驶证信息。随着计算机视觉的迅速发展，驾驶证信息录入也从以往的人工操作转变为自动识别，自动
识别可以极大压缩了驾驶证信息录入时间，同时还可以减小出错概率。

[0003] 然而，传统的驾驶证图像识别存在识别精度低的问题。

发明内容

[0004] 基于此，有必要针对上述技术问题，提供一种能够提高图像识别精度的图像识别方法、装置、计算机设备和存储介质。

[0005] 一种图像识别方法，所述方法包括：

[0006] 将原始图像输入图像检测模型，并根据所述图像检测模型的输出结果得到目标图像；

[0007] 将所述目标图像输入文本初始检测模型，得到所述目标图像中的字段域和字符框；

[0008] 将得到的所述目标图像中的字段域输入字段识别模型，得到所述目标图像的字段识别结果；

[0009] 将得到的所述目标图像中的字符框输入字符识别模型，得到所述目标图像的字符识别结果；

[0010] 根据所述字段识别结果和所述字符识别结果得到图像识别结果。

[0011] 作为一种可选地实施方式，所述图像检测模型包括第一图像检测模型和第二图像检测模型，所述将原始图像输入图像检测模型，并根据所述图像检测模型的输出结果得到
目标图像，包括：

[0012] 将所述原始图像输入第一图像检测模型，得到所述原始图像的特征图；

[0013] 根据所述原始图像的特征图对所述原始图像进行修正，得到初始处理图像；

[0014] 将所述初始处理图像输入第二图像检测模型，得到所述初始处理图像中目标区域的顶点坐标；

[0015] 根据所述初始处理图像中目标区域的顶点坐标对所述初始处理图像进行修正，得到目标图像。

[0016] 作为一种可选地实施方式，所述将所述原始图像输入第一图像检测模型，得到所述原始图像的特征图；根据所述原始图像的特征图对所述原始图像进行修正，得到初始处
理图像包括：

[0017] 将所述原始图像输入第一图像检测模型，通过所述第一图像检测模型中的特征金字塔网络对所述原始图像进行特征提取，得到所述原始图像中目标区域的热图和倾斜角度
图；

[0018] 根据所述原始图像中目标区域的热图和倾斜角度图对所述原始图像进行修正，得到初始处理图像。

[0019] 作为一种可选地实施方式，所述第二图像检测模型包括：特征提取网络以及与所述特征提取网络连接的输出层，其中，所述特征提取网络包括ResNet网络，和/或，ResNet‑
inception混合网络。

[0020] 作为一种可选地实施方式，若所述第二图像检测模型的特征提取层包括ResNet网络，则所述将所述初始处理图像输入第二图像检测模型，得到所述初始处理图像中目标区
域的顶点坐标包括：通过所述ResNet网络的ResNet block进行特征提取，得到特征提取结
果，并将所述特征提取结果输入所述第二图像检测模型的输出层，输出初始处理图像中目
标区域的顶点坐标；和/或，

[0021] 若所述第二图像检测模型的特征提取层包括ResNet‑inception混合网络，则所述将所述初始处理图像输入第二图像检测模型，得到所述初始处理图像中目标区域的顶点坐
标包括：通过所述ResNet‑inception混合网络的ResNet block和inception block进行特
征提取，得到特征提取结果，并将所述特征提取结果输入所述第二图像检测模型的输出层，
输出初始处理图像中目标区域的顶点坐标。

[0022] 作为一种可选地实施方式，所述文本初始检测模型包含：EAST模型以及与所述EAST模型的特征提取网络连接的字段域识别神经网络，其中，所述字段域识别神经网络用
于基于所述EAST模型的特征提取网络的输出结果，进行字段域识别。

[0023] 作为一种可选地实施方式，所述将所述目标图像输入文本初始检测模型，得到所述目标图像中的字段域和字符框，包括：

[0024] 将所述目标图像输入文本初始检测模型，所述文本初始检测模型中的EAST模型的特征提取网络对输入的所述目标图像进行特征提取，得到所述目标图像的特征图；

[0025] 将所述目标图像的特征图输入所述EAST模型的特征融合层，得到融合后的特征图，并将所述融合后的特征图输入所述EAST模型的输出层，得到所述目标图像中的字符框；

[0026] 将所述目标图像的特征图输入与所述EAST模型的特征提取网络连接的字段域识别神经网络，输出所述目标图片的字段域。

[0027] 作为一种可选地实施方式，所述将所述目标图像的特征图输入与所述EAST模型的特征提取网络连接的字段域识别神经网络，输出所述目标图片的字段域检测结果，包括：

[0028] 根据所述字段域识别神经网络的输入数据的格式要求，对所述将所述目标图像的特征图进行编码，得到编码数据；

[0029] 将所述编码数据输入字段域识别神经网络，输出所述目标图片的字段域检测结果。

[0030] 作为一种可选地实施方式，则所述将所述目标图像输入文本初始检测模型，得到所述目标图像中的字段域和字符框，包括：

[0031] 将所述目标图像输入文本初始检测模型，输出所述目标图像中的初始字段域和初始字符框；

[0032] 根据所述目标图像中各字段域与对应的字符框之间存在固定位置关系，对所述初始字段域和初始字符框进行修正得到所述目标图像中的字段域和字符框。

[0033] 作为一种可选地实施方式，将所述字段域输入字段识别模型，得到所述目标图像的字段识别结果，包括：

[0034] 将得到的所述目标图像中的字段域输入字段识别模型，所述字段识别模型通过增加注意力机制的卷积循环神经网络对所述目标图像中的字段域进行处理，得到所述目标图
像的字段识别结果。

[0035] 作为一种可选地实施方式，所述将得到的所述目标图像中的字符框输入字符识别模型，得到所述目标图像的字符识别结果，包括：

[0036] 将得到的所述目标图像中的字符框输入字符识别模型，所述字符识别模型的空间变换网络对所述目标图像中的字符框进行空间变换，得到空间变换结果；

[0037] 所述字符识别模型的分类网络对所述空间变换结果进行处理得到分类结果；

[0038] 所述字符识别模型的输出层基于所述分类结果，输出所述目标图像的字符识别结果。

[0039] 作为一种可选地实施方式，所述方法还包括：

[0040] 基于图像检测的目标任务，构建所述图像检测模型的各网络层；

[0041] 基于字段域和字符框检测的目标任务，构建所述文本初始检测模型的各网络层；

[0042] 基于字段识别的目标任务，构建所述字段识别模型的各网络层；

[0043] 基于字符识别的目标任务，构建所述字符识别模型的各网络层；

[0044] 训练所述构建的图像检测模型的各网络层，文本初始检测模型的各网络层，字段识别模型的各网络层以及字符识别模型的各网络层，得到图像检测模型，文本初始检测模
型，字段识别模型以及字符识别模型。

[0045] 作为一种可选地实施方式，所述训练所述构建的图像检测模型各网络层，文本初始检测模型各网络层，字段识别模型各网络层以及字符识别模型的各网络层，得到图像检
测模型，文本初始检测模型，字段识别模型以及字符识别模型，包括：

[0046] 获取多个训练图像，并基于所述多个训练图像构建第一训练样本；

[0047] 将所述第一训练样本输入所述构建的图像检测模型，得到第一训练结果，并根据所述第一训练结果得到第二训练样本；

[0048] 将所述第二训练样本输入所述构建的文本初始检测模型，得到第二训练结果，并根据所述第二训练结果得到第三训练样本；

[0049] 将所述第三训练样本分别输入所述构建的字段识别模型以及字符识别模型，得到第三训练结果；

[0050] 迭代执行所述将所述第一训练样本输入所述构建的图像检测模型至所述得到第三训练结果的各个步骤，直至所述构建的图像检测模型的各网络层、文本初始检测模型的
各网络层、字段识别模型的各网络层以及字符识别模型的各网络层收敛。

[0051] 一种图像识别装置，所述装置包括：

[0052] 图像检测模块，用于将获取的原始图像输入图像检测模型，并根据所述图像检测模型的输出结果得到目标图像；

[0053] 文本初始检测模块，用于将所述目标图像输入文本初始检测模型，得到所述目标图像中的字段域和字符框；

[0054] 字段识别模块，用于将所述字段域输入字段识别模型，得到所述目标图像的字段识别结果；

[0055] 字符识别模块，用于将所述字符框输入字符识别模型，得到所述目标图像的字符识别结果；

[0056] 结果生成模块，用于根据所述字段识别结果和所述字符识别结果得到图像的识别结果。

[0057] 一种计算机设备，包括存储器及处理器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

[0058] 将原始图像输入图像检测模型，并根据所述图像检测模型的输出结果得到目标图像；

[0059] 将所述目标图像输入文本初始检测模型，得到所述目标图像中的字段域和字符框；

[0060] 将得到的所述目标图像中的字段域输入字段识别模型，得到所述目标图像的字段识别结果；

[0061] 将得到的所述目标图像中的字符框输入字符识别模型，得到所述目标图像的字符识别结果；

[0062] 根据所述字段识别结果和所述字符识别结果得到图像识别结果。

[0063] 一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

[0064] 将原始图像输入图像检测模型，并根据所述图像检测模型的输出结果得到目标图像；

[0065] 将所述目标图像输入文本初始检测模型，得到所述目标图像中的字段域和字符框；

[0066] 将得到的所述目标图像中的字段域输入字段识别模型，得到所述目标图像的字段识别结果；

[0067] 将得到的所述目标图像中的字符框输入字符识别模型，得到所述目标图像的字符识别结果；

[0068] 根据所述字段识别结果和所述字符识别结果得到图像识别结果。

[0069] 上述图像识别方法、装置、计算机设备和存储介质，首先识别出原始图像中的目标图像，去除了原始图像中其他对识别结果的影响，之后对目标图像中的字段域和字符框同
时检测，并基于该字段域和字符框的检测结果进行字段识别和字符识别，该方法可以克服
在进行图像识别时，使用单一的识别手段得到的识别结果不准确的技术问题。

附图说明

[0070] 图1为一个实施例中图像识别方法的应用环境图；

[0071] 图2为一个实施例中图像识别方法的流程示意图；

[0072] 图3为一个实施例中获取目标图像的步骤的流程示意图；

[0073] 图4为另一个实施例中进行字段域和字符框检测的流程示意图；

[0074] 图5为一个实施例中图像识别方法补充步骤的流程示意图；

[0075] 图6为一个实施例中得到目标图像中的初始字段域和初始字符框的流程示意图；

[0076] 图7为一个实施例中图像识别方法补充步骤的流程示意图；

[0077] 图8为一个实施例中训练构建的模型的步骤的流程示意图；

[0078] 图9为一个实施例中一个合成的驾驶证图像；

[0079] 图10为一个实施例中图像识别装置的结构框图；

[0080] 图11为一个实施例中计算机设备的内部结构图。

具体实施方式

[0081] 为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不
用于限定本申请。

[0082] 本申请提供的图像的识别方法，可以应用于如图1所示的应用环境中。其中，处理器100、图像采集装置200以及终端设备300之间相互连接。该图像采集装置200用于原始图
像的采集，处理器100用于处理该原始图像，实现预设的目标任务，终端设备300用于用户输
入控制命令，实现人机交互。具体地，用户可以基于自身需求通过终端设备300输入控制命
令，该控制命令可以被发送至图像采集装置200或处理器100，图像采集装置200或处理器
100可以基于该控制命令执行相应的操作，例如实现图像采集的操作或者图像处理的操作。

[0083] 可选地，该控制命令可以为图像采集控制命令，用于控制图像采集装置200采集原始图像。该原始图像可以为包含驾驶证采集图像，身份证采集图像，护照采集图像或者准考
证采集图像等等。可选地，用户通过终端设备300输入控制命令可以为图像处理控制命令，
用以控制处理器执行相应的操作，对原始图像进行处理。进一步地，该控制命令还可以为其
他控制命令，例如输出图像的控制命令、删除当前图像的控制命令等等。该删除当前的图像
的控制命令可以被用于在图像采集装置采集的当前图像若不符合用户的期望时，通过终端
设备输入删除当前图像的控制命令以删除当前图像。

[0084] 可选地，该处理器100、图像采集装置200和终端设备300可以被配置为一体式终端，例如，各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等等。可
选地，该处理器100可以被配置为独立设备，此时，处理器100可以用独立的服务器或者是多
个服务器组成的服务器集群来实现。可选地，该独立设置的处理器可以被设置在云端。可选
地，该图像采集装置200也可以被配置为独立设备，例如可以为车载摄像头等等。

[0085] 可选地，该处理器100可以用以执行神经网络算法，以实现相应的神经网络的目标任务。可选地，该神经网络算法存储于存储器中，该存储器还可以存储待处理的数据，例如
图像采集装置采集的待处理的图像，例如驾驶证图像、护照图像、身份证图像等等待处理的
数据。处理器对该待处理的数据进行处理时，首先从存储器中读取该神经网络算法，之后运
行该算法对待处理的数据进行处理，实现预设的目标任务。该目标任务可以是图像的识别，
例如：人像识别、目标检测或者文本识别等等。

[0086] 需要说明的是，在上述应用场景中若处理器100需要执行的操作需要占用资源比较多，需运行的算法的数据运算量比较大，或者需要较快的运算效率时，可以考虑将处理器
100配置为设置在云端的服务器。相反，在处理器需执行的操作占用的资源较少或者需运行
的算法的数据运算量较小，则可以将个人计算机，智能手机等设备中的处理器配置为上述
应用场景中的处理器。同理，上述应用场景中的处理器100、图像采集装置200以及终端设备
300的具体配置可以基于实际需求和现有设备的配置进行设置，在此本申请不做限定。

[0087] 在一个实施例中，如图2所示，提供了一种图像识别方法，以该方法应用于图1中的应用环境为例进行说明，包括以下步骤：

[0088] 步骤S210，将原始图像输入图像检测模型，并根据所述图像检测模型的输出结果得到目标图像。

[0089] 其中，原始图像为图像采集设备获取到的未进行修正、裁剪的图像，该原始图像中可能包含目标图像和其他内容，该其他内容可以为原始图像中除目标图像以外的所有内
容。例如：采集的原始图像驾驶证图像(目标图片)和采集该驾驶证图像的背景图像(其他内
容)。目标图像为包含用户期望内容的图像。具体地，在获取原始图像后，将获取的原始图像
输入图像检测模型，处理器100首先运行图像检测模型的相关神经网络算法对原始图像进
行处理得到输出结果，之后处理器100根据所述图像检测模型的输出结果得到目标图像。

[0090] 可选地，该原始图像可以通过图像采集装置200获取。可选地，图像采集装置200在接收到图像采集控制命令后，基于该图像采集控制命令对应获取原始图像。可选地，用户可
以通过终端设备300输入该图像采集控制命令。可选地，在获取原始图像后，可以通过终端
设备300将该原始图像进行输出，用户可以通过输入的存储当前图像的控制命令、删除当前
图像的控制命令或者处理图像的控制命令，实现对图像进行存储、删除或者处理的操作。

[0091] 可选地，图像检测模型的输出结果可以为目标图像的轮廓检测结果，或者目标图像的区域热图等等。处理器100可以基于该输出结果去除原始图像中除目标图像以外的内
容，得到目标图像。根据该输出结果对原始图像进行修正可以有效的修正图像中的倾斜角
度，可以降低后续步骤由于倾斜对的识别结果的影响，提高识别准确率。

[0092] 步骤S220，将目标图像输入文本初始检测模型，得到目标图像中的字段域和字符框。

[0093] 具体地，将目标图像输入文本初始检测模型，处理器100运行文本初始检测模型的相关神经网络算法，处理该目标图像得到目标图像中的字段域和字符框。该文本初始检测
模型可以基于输入的目标图像，输出目标图像中的字段域和字符框。可选地，该文本初始检
测模型还可以输出检测到的字段域的顶点，并根据输出的顶点确定检测的字段域的位置。
可选地，在某些字段域数目固定的目标图像的检测过程中，该文本初始检测模型还可以输
出检测到的字段域的顶点数目，此时，可以基于该顶点数目与字段域数目的对应关系，确定
是否检测出目标图像中全部的字段域，或者判断检测出的字段域是否准确。例如：驾驶证图
像中字段域的总数目为固定数值，此时文本初始检测模型输出的检测到的字段域的顶点数
目为：字段域总数*4。

[0094] 需要说明的是，若步骤S210得到的目标图片的格式与步骤S220中文本初始检测模型的输入数据的格式要求不一致，此时，需要根据文本初始检测模型的输入数据的格式要
求对目标图片进行格式转换，以使文本初始检测模型可以对输入的目标图片进行神经网络
运算，得到目标图像中的字段域和字符框。

[0095] 步骤S230，将得到的所述目标图像中的字段域输入字段识别模型，得到目标图像的字段识别结果。

[0096] 具体地，将得到的所述目标图像中的字段域输入字段识别模型，处理器100运行字段识别模型的相关神经网络算法对输入的字段域进行处理，得到目标图像的字段识别结
果。可选地，该字段识别模型包含注意力机制的神经网络。该网络可以更加快速有效的进行
字段识别。

[0097] 需要说明的是，若步骤S220得到的字段域的格式与步骤S230中字段识别模型的输入数据的格式要求不一致，此时，需要根据字段识别模型的输入数据的格式要求对字段域
进行格式转换(例如编译)，以使字段识别模型可以对输入的字段域进行神经网络运算，得
到目标图像中的字段识别结果。

[0098] 步骤S240，将得到的所述目标图像中的字符框输入字符识别模型，得到目标图像的字符识别结果。

[0099] 具体地，将字符输入字符识别模型，处理器100运行字符识别模型的相关神经网络算法对输入的字符进行处理，得到目标图像的字符识别结果。可选地，该字符识别模型可以
包含空间变换网络和分类网络，所述空间变换网络的输出为所述分类网络的输入。该模型
通过空间变换网络增加了神经网络的宽度，使字符识别结果更加准确。

[0100] 需要说明的是，若步骤S220得到的字符框的格式与步骤S240中字符识别模型的输入数据的格式要求不一致，此时，需要根据字符识别模型的输入数据的格式要求对字符框
进行格式转换(例如编译)，以使字符识别模型可以对输入的字符框进行神经网络运算，得
到目标图像中的字符识别结果。

[0101] 步骤S250：根据字段识别结果和字符识别结果得到图像识别结果。

[0102] 具体地，处理器100根据字段识别结果和字符识别结果得到图像识别结果。可选地，处理器100可以目标图像中各位置上内容的类型，确定目标图像的各个字段域使用字符
识别结果还是字段识别结果组成图像识别结果。例如：在目标图像为驾驶证图像时，可以使
用字符识别结果作为驾驶证持证人姓名这一字段域的识别结果，可以使用字段识别结果作
为驾驶证持证人出生日期这一字段域的识别结果。可选地，处理器100还可以综合目标图像
中各位置上内容的字符识别结果和字段识别结果，最终得到图像识别结果。

[0103] 上述图像识别方法中，首先识别出原始图像中的目标图像，去除了原始图像中其他对识别结果的影响，之后对目标图像中的字段域和字符框同时检测，并基于该字段域和
字符框的检测结果进行字段识别和字符识别，该方法可以克服在进行图像识别时，使用单
一的识别手段得到的识别结果不准确的技术问题。

[0104] 在其中一个实施例中，上述实施例中的图像检测模型包括第一图像检测模型和第二图像检测模型，此时，如图3所示，步骤210，包括：

[0105] 步骤211，将原始图像输入第一图像检测模型，得到原始图像的特征图。

[0106] 具体地，将原始图像输入第一图像检测模型，处理器100运行该第一图像检测模型的相关神经网络算法对原始图像进行处理，输出原始的特征图。可选地，该第一图像检测模
型可以包含用于特征提取的神经网络，例如特征金字塔网络(feature pyramid network，
FNP)。FPN可以通过简单的网络连接改变，解决目标检测中的多尺度问题，其可以在基本不
增加原有模型计算量情况下，大幅度提升了较小目标检测的性能。

[0107] 步骤212，根据原始图像的特征图对原始图像进行修正，得到初始处理图像。

[0108] 具体地，处理器100根据原始图像的特征图对原始图像进行修正，得到初始处理图像。可选地，处理器100基于第一图像检测模型输出的特征图旋转以修正原始图像，得到初
始处理图像。可选地，还可以对原始图像的特征图进行裁剪操作，以去除原始图像的特征图
包含除目标内容以外的其他内容，得到初始处理图像。进一步地，处理器100也可以根据设
置对得到的初始处理图像进行清晰度、亮度的调整。根据该特征图对原始图像进行修正可
以有效的修正图像中的倾斜角度，可以降低后续步骤由于倾斜对的识别结果的影响，提高
识别准确率。

[0109] 步骤213，将初始处理图像输入第二图像检测模型，得到初始处理图像中目标区域的顶点坐标。

[0110] 具体地，将初始处理图像输入第二图像检测模型，处理器100运行该第二图像检测模型的相关神经网络算法对初始处理图像进行处理，输出初始处理图像中目标区域的顶点
坐标。

[0111] 可选地，该第二图像检测模型可以包含特征提取网络以及与所述特征提取网络连接的输出层。该特征提取网络可以包含交替连接的多个卷积层和多个池化层，用于对初始
处理图像进行特征提取，该输出层用于基于特征提取网络输出的特征提取结果输出初始处
理图像中目标区域的顶点坐标。

[0112] 可选地，该特征提取网络可以包括：ResNet(残差网络)，和/或，ResNet‑inception混合网络。该ResNet包含多个ResNet block(残差块)，该ResNet‑inception混合网络包括
多个ResNet block和inception block(inception块)。其中，ResNet为在深度神经网络
(Deep Neural Network,DNN)的间隔的网络层之间增加跳跃连接得到的神经网络结构。跳
跃连接之间的网络层构成一个ResNet block。ResNets有助于解决深度神经网络DNN的梯度
消失和梯度爆炸问题，可以保证在训练更深网络的同时，又能拥有良好的性能。其中，
Inception网络包含多个Inception block。Inception block可以并行计算同一输入映射
上的多个不同变换，并将它们的结果都连接成一个单一输出。这可以有效的减少在增加神
经网络(例如卷积神经网络，CNN)的宽度时，过拟合和自由参数增加的问题。

[0113] 步骤214，根据初始处理图像中目标区域的顶点坐标对初始处理图像进行修正，得到目标图像。

[0114] 具体地，处理器100根据初始处理图像中目标区域的顶点坐标对初始处理图像进行修正，得到目标图像。可选地，可以通过旋转进行初始处理图像的修正。可选地，还可以对
初始处理图像进行裁剪操作，以去除初始处理图像包含除目标内容以外的其他内容，得到
目标图像。进一步地，处理器100也可以根据设置对得到的目标图像进行清晰度、亮度的调
整。根据该初始处理图像中目标区域的顶点坐标对初始处理图像进行修正可以有效的修正
图像中的倾斜角度，可以降低后续步骤由于倾斜对的识别结果的影响，提高识别准确率。

[0115] 本实施例提出的获取原始图像中目标图像的方法，得到的目标图像更加精确。

[0116] 在其中一个实施例中，步骤S211包括：将所述原始图像输入第一图像检测模型，通过所述第一图像检测模型中的特征金字塔网络对所述原始图像进行特征提取，得到所述原
始图像中目标区域的热图和倾斜角度图。步骤S212包括：根据所述原始图像中目标区域的
热图和倾斜角度图对所述原始图像进行修正，得到初始处理图像。

[0117] 本实施例中选择使用原始图像中目标区域的热图和倾斜角度图作为原始图像的特征图，可以更加有效精细的处理原始图片，得到初始处理图像。

[0118] 在其中一个实施例中，第二图像检测模型的特征提取网络包含ResNet网络，此时，此时，步骤S213包括：通过所述ResNet网络的ResNet block进行特征提取，得到特征提取结
果，并将所述特征提取结果输入所述第二图像检测模型的输出层，输出初始处理图像中目
标区域的顶点坐标。

[0119] 本实施例中的第二图像检测模型应用ResNet网络有助于解决深度神经网络DNN的梯度消失和梯度爆炸问题，可以保证在训练更深网络，同时又能拥有良好的性能。

[0120] 在另一个可选地实施例中，第二图像检测模型的特征提取层包括ResNet‑inception混合网络，此时，步骤S213包括：通过所述ResNet‑inception混合网络的ResNet
block和inception block进行特征提取，得到特征提取结果，并将所述特征提取结果输入
所述第二图像检测模型的输出层，输出初始处理图像中目标区域的顶点坐标。

[0121] 本实施例中的第二图像检测模型既应用ResNets网络解决深度神经网络DNN的梯度消失和梯度爆炸问题，保证模型拥有良好的性能，同时可以有效的减少在增加神经网络
(例如卷积神经网络，CNN)的宽度时，过拟合和自由参数增加的问题。

[0122] 在其中一个实施例中，进行字段域和字符框识别的文本初始检测模型包含：EAST(Efficient and Accuracy Scene Text detection，高效准确的场景文件检测模型)模型
和与EAST模型的特征提取网络连接的字段域识别神经网络。该字段域识别神经网络用于基
于所述EAST模型的特征提取网络的输出结果，进行字段域识别。可选地，该字段域识别神经
网络可以包含卷基层和全连接层。例如该多层神经网络可以包含多个卷积层和一个全连接
层。可选地，可以先编码EAST的FNP的输出结果，之后再将编码结果输入后续的多层神经网
络，得到目标图像的字段域识别结果。可选地，该文本初始检测模型除了可以基于输入的目
标图像输出识别出的字符框和字段域外，还可以输出目标图像中的字段域的数量。字段域
的数量可以用于模型输出结果的校验与调整。

[0123] 在其中一个实施例中，如图4所示，文本初始检测模型包含：EAST模型以及字段域识别神经网络时，步骤S220，包括：

[0124] S221a：将目标图像输入文本初始检测模型，该文本初始检测模型中的EAST模型的特征提取网络对输入的目标图像进行特征提取，得到目标图像的特征图。

[0125] S222a：将目标图像的特征图输入EAST模型的特征融合层，得到融合后的特征图，并将该融合后的特征图输入所述EAST模型的输出层，得到所述目标图像中的字符框。

[0126] S223a：将目标图像的特征图输入与EAST模型的特征提取网络连接的字段域识别神经网络，输出所述目标图片的字段域。

[0127] 本实施例提出的文本初始检测模型可以同时对目标图像的字符框和字段域的进行识别，且字段域的识别利用了字符框原有模型(EAST模型)的特征提取结果，无需进行两
次的特征提取，大大的提高了目标图像中字符框和字段域的检测效率。

[0128] 在其中一个实施例中，如图5所示，步骤S223a，包括：

[0129] S2231a：根据所述字段域识别神经网络的输入数据的格式要求，对所述将所述目标图像的特征图进行编码，得到编码数据。

[0130] S2232a：将所述编码数据输入字段域识别神经网络，输出所述目标图片的字段域检测结果。

[0131] 本实施例的方法，基于字段域识别神经网络的输入数据的格式要求编码目标图像的特征图，可以使在构建的字段域识别神经网络要求的输入数据与得到的目标图像的特征
图的格式不匹配时，使用该构建的字段域识别神经网络，增加了该字段域识别神经网络的
通用性。

[0132] 在其中一个可选地实施例中，如图6所示，步骤S220，包括：

[0133] 步骤S221b：将目标图像输入文本初始检测模型，输出目标图像中的初始字段域和初始字符框。

[0134] 具体地，将目标图像输入文本初始检测模型，处理器100运行该字段域和字符框检测模的相关神经网络算法对目标图像进行处理，输出目标图像中的初始字段域和初始字符
框。

[0135] 步骤S222b：根据目标图像中各字段域与对应的字符框之间存在固定位置关系，对初始字段域和初始字符框进行修正得到所述目标图像中的字段域和字符框。

[0136] 具体地，若目标图像中各字段域与对应的字符框之间存在固定位置关系，对初始字段域和初始字符框进行修正得到字段域和字符框。在某些特殊的目标检测，例如驾驶证
图像检测，护照图像检测等场景下，这些图像的字段域与字符框本身存在隐含的固定位置
关系，处理器可以基于这些固定的位置关系对检测出的字符框和/或字段域进行修正，以得
到更理想的字符识别模型和/或字段识别模型的输入数据。例如可以修正驾证图像中某些
倾斜的。

[0137] 上述实施例得到的字段域与字符框作为字符识别模型和/或字段识别模型的输入数据时，可以获得更加准确的字符和/或字段识别结果。

[0138] 在其中一个实施例中，步骤S230包括：将得到的目标图像中的字段域输入字段识别模型，字段识别模型通过增加注意力机制的卷积循环神经网络(CRNN，convoltional
recurrent neural network)对目标图像中的字段域进行处理，得到目标图像的字段识别
结果。其中，CRNN包括前半部分是卷积层和后半部分是循环神经网络。

[0139] 本实施的方法通过在卷积循环神经网络增加注意力机制，可以更有效的得到目标图像的字段识别结果。

[0140] 在其中一个实施例中，步骤S240包括：将得到的目标图像中的字符框输入字符识别模型，字符识别模型的空间变换网络对目标图像中的字符框进行空间变换，得到空间变
换结果；字符识别模型的分类网络对空间变换结果进行处理得到分类结果；字符识别模型
的输出层基于分类结果，输出目标图像的字符识别结果。

[0141] 本实施的方法通过空间变换网络，可以在得到的字符框识别结果稀疏时，准确有效的识别目标图像的字符。

[0142] 在其中一个实施例中，如图7所示，在步骤S210之前还包括：

[0143] 步骤S260，基于图像检测的目标任务，构建所述图像检测模型的各网络层。

[0144] 步骤S270，基于字段域和字符框检测的目标任务，构建所述文本初始检测模型的各网络层。

[0145] 步骤S280，基于字段识别的目标任务，构建所述字段识别模型的各网络层，基于字符识别的目标任务，构建所述字符识别模型的各网络层。

[0146] 步骤S290，训练所述构建的图像检测模型的各网络层，文本初始检测模型的各网络层，字段识别模型的各网络层以及字符识别模型的各网络层，得到图像检测模型，文本初
始检测模型，字段识别模型以及字符识别模型。

[0147] 具体地，首先基于最终的目标任务图像的识别划分多个目标任务，该多个目标任务可以包括：图像检测、字段域和字符框检测、字段识别以及字符识别。之后，基于各个目标
任务构建神经网络模型，得到各个神经网络模型的神经网络层，即完成神经网络模型的神
经网络构建。最后，训练构建的各个网络模型，使其神经网络收敛。

[0148] 本实施例的目标任务设置合理，因此得到的各个神经网络模型的数据处理效率高，得到的图像识别结果准确。

[0149] 在其中一个实施例中，如图8所示，上述步骤S290，包括：

[0150] 步骤S291，获取多个训练图像，并基于多个训练图像构建第一训练样本。可选地，可以人工合成多个训练图像，如图9所示为一个合成的驾驶证图像的示例，其可以被作为训
练图像。可选地，可以有目的根据构建的各个神经网络模型的训练有针对的进行训练图像
的合成。在合成训练图像的过程中还可以基于合成的训练图像的图像类型进行大数据分
析，根据大数据的分析结果有目标的进行训练图像的合成。需要说明的是，再合成训练图像
时，应尽量合成包含多个特征的图像。例如可以统计合成的训练图像中包含的特征，并针对
各个特征进行统计分析，基于统计分析结果进行训练图像的合成。

[0151] 步骤S292，将所述第一训练样本输入所述构建的图像检测模型，得到第一训练结果，并根据所述第一训练结果得到第二训练样本。

[0152] 步骤S293，将所述第二训练样本输入所述构建的文本初始检测模型，得到第二训练结果，并根据所述第二训练结果得到第三训练样本。

[0153] 步骤S294，将所述第三训练样本分别输入所述构建的字段识别模型以及字符识别模型，得到第三训练结果。

[0154] 步骤S295，迭代执行步骤S292‑S294，直至构建的图像检测模型的各网络层，文本初始检测模型的各网络层，字段识别模型的各网络层以及字符识别模型的各网络层收敛。

[0155] 本实施的模型训练使用的合成的训练图像，可以有效的加速神经网络模型的各神经网络层的收敛，提高训练效率。

[0156] 应该理解的是，虽然图2‑8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤
的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2‑8中的至少一
部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻
执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次
进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地
执行。

[0157] 在一个实施例中，如图10所示，提供了一种图像识别装置，包括：

[0158] 图像检测模块101，用于将原始图像输入图像检测模型，并根据所述图像检测模型的输出结果得到目标图像。

[0159] 文本初始检测模块102，用于将所述目标图像输入文本初始检测模型，得到所述目标图像中的字段域和字符框。

[0160] 字段识别模块103，用于将所述字段域输入字段识别模型，得到所述目标图像的字段识别结果。

[0161] 字符识别模块104，用于将所述字符框输入字符识别模型，得到所述目标图像的字符识别结果。

[0162] 结果生成模块105，用于根据所述字段识别结果和所述字符识别结果得到图像的识别结果。

[0163] 在其中一个实施例中，目标图像检测模块101，具体用于将所述原始图像输入第一图像检测模型，得到所述原始图像的特征图；根据所述原始图像的特征图对所述原始图像
进行修正，得到初始处理图像；将所述初始处理图像输入第二图像检测模型，得到所述初始
处理图像中目标区域的顶点坐标；根据所述初始处理图像中目标区域的顶点坐标对所述初
始处理图像进行修正，得到目标图像。

[0164] 在其中一个实施例中，在上述实施例中的图像检测模型包括第一图像检测模型和第二图像检测模型时，目标图像检测模块101，具体用于将所述原始图像输入第一图像检测
模型，通过所述第一图像检测模型中的特征金字塔网络对所述原始图像进行特征提取，得
到所述原始图像中目标区域的热图和倾斜角度图；根据所述原始图像中目标区域的热图和
倾斜角度图对所述原始图像进行修正，得到初始处理图像。

[0165] 在其中一个实施例中，目标图像检测模块101，具体用于通过所述ResNet网络的ResNet block进行特征提取，得到特征提取结果，并将所述特征提取结果输入所述第二图
像检测模型的输出层，输出初始处理图像中目标区域的顶点坐标；和/或，通过所述ResNet‑
inception混合网络的ResNet block和inception block进行特征提取，得到特征提取结
果，并将所述特征提取结果输入所述第二图像检测模型的输出层，输出初始处理图像中目
标区域的顶点坐标。

[0166] 在其中一个实施例中，文本初始检测模块102，具体用于将所述目标图像输入文本初始检测模型，所述文本初始检测模型中的EAST模型的特征提取网络对输入的所述目标图
像进行特征提取，得到所述目标图像的特征图；将所述目标图像的特征图输入所述EAST模
型的特征融合层，得到融合后的特征图，并将所述融合后的特征图输入所述EAST模型的输
出层，得到所述目标图像中的字符框；将所述目标图像的特征图输入与所述EAST模型的特
征提取网络连接的字段域识别神经网络，输出所述目标图片的字段域。

[0167] 在其中一个实施例中，文本初始检测模块102，具体用于根据所述字段域识别神经网络的输入数据的格式要求，对所述将所述目标图像的特征图进行编码，得到编码数据；将
所述编码数据输入字段域识别神经网络，输出所述目标图片的字段域检测结果。

[0168] 在其中一个实施例中，文本初始检测模块102，具体用于将所述目标图像输入文本初始检测模型，输出所述目标图像中的初始字段域和初始字符框；根据所述目标图像中各
字段域与对应的字符框之间存在固定位置关系，对所述初始字段域和初始字符框进行修正
得到所述目标图像中的字段域和字符框。

[0169] 在其中一个实施例中，字段识别模块103，具体用于将得到的所述目标图像中的字段域输入字段识别模型，所述字段识别模型通过增加注意力机制的卷积循环神经网络对所
述目标图像中的字段域进行处理，得到所述目标图像的字段识别结果。

[0170] 在其中一个实施例中，字符识别模块104，具体用于将得到的所述目标图像中的字符框输入字符识别模型，所述字符识别模型的空间变换网络对所述目标图像中的字符框进
行空间变换，得到空间变换结果；所述字符识别模型的分类网络对所述空间变换结果进行
处理得到分类结果；所述字符识别模型的输出层基于所述分类结果，输出所述目标图像的
字符识别结果。

[0171] 关于图像识别装置的具体限定可以参见上文中对于图像识别方法的限定，在此不再赘述。上述图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上
述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储
于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

[0172] 在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显
示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的
存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机
程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计
算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时
以实现一种图像识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示
屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上
设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

[0173] 本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设
备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

[0174] 在一个实施例中，提供了一种计算机设备，包括存储器及处理器，所述存储器上存储有可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：将原始图
像输入图像检测模型，并根据所述图像检测模型的输出结果得到目标图像；将所述目标图
像输入文本初始检测模型，得到所述目标图像中的字段域和字符框；将得到的所述目标图
像中的字段域输入字段识别模型，得到所述目标图像的字段识别结果；将得到的所述目标
图像中的字符框输入字符识别模型，得到所述目标图像的字符识别结果；根据所述字段识
别结果和所述字符识别结果得到图像识别结果。

[0175] 在一个实施例中，在上述实施例中的图像检测模型包括第一图像检测模型和第二图像检测模型时，处理器执行计算机程序时具体实现以下步骤：将所述原始图像输入第一
图像检测模型，得到所述原始图像的特征图；根据所述原始图像的特征图对所述原始图像
进行修正，得到初始处理图像；将所述初始处理图像输入第二图像检测模型，得到所述初始
处理图像中目标区域的顶点坐标；根据所述初始处理图像中目标区域的顶点坐标对所述初
始处理图像进行修正，得到目标图像。

[0176] 在一个实施例中，处理器执行计算机程序时具体实现以下步骤：将所述原始图像输入第一图像检测模型，通过所述第一图像检测模型中的特征金字塔网络对所述原始图像
进行特征提取，得到所述原始图像中目标区域的热图和倾斜角度图；根据所述原始图像中
目标区域的热图和倾斜角度图对所述原始图像进行修正，得到初始处理图像。

[0177] 在一个实施例中，处理器执行计算机程序时具体实现以下步骤：通过所述ResNet网络的ResNet block进行特征提取，得到特征提取结果，并将所述特征提取结果输入所述
第二图像检测模型的输出层，输出初始处理图像中目标区域的顶点坐标；和/或，通过所述
ResNet‑inception混合网络的ResNet block和inception block进行特征提取，得到特征
提取结果，并将所述特征提取结果输入所述第二图像检测模型的输出层，输出初始处理图
像中目标区域的顶点坐标。

[0178] 在一个实施例中，处理器执行计算机程序时具体实现以下步骤：将所述目标图像输入文本初始检测模型，所述文本初始检测模型中的EAST模型的特征提取网络对输入的所
述目标图像进行特征提取，得到所述目标图像的特征图；将所述目标图像的特征图输入所
述EAST模型的特征融合层，得到融合后的特征图，并将所述融合后的特征图输入所述EAST
模型的输出层，得到所述目标图像中的字符框；将所述目标图像的特征图输入与所述EAST
模型的特征提取网络连接的字段域识别神经网络，输出所述目标图片的字段域。

[0179] 在一个实施例中，处理器执行计算机程序时具体实现以下步骤：根据所述字段域识别神经网络的输入数据的格式要求，对所述将所述目标图像的特征图进行编码，得到编
码数据；将所述编码数据输入字段域识别神经网络，输出所述目标图片的字段域检测结果。

[0180] 在一个实施例中，处理器执行计算机程序时具体实现以下步骤：将所述目标图像输入文本初始检测模型，输出所述目标图像中的初始字段域和初始字符框；根据所述目标
图像中各字段域与对应的字符框之间存在固定位置关系，对所述初始字段域和初始字符框
进行修正得到所述目标图像中的字段域和字符框。

[0181] 在一个实施例中，处理器执行计算机程序时具体实现以下步骤：将得到的所述目标图像中的字段域输入字段识别模型，所述字段识别模型通过增加注意力机制的卷积循环
神经网络对所述目标图像中的字段域进行处理，得到所述目标图像的字段识别结果。

[0182] 在一个实施例中，处理器执行计算机程序时具体实现以下步骤：将得到的所述目标图像中的字符框输入字符识别模型，所述字符识别模型的空间变换网络对所述目标图像
中的字符框进行空间变换，得到空间变换结果；所述字符识别模型的分类网络对所述空间
变换结果进行处理得到分类结果；所述字符识别模型的输出层基于所述分类结果，输出所
述目标图像的字符识别结果。

[0183] 在一个实施例中，处理器执行计算机程序时还实现以下步骤：训练所述构建的图像检测模型的各网络层，文本初始检测模型的各网络层，字段识别模型的各网络层以及字
符识别模型的各网络层，得到图像检测模型，文本初始检测模型，字段识别模型以及字符识
别模型；其中，所述图像检测模型基于图像检测的目标任务构建，所述文本初始检测模型基
于字段域和字符框检测的目标任务构建，所述字段识别模型基于字段识别的目标任务构
建，所述字符识别模型基于字符识别的目标任务构建。

[0184] 在一个实施例中，处理器执行计算机程序时具体实现以下步骤：将所述第一训练样本输入所述构建的图像检测模型，得到第一训练结果，并根据所述第一训练结果得到第
二训练样本；将所述第二训练样本输入所述构建的文本初始检测模型，得到第二训练结果，
并根据所述第二训练结果得到第三训练样本；将所述第三训练样本分别输入所述构建的字
段识别模型以及字符识别模型，得到第三训练结果；迭代执行所述将所述第一训练样本输
入所述构建的图像检测模型至所述得到第三训练结果的各个步骤，直至所述构建的图像检
测模型的各网络层，文本初始检测模型的各网络层，字段识别模型的各网络层以及字符识
别模型的各网络层收敛。

[0185] 在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：将原始图像输入图像检测模型，并根据所述图像检
测模型的输出结果得到目标图像；将所述目标图像输入文本初始检测模型，得到所述目标
图像中的字段域和字符框；将得到的所述目标图像中的字段域输入字段识别模型，得到所
述目标图像的字段识别结果；将得到的所述目标图像中的字符框输入字符识别模型，得到
所述目标图像的字符识别结果；根据所述字段识别结果和所述字符识别结果得到图像识别
结果。

[0186] 在一个实施例中，在上述实施例中的图像检测模型包括第一图像检测模型和第二图像检测模型时，计算机程序被处理器执行时具体实现以下步骤：将所述原始图像输入第
一图像检测模型，得到所述原始图像的特征图；根据所述原始图像的特征图对所述原始图
像进行修正，得到初始处理图像；将所述初始处理图像输入第二图像检测模型，得到所述初
始处理图像中目标区域的顶点坐标；根据所述初始处理图像中目标区域的顶点坐标对所述
初始处理图像进行修正，得到目标图像。

[0187] 在一个实施例中，计算机程序被处理器执行时具体实现以下步骤：将所述原始图像输入第一图像检测模型，所述第一图像检测模型通过特征金字塔网络对所述原始图像进
行特征提取，得到所述原始图像中目标区域的热图和倾斜角度图；根据所述原始图像中目
标区域的热图和倾斜角度图对所述原始图像进行修正，得到初始处理图像。

[0188] 在一个实施例中，计算机程序被处理器执行时具体实现以下步骤：通过所述ResNet网络的ResNet block进行特征提取，得到特征提取结果，并将所述特征提取结果输
入所述第二图像检测模型的输出层，输出初始处理图像中目标区域的顶点坐标；和/或，通
过所述ResNet‑inception混合网络的ResNet block和inception block进行特征提取，得
到特征提取结果，并将所述特征提取结果输入所述第二图像检测模型的输出层，输出初始
处理图像中目标区域的顶点坐标。

[0189] 在一个实施例中，计算机程序被处理器执行时具体实现以下步骤：将所述目标图像输入文本初始检测模型，所述文本初始检测模型中的EAST模型的特征提取网络对输入的
所述目标图像进行特征提取，得到所述目标图像的特征图；将所述目标图像的特征图输入
所述EAST模型的特征融合层，得到融合后的特征图，并将所述融合后的特征图输入所述
EAST模型的输出层，得到所述目标图像中的字符框；将所述目标图像的特征图输入与所述
EAST模型的特征提取网络连接的字段域识别神经网络，输出所述目标图片的字段域。

[0190] 在一个实施例中，计算机程序被处理器执行时具体实现以下步骤：根据所述字段域识别神经网络的输入数据的格式要求，对所述将所述目标图像的特征图进行编码，得到
编码数据；将所述编码数据输入字段域识别神经网络，输出所述目标图片的字段域检测结
果。

[0191] 在一个实施例中，计算机程序被处理器执行时具体实现以下步骤：将所述目标图像输入文本初始检测模型，输出所述目标图像中的初始字段域和初始字符框；根据所述目
标图像中各字段域与对应的字符框之间存在固定位置关系，对所述初始字段域和初始字符
框进行修正得到所述目标图像中的字段域和字符框。

[0192] 在一个实施例中，计算机程序被处理器执行时具体实现以下步骤：将得到的所述目标图像中的字段域输入字段识别模型，所述字段识别模型通过增加注意力机制的卷积循
环神经网络对所述目标图像中的字段域进行处理，得到所述目标图像的字段识别结果。

[0193] 在一个实施例中，计算机程序被处理器执行时具体实现以下步骤：将得到的所述目标图像中的字符框输入字符识别模型，所述字符识别模型的空间变换网络对所述目标图
像中的字符框进行空间变换，得到空间变换结果；所述字符识别模型的分类网络对所述空
间变换结果进行处理得到分类结果；所述字符识别模型的输出层基于所述分类结果，输出
所述目标图像的字符识别结果。

[0194] 在一个实施例中，计算机程序被处理器执行时还实现以下步骤：训练所述构建的图像检测模型的各网络层，文本初始检测模型的各网络层，字段识别模型的各网络层以及
字符识别模型的各网络层，得到图像检测模型，文本初始检测模型，字段识别模型以及字符
识别模型；其中，所述图像检测模型基于图像检测的目标任务构建，所述文本初始检测模型
基于字段域和字符框检测的目标任务构建，所述字段识别模型基于字段识别的目标任务构
建，所述字符识别模型基于字符识别的目标任务构建。

[0195] 在一个实施例中，计算机程序被处理器执行时具体实现以下步骤：将所述第一训练样本输入所述构建的图像检测模型，得到第一训练结果，并根据所述第一训练结果得到
第二训练样本；将所述第二训练样本输入所述构建的文本初始检测模型，得到第二训练结
果，并根据所述第二训练结果得到第三训练样本；将所述第三训练样本分别输入所述构建
的字段识别模型以及字符识别模型，得到第三训练结果；迭代执行所述将所述第一训练样
本输入所述构建的图像检测模型至所述得到第三训练结果的各个步骤，直至所述构建的图
像检测模型的各网络层，文本初始检测模型的各网络层，字段识别模型的各网络层以及字
符识别模型的各网络层收敛。

[0196] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机
可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，
本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可
包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM
(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括
随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，
诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强
型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM
(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

[0197] 以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛
盾，都应当认为是本说明书记载的范围。

[0198] 以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来
说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护
范围。因此，本申请专利的保护范围应以所附权利要求为准。

图像识别方法、装置、计算机设备和存储介质转让专利

申请号 : CN201811625431.1

文献号 : CN109886077B

文献日 : 2021-07-09

基本信息: 请登录后查看

PDF: 请登录后查看

法律信息: 请登录后查看

相似专利: 请登录后查看

发明人 : 张健 , 万昭祎 , 贺欣

申请人 : 北京旷视科技有限公司

摘要 :

权利要求 :

说明书 :