图像识别方法、装置、计算机设备和存储介质转让专利
申请号 : CN201811625431.1
文献号 : CN109886077B
文献日 : 2021-07-09
发明人 : 张健 , 万昭祎 , 贺欣
申请人 : 北京旷视科技有限公司
摘要 :
权利要求 :
1.一种图像识别方法,其特征在于,所述方法包括:将原始图像输入图像检测模型,并根据所述图像检测模型的输出结果得到目标图像;
将所述目标图像输入文本初始检测模型,得到所述目标图像中的字段域和字符框;
将得到的所述目标图像中的字段域输入字段识别模型,得到所述目标图像的字段识别结果;
将得到的所述目标图像中的字符框输入字符识别模型,得到所述目标图像的字符识别结果;
根据所述字段识别结果和所述字符识别结果得到图像识别结果;
所述图像检测模型包括第一图像检测模型和第二图像检测模型,所述将原始图像输入图像检测模型,并根据所述图像检测模型的输出结果得到目标图像,包括:将所述原始图像输入第一图像检测模型,得到所述原始图像的特征图;
根据所述原始图像的特征图对所述原始图像进行修正,得到初始处理图像;
将所述初始处理图像输入第二图像检测模型,得到所述初始处理图像中目标区域的顶点坐标;
根据所述初始处理图像中目标区域的顶点坐标对所述初始处理图像进行修正,得到所述目标图像。
2.根据权利要求1所述的方法,其特征在于,所述将所述原始图像输入第一图像检测模型,得到所述原始图像的特征图;根据所述原始图像的特征图对所述原始图像进行修正,得到初始处理图像包括:
将所述原始图像输入所述第一图像检测模型,通过所述第一图像检测模型中的特征金字塔网络对所述原始图像进行特征提取,得到所述原始图像中目标区域的热图和倾斜角度图;
根据所述原始图像中目标区域的热图和倾斜角度图对所述原始图像进行修正,得到初始处理图像。
3.根据权利要求1所述的方法,其特征在于,所述第二图像检测模型包括:特征提取网络以及与所述特征提取网络连接的输出层,其中,所述特征提取网络包括ResNet网络,和/或,ResNet‑inception混合网络。
4.根据权利要求1所述的方法,其特征在于,若所述第二图像检测模型的特征提取层包括ResNet网络,则所述将所述初始处理图像输入第二图像检测模型,得到所述初始处理图像中目标区域的顶点坐标,包括:通过所述ResNet网络的ResNet block进行特征提取,得到特征提取结果,并将所述特征提取结果输入所述第二图像检测模型的输出层,输出初始处理图像中目标区域的顶点坐标;和/或,
若所述第二图像检测模型的特征提取层包括ResNet‑inception混合网络,则所述将所述初始处理图像输入第二图像检测模型,得到所述初始处理图像中目标区域的顶点坐标包括:
通过所述ResNet‑inception混合网络的ResNet block和inception block进行特征提取,得到特征提取结果,并将所述特征提取结果输入所述第二图像检测模型的输出层,输出初始处理图像中目标区域的顶点坐标。
5.根据权利要求1所述的方法,其特征在于,所述文本初始检测模型包含:EAST模型以及与所述EAST模型的特征提取网络连接的字段域识别神经网络;其中,所述字段域识别神经网络用于基于所述EAST模型的特征提取网络的输出结果,进行字段域识别。
6.根据权利要求1所述的方法,其特征在于,所述将所述目标图像输入文本初始检测模型,得到所述目标图像中的字段域和字符框,包括:将所述目标图像输入文本初始检测模型,所述文本初始检测模型中的EAST模型的特征提取网络对输入的所述目标图像进行特征提取,得到所述目标图像的特征图;
将所述目标图像的特征图输入所述EAST模型的特征融合层,得到融合后的特征图,并将所述融合后的特征图输入所述EAST模型的输出层,得到所述目标图像中的字符框;
将所述目标图像的特征图输入与所述EAST模型的特征提取网络连接的字段域识别神经网络,输出所述目标图片的字段域检测结果。
7.根据权利要求6所述的方法,其特征在于,所述将所述目标图像的特征图输入与所述EAST模型的特征提取网络连接的字段域识别神经网络,输出所述目标图片的字段域检测结果,包括:
根据所述字段域识别神经网络的输入数据的格式要求,对所述将所述目标图像的特征图进行编码,得到编码数据;
将所述编码数据输入字段域识别神经网络,输出所述目标图片的字段域检测结果。
8.根据权利要求1所述的方法,其特征在于,则所述将所述目标图像输入文本初始检测模型,得到所述目标图像中的字段域和字符框,包括:将所述目标图像输入文本初始检测模型,输出所述目标图像中的初始字段域和初始字符框;
根据所述目标图像中各字段域与对应的字符框之间存在固定位置关系,对所述初始字段域和初始字符框进行修正得到字段域和字符框。
9.根据权利要求1所述的方法,其特征在于,将所述字段域输入字段识别模型,得到所述目标图像的字段识别结果,包括:将得到的所述目标图像中的字段域输入字段识别模型,所述字段识别模型通过增加注意力机制的卷积循环神经网络对所述目标图像中的字段域进行处理,得到所述目标图像的字段识别结果。
10.根据权利要求1所述的方法,其特征在于,所述将得到的所述目标图像中的字符框输入字符识别模型,得到所述目标图像的字符识别结果,包括:将得到的所述目标图像中的字符框输入字符识别模型,所述字符识别模型的空间变换网络对所述目标图像中的字符框进行空间变换,得到空间变换结果;
所述字符识别模型的分类网络对所述空间变换结果进行处理得到分类结果;
所述字符识别模型的输出层基于所述分类结果,输出所述目标图像的字符识别结果。
11.根据权利要求1‑10任一所述的方法,其特征在于,所述方法还包括:基于图像检测的目标任务,构建所述图像检测模型的各网络层;
基于字段域和字符框检测的目标任务,构建所述文本初始检测模型的各网络层;
基于字段识别的目标任务,构建所述字段识别模型的各网络层;
基于字符识别的目标任务,构建所述字符识别模型的各网络层;
训练所述构建的图像检测模型的各网络层、文本初始检测模型的各网络层、字段识别模型的各网络层以及字符识别模型的各网络层,得到所述图像检测模型、所述文本初始检测模型、所述字段识别模型以及所述字符识别模型。
12.根据权利要求11所述的方法,其特征在于,所述训练所述构建的图像检测模型的各网络层,文本初始检测模型的各网络层,字段识别模型的各网络层以及字符识别模型的各网络层,得到所述图像检测模型,所述文本初始检测模型,所述字段识别模型以及所述字符识别模型,包括:
获取多个训练图像,并基于所述多个训练图像构建第一训练样本;
将所述第一训练样本输入所述构建的图像检测模型,得到第一训练结果,并根据所述第一训练结果得到第二训练样本;
将所述第二训练样本输入所述构建的文本初始检测模型,得到第二训练结果,并根据所述第二训练结果得到第三训练样本;
将所述第三训练样本分别输入所述构建的字段识别模型以及字符识别模型,得到第三训练结果;
迭代执行所述将所述第一训练样本输入所述构建的图像检测模型至所述得到第三训练结果的各个步骤,直至所述构建的图像检测模型的各网络层、所述文本初始检测模型的各网络层、所述字段识别模型的各网络层以及所述字符识别模型的各网络层收敛。
13.一种图像识别装置,其特征在于,所述装置包括:图像检测模块,用于将获取的原始图像输入图像检测模型,并根据所述图像检测模型的输出结果得到目标图像;
文本初始检测模块,用于将所述目标图像输入文本初始检测模型,得到所述目标图像中的字段域和字符框;
字段识别模块,用于将所述字段域输入字段识别模型,得到所述目标图像的字段识别结果;
字符识别模块,用于将所述字符框输入字符识别模型,得到所述目标图像的字符识别结果;
结果生成模块,用于根据所述字段识别结果和所述字符识别结果得到图像的识别结果;
所述图像检测模型包括第一图像检测模型和第二图像检测模型,所述将原始图像输入图像检测模型,并根据所述图像检测模型的输出结果得到目标图像,包括:将所述原始图像输入第一图像检测模型,得到所述原始图像的特征图;
根据所述原始图像的特征图对所述原始图像进行修正,得到初始处理图像;
将所述初始处理图像输入第二图像检测模型,得到所述初始处理图像中目标区域的顶点坐标;
根据所述初始处理图像中目标区域的顶点坐标对所述初始处理图像进行修正,得到所述目标图像。
14.一种计算机设备,包括存储器及处理器,所述存储器上存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
说明书 :
图像识别方法、装置、计算机设备和存储介质
技术领域
背景技术
识别可以极大压缩了驾驶证信息录入时间,同时还可以减小出错概率。
发明内容
目标图像,包括:
理图像包括:
图;
inception混合网络。
域的顶点坐标包括:通过所述ResNet网络的ResNet block进行特征提取,得到特征提取结
果,并将所述特征提取结果输入所述第二图像检测模型的输出层,输出初始处理图像中目
标区域的顶点坐标;和/或,
标包括:通过所述ResNet‑inception混合网络的ResNet block和inception block进行特
征提取,得到特征提取结果,并将所述特征提取结果输入所述第二图像检测模型的输出层,
输出初始处理图像中目标区域的顶点坐标。
于基于所述EAST模型的特征提取网络的输出结果,进行字段域识别。
像的字段识别结果。
型,字段识别模型以及字符识别模型。
测模型,文本初始检测模型,字段识别模型以及字符识别模型,包括:
各网络层、字段识别模型的各网络层以及字符识别模型的各网络层收敛。
时检测,并基于该字段域和字符框的检测结果进行字段识别和字符识别,该方法可以克服
在进行图像识别时,使用单一的识别手段得到的识别结果不准确的技术问题。
附图说明
具体实施方式
用于限定本申请。
像的采集,处理器100用于处理该原始图像,实现预设的目标任务,终端设备300用于用户输
入控制命令,实现人机交互。具体地,用户可以基于自身需求通过终端设备300输入控制命
令,该控制命令可以被发送至图像采集装置200或处理器100,图像采集装置200或处理器
100可以基于该控制命令执行相应的操作,例如实现图像采集的操作或者图像处理的操作。
证采集图像等等。可选地,用户通过终端设备300输入控制命令可以为图像处理控制命令,
用以控制处理器执行相应的操作,对原始图像进行处理。进一步地,该控制命令还可以为其
他控制命令,例如输出图像的控制命令、删除当前图像的控制命令等等。该删除当前的图像
的控制命令可以被用于在图像采集装置采集的当前图像若不符合用户的期望时,通过终端
设备输入删除当前图像的控制命令以删除当前图像。
选地,该处理器100可以被配置为独立设备,此时,处理器100可以用独立的服务器或者是多
个服务器组成的服务器集群来实现。可选地,该独立设置的处理器可以被设置在云端。可选
地,该图像采集装置200也可以被配置为独立设备,例如可以为车载摄像头等等。
图像采集装置采集的待处理的图像,例如驾驶证图像、护照图像、身份证图像等等待处理的
数据。处理器对该待处理的数据进行处理时,首先从存储器中读取该神经网络算法,之后运
行该算法对待处理的数据进行处理,实现预设的目标任务。该目标任务可以是图像的识别,
例如:人像识别、目标检测或者文本识别等等。
100配置为设置在云端的服务器。相反,在处理器需执行的操作占用的资源较少或者需运行
的算法的数据运算量较小,则可以将个人计算机,智能手机等设备中的处理器配置为上述
应用场景中的处理器。同理,上述应用场景中的处理器100、图像采集装置200以及终端设备
300的具体配置可以基于实际需求和现有设备的配置进行设置,在此本申请不做限定。
容。例如:采集的原始图像驾驶证图像(目标图片)和采集该驾驶证图像的背景图像(其他内
容)。目标图像为包含用户期望内容的图像。具体地,在获取原始图像后,将获取的原始图像
输入图像检测模型,处理器100首先运行图像检测模型的相关神经网络算法对原始图像进
行处理得到输出结果,之后处理器100根据所述图像检测模型的输出结果得到目标图像。
以通过终端设备300输入该图像采集控制命令。可选地,在获取原始图像后,可以通过终端
设备300将该原始图像进行输出,用户可以通过输入的存储当前图像的控制命令、删除当前
图像的控制命令或者处理图像的控制命令,实现对图像进行存储、删除或者处理的操作。
容,得到目标图像。根据该输出结果对原始图像进行修正可以有效的修正图像中的倾斜角
度,可以降低后续步骤由于倾斜对的识别结果的影响,提高识别准确率。
模型可以基于输入的目标图像,输出目标图像中的字段域和字符框。可选地,该文本初始检
测模型还可以输出检测到的字段域的顶点,并根据输出的顶点确定检测的字段域的位置。
可选地,在某些字段域数目固定的目标图像的检测过程中,该文本初始检测模型还可以输
出检测到的字段域的顶点数目,此时,可以基于该顶点数目与字段域数目的对应关系,确定
是否检测出目标图像中全部的字段域,或者判断检测出的字段域是否准确。例如:驾驶证图
像中字段域的总数目为固定数值,此时文本初始检测模型输出的检测到的字段域的顶点数
目为:字段域总数*4。
求对目标图片进行格式转换,以使文本初始检测模型可以对输入的目标图片进行神经网络
运算,得到目标图像中的字段域和字符框。
果。可选地,该字段识别模型包含注意力机制的神经网络。该网络可以更加快速有效的进行
字段识别。
进行格式转换(例如编译),以使字段识别模型可以对输入的字段域进行神经网络运算,得
到目标图像中的字段识别结果。
包含空间变换网络和分类网络,所述空间变换网络的输出为所述分类网络的输入。该模型
通过空间变换网络增加了神经网络的宽度,使字符识别结果更加准确。
进行格式转换(例如编译),以使字符识别模型可以对输入的字符框进行神经网络运算,得
到目标图像中的字符识别结果。
识别结果还是字段识别结果组成图像识别结果。例如:在目标图像为驾驶证图像时,可以使
用字符识别结果作为驾驶证持证人姓名这一字段域的识别结果,可以使用字段识别结果作
为驾驶证持证人出生日期这一字段域的识别结果。可选地,处理器100还可以综合目标图像
中各位置上内容的字符识别结果和字段识别结果,最终得到图像识别结果。
字符框的检测结果进行字段识别和字符识别,该方法可以克服在进行图像识别时,使用单
一的识别手段得到的识别结果不准确的技术问题。
型可以包含用于特征提取的神经网络,例如特征金字塔网络(feature pyramid network,
FNP)。FPN可以通过简单的网络连接改变,解决目标检测中的多尺度问题,其可以在基本不
增加原有模型计算量情况下,大幅度提升了较小目标检测的性能。
始处理图像。可选地,还可以对原始图像的特征图进行裁剪操作,以去除原始图像的特征图
包含除目标内容以外的其他内容,得到初始处理图像。进一步地,处理器100也可以根据设
置对得到的初始处理图像进行清晰度、亮度的调整。根据该特征图对原始图像进行修正可
以有效的修正图像中的倾斜角度,可以降低后续步骤由于倾斜对的识别结果的影响,提高
识别准确率。
坐标。
处理图像进行特征提取,该输出层用于基于特征提取网络输出的特征提取结果输出初始处
理图像中目标区域的顶点坐标。
多个ResNet block和inception block(inception块)。其中,ResNet为在深度神经网络
(Deep Neural Network,DNN)的间隔的网络层之间增加跳跃连接得到的神经网络结构。跳
跃连接之间的网络层构成一个ResNet block。ResNets有助于解决深度神经网络DNN的梯度
消失和梯度爆炸问题,可以保证在训练更深网络的同时,又能拥有良好的性能。其中,
Inception网络包含多个Inception block。Inception block可以并行计算同一输入映射
上的多个不同变换,并将它们的结果都连接成一个单一输出。这可以有效的减少在增加神
经网络(例如卷积神经网络,CNN)的宽度时,过拟合和自由参数增加的问题。
初始处理图像进行裁剪操作,以去除初始处理图像包含除目标内容以外的其他内容,得到
目标图像。进一步地,处理器100也可以根据设置对得到的目标图像进行清晰度、亮度的调
整。根据该初始处理图像中目标区域的顶点坐标对初始处理图像进行修正可以有效的修正
图像中的倾斜角度,可以降低后续步骤由于倾斜对的识别结果的影响,提高识别准确率。
始图像中目标区域的热图和倾斜角度图。步骤S212包括:根据所述原始图像中目标区域的
热图和倾斜角度图对所述原始图像进行修正,得到初始处理图像。
果,并将所述特征提取结果输入所述第二图像检测模型的输出层,输出初始处理图像中目
标区域的顶点坐标。
block和inception block进行特征提取,得到特征提取结果,并将所述特征提取结果输入
所述第二图像检测模型的输出层,输出初始处理图像中目标区域的顶点坐标。
(例如卷积神经网络,CNN)的宽度时,过拟合和自由参数增加的问题。
和与EAST模型的特征提取网络连接的字段域识别神经网络。该字段域识别神经网络用于基
于所述EAST模型的特征提取网络的输出结果,进行字段域识别。可选地,该字段域识别神经
网络可以包含卷基层和全连接层。例如该多层神经网络可以包含多个卷积层和一个全连接
层。可选地,可以先编码EAST的FNP的输出结果,之后再将编码结果输入后续的多层神经网
络,得到目标图像的字段域识别结果。可选地,该文本初始检测模型除了可以基于输入的目
标图像输出识别出的字符框和字段域外,还可以输出目标图像中的字段域的数量。字段域
的数量可以用于模型输出结果的校验与调整。
次的特征提取,大大的提高了目标图像中字符框和字段域的检测效率。
图的格式不匹配时,使用该构建的字段域识别神经网络,增加了该字段域识别神经网络的
通用性。
框。
图像检测,护照图像检测等场景下,这些图像的字段域与字符框本身存在隐含的固定位置
关系,处理器可以基于这些固定的位置关系对检测出的字符框和/或字段域进行修正,以得
到更理想的字符识别模型和/或字段识别模型的输入数据。例如可以修正驾证图像中某些
倾斜的。
recurrent neural network)对目标图像中的字段域进行处理,得到目标图像的字段识别
结果。其中,CRNN包括前半部分是卷积层和后半部分是循环神经网络。
换结果;字符识别模型的分类网络对空间变换结果进行处理得到分类结果;字符识别模型
的输出层基于分类结果,输出目标图像的字符识别结果。
始检测模型,字段识别模型以及字符识别模型。
任务构建神经网络模型,得到各个神经网络模型的神经网络层,即完成神经网络模型的神
经网络构建。最后,训练构建的各个网络模型,使其神经网络收敛。
练图像。可选地,可以有目的根据构建的各个神经网络模型的训练有针对的进行训练图像
的合成。在合成训练图像的过程中还可以基于合成的训练图像的图像类型进行大数据分
析,根据大数据的分析结果有目标的进行训练图像的合成。需要说明的是,再合成训练图像
时,应尽量合成包含多个特征的图像。例如可以统计合成的训练图像中包含的特征,并针对
各个特征进行统计分析,基于统计分析结果进行训练图像的合成。
的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2‑8中的至少一
部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻
执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次
进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地
执行。
进行修正,得到初始处理图像;将所述初始处理图像输入第二图像检测模型,得到所述初始
处理图像中目标区域的顶点坐标;根据所述初始处理图像中目标区域的顶点坐标对所述初
始处理图像进行修正,得到目标图像。
模型,通过所述第一图像检测模型中的特征金字塔网络对所述原始图像进行特征提取,得
到所述原始图像中目标区域的热图和倾斜角度图;根据所述原始图像中目标区域的热图和
倾斜角度图对所述原始图像进行修正,得到初始处理图像。
像检测模型的输出层,输出初始处理图像中目标区域的顶点坐标;和/或,通过所述ResNet‑
inception混合网络的ResNet block和inception block进行特征提取,得到特征提取结
果,并将所述特征提取结果输入所述第二图像检测模型的输出层,输出初始处理图像中目
标区域的顶点坐标。
像进行特征提取,得到所述目标图像的特征图;将所述目标图像的特征图输入所述EAST模
型的特征融合层,得到融合后的特征图,并将所述融合后的特征图输入所述EAST模型的输
出层,得到所述目标图像中的字符框;将所述目标图像的特征图输入与所述EAST模型的特
征提取网络连接的字段域识别神经网络,输出所述目标图片的字段域。
所述编码数据输入字段域识别神经网络,输出所述目标图片的字段域检测结果。
字段域与对应的字符框之间存在固定位置关系,对所述初始字段域和初始字符框进行修正
得到所述目标图像中的字段域和字符框。
述目标图像中的字段域进行处理,得到所述目标图像的字段识别结果。
行空间变换,得到空间变换结果;所述字符识别模型的分类网络对所述空间变换结果进行
处理得到分类结果;所述字符识别模型的输出层基于所述分类结果,输出所述目标图像的
字符识别结果。
述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储
于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的
存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机
程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计
算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时
以实现一种图像识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示
屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上
设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
像输入图像检测模型,并根据所述图像检测模型的输出结果得到目标图像;将所述目标图
像输入文本初始检测模型,得到所述目标图像中的字段域和字符框;将得到的所述目标图
像中的字段域输入字段识别模型,得到所述目标图像的字段识别结果;将得到的所述目标
图像中的字符框输入字符识别模型,得到所述目标图像的字符识别结果;根据所述字段识
别结果和所述字符识别结果得到图像识别结果。
图像检测模型,得到所述原始图像的特征图;根据所述原始图像的特征图对所述原始图像
进行修正,得到初始处理图像;将所述初始处理图像输入第二图像检测模型,得到所述初始
处理图像中目标区域的顶点坐标;根据所述初始处理图像中目标区域的顶点坐标对所述初
始处理图像进行修正,得到目标图像。
进行特征提取,得到所述原始图像中目标区域的热图和倾斜角度图;根据所述原始图像中
目标区域的热图和倾斜角度图对所述原始图像进行修正,得到初始处理图像。
第二图像检测模型的输出层,输出初始处理图像中目标区域的顶点坐标;和/或,通过所述
ResNet‑inception混合网络的ResNet block和inception block进行特征提取,得到特征
提取结果,并将所述特征提取结果输入所述第二图像检测模型的输出层,输出初始处理图
像中目标区域的顶点坐标。
述目标图像进行特征提取,得到所述目标图像的特征图;将所述目标图像的特征图输入所
述EAST模型的特征融合层,得到融合后的特征图,并将所述融合后的特征图输入所述EAST
模型的输出层,得到所述目标图像中的字符框;将所述目标图像的特征图输入与所述EAST
模型的特征提取网络连接的字段域识别神经网络,输出所述目标图片的字段域。
码数据;将所述编码数据输入字段域识别神经网络,输出所述目标图片的字段域检测结果。
图像中各字段域与对应的字符框之间存在固定位置关系,对所述初始字段域和初始字符框
进行修正得到所述目标图像中的字段域和字符框。
神经网络对所述目标图像中的字段域进行处理,得到所述目标图像的字段识别结果。
中的字符框进行空间变换,得到空间变换结果;所述字符识别模型的分类网络对所述空间
变换结果进行处理得到分类结果;所述字符识别模型的输出层基于所述分类结果,输出所
述目标图像的字符识别结果。
符识别模型的各网络层,得到图像检测模型,文本初始检测模型,字段识别模型以及字符识
别模型;其中,所述图像检测模型基于图像检测的目标任务构建,所述文本初始检测模型基
于字段域和字符框检测的目标任务构建,所述字段识别模型基于字段识别的目标任务构
建,所述字符识别模型基于字符识别的目标任务构建。
二训练样本;将所述第二训练样本输入所述构建的文本初始检测模型,得到第二训练结果,
并根据所述第二训练结果得到第三训练样本;将所述第三训练样本分别输入所述构建的字
段识别模型以及字符识别模型,得到第三训练结果;迭代执行所述将所述第一训练样本输
入所述构建的图像检测模型至所述得到第三训练结果的各个步骤,直至所述构建的图像检
测模型的各网络层,文本初始检测模型的各网络层,字段识别模型的各网络层以及字符识
别模型的各网络层收敛。
测模型的输出结果得到目标图像;将所述目标图像输入文本初始检测模型,得到所述目标
图像中的字段域和字符框;将得到的所述目标图像中的字段域输入字段识别模型,得到所
述目标图像的字段识别结果;将得到的所述目标图像中的字符框输入字符识别模型,得到
所述目标图像的字符识别结果;根据所述字段识别结果和所述字符识别结果得到图像识别
结果。
一图像检测模型,得到所述原始图像的特征图;根据所述原始图像的特征图对所述原始图
像进行修正,得到初始处理图像;将所述初始处理图像输入第二图像检测模型,得到所述初
始处理图像中目标区域的顶点坐标;根据所述初始处理图像中目标区域的顶点坐标对所述
初始处理图像进行修正,得到目标图像。
行特征提取,得到所述原始图像中目标区域的热图和倾斜角度图;根据所述原始图像中目
标区域的热图和倾斜角度图对所述原始图像进行修正,得到初始处理图像。
入所述第二图像检测模型的输出层,输出初始处理图像中目标区域的顶点坐标;和/或,通
过所述ResNet‑inception混合网络的ResNet block和inception block进行特征提取,得
到特征提取结果,并将所述特征提取结果输入所述第二图像检测模型的输出层,输出初始
处理图像中目标区域的顶点坐标。
所述目标图像进行特征提取,得到所述目标图像的特征图;将所述目标图像的特征图输入
所述EAST模型的特征融合层,得到融合后的特征图,并将所述融合后的特征图输入所述
EAST模型的输出层,得到所述目标图像中的字符框;将所述目标图像的特征图输入与所述
EAST模型的特征提取网络连接的字段域识别神经网络,输出所述目标图片的字段域。
编码数据;将所述编码数据输入字段域识别神经网络,输出所述目标图片的字段域检测结
果。
标图像中各字段域与对应的字符框之间存在固定位置关系,对所述初始字段域和初始字符
框进行修正得到所述目标图像中的字段域和字符框。
环神经网络对所述目标图像中的字段域进行处理,得到所述目标图像的字段识别结果。
像中的字符框进行空间变换,得到空间变换结果;所述字符识别模型的分类网络对所述空
间变换结果进行处理得到分类结果;所述字符识别模型的输出层基于所述分类结果,输出
所述目标图像的字符识别结果。
字符识别模型的各网络层,得到图像检测模型,文本初始检测模型,字段识别模型以及字符
识别模型;其中,所述图像检测模型基于图像检测的目标任务构建,所述文本初始检测模型
基于字段域和字符框检测的目标任务构建,所述字段识别模型基于字段识别的目标任务构
建,所述字符识别模型基于字符识别的目标任务构建。
第二训练样本;将所述第二训练样本输入所述构建的文本初始检测模型,得到第二训练结
果,并根据所述第二训练结果得到第三训练样本;将所述第三训练样本分别输入所述构建
的字段识别模型以及字符识别模型,得到第三训练结果;迭代执行所述将所述第一训练样
本输入所述构建的图像检测模型至所述得到第三训练结果的各个步骤,直至所述构建的图
像检测模型的各网络层,文本初始检测模型的各网络层,字段识别模型的各网络层以及字
符识别模型的各网络层收敛。
可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,
本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可
包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM
(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括
随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,
诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强
型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM
(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
盾,都应当认为是本说明书记载的范围。
说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护
范围。因此,本申请专利的保护范围应以所附权利要求为准。