一种二阶段的英文字符检测与识别方法及系统转让专利

申请号 : CN202311139011.3

文献号 : CN117037173B

文献日 :

基本信息:

PDF:

法律信息:

相似专利:

发明人 : 廖春燕谭燕保刘雅婷

申请人 : 武汉纺织大学

摘要 :

本发明公开了一种二阶段的英文字符检测与识别方法及系统,所述的二阶段的英文字符检测与识别方法包含如下步骤:首先获取带有英文字符串的图片,然后使用二阶段英文字符检测模块,检测出英文字符串的目标区域,再使用小目标英文字符识别模块,输出字符串预测序列,最后通过字符串预测序列得到预测的字符串。本发明结合英语字符场景改进英文字符检测网络和英文字符识别网络的结构提升特征学习能力,并设计损失函数加快网络学习,实现日常场景下对英文字符的检测与识别,推动了英文字符识别的智能化,提供了高准确性的英文字符检测与识别方案。

权利要求 :

1.一种二阶段的英文字符检测与识别方法,其特征在于,包括以下步骤:

步骤1,获取带有英文字符串的图片;

步骤2,使用二阶段英文字符检测模块,检测出字符串的目标区域;

步骤2中的二阶段英文字符检测模块分两个支路按照两个阶段来分别处理带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第10层到第13层的结构和第2层到第5层结构相同;第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成;

然后对两条分支的后续操作:首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果;

所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;

步骤3,使用小目标英文字符识别模块,输出字符串预测序列;

步骤4,通过字符串预测序列得到预测的字符串。

2.如权利要求1所述的一种二阶段的英文字符检测与识别方法,其特征在于:步骤3中的小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,

3×3深度可分离卷积层和两层Transformer层,然后再通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层,最后通过两层全连接层输出最终英文预测序列结果。

3.如权利要求1所述的一种二阶段的英文字符检测与识别方法,其特征在于:所述一阶段特征卷积层由1×1卷积层、Prelu卷积层、3×3深度可分离卷积层、层归一化层、3×3深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。

4.如权利要求1所述的一种二阶段的英文字符检测与识别方法,其特征在于:所述二阶段特征卷积层的结构由1×1卷积层、Prelu卷积层、3×3空洞深度可分离卷积层、层归一化层、3×3空洞深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。

5.如权利要求1所述的一种二阶段的英文字符检测与识别方法,其特征在于:所述二阶段特征融合模块的计算公式:公式中的F′表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F′展平成1维特征,然后分别进行全连接操作得到的特征向量,其中全连接层的初始参数是随机的,Fview是将一维向量还原成输入特征图F′维度的函数,F是输出特征图。

6.一种二阶段的英文字符检测与识别系统,其特征在于,包括以下模块:

图片获取模块,用于获取带有英文字符串的图片;

二阶段目标区域检测模块,用于使用二阶段英文字符检测模块,检测出英文字符串的目标区域;

二阶段英文字符检测模块分两个支路按照两个阶段来分别处理带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第

10层到第13层的结构和第2层到第5层结构相同;第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成;

然后对两条分支的后续操作:首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果;

所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;

预测序列模块,用于使用小目标英文字符识别模块,输出英文字符串预测序列;

字符串输出模块,用于通过字符串预测序列得到预测的字符串。

7.如权利要求6所述的一种二阶段的英文字符检测与识别系统,其特征在于:小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层,然后再通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层,最后通过两层全连接层输出最终英文预测序列结果。

8.如权利要求6所述的一种二阶段的英文字符检测与识别系统,其特征在于:所述二阶段特征融合模块的计算公式:公式中的F′表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F′展平成1维特征,然后分别进行全连接操作得到的特征向量,其中全连接层的初始参数是随机的,Fview是将一维向量还原成输入特征图F′维度的函数,F是输出特征图。

说明书 :

一种二阶段的英文字符检测与识别方法及系统

技术领域

[0001] 本发明涉及字符识别领域,并且更具体地,涉及一种二阶段的英文字符检测与识别方法。

背景技术

[0002] 当今社会越来越多的信息以文本的形式存储在书本,物品包装,浏览网页等载体上,这些信息有的时候是很有用的,可以辅助完成一些工作,所以字符识别技术应运而生,在信息处理,文档书写等领域发挥着重要作用。
[0003] 随着深度学习技术的不断发展,基于深度学习的自然图像文本检测与识别已成为当前文档分析与识别领域的热点研究。深度神经网络本身所具备的很强的非线性拟合能力,理论上可以映射任意复杂的函数,具有很强的鲁棒性。因此,相对于传统的文本检测与识别方法,深度神经网络能够解决复杂自然场景下的文本图像到文本位置和文本内容的映射问题。
[0004] 公开号为CN115512342A的中国专利公开了“基于卷积循环神经网络的字符识别系统、字符识别方法”提出了一种基于投票机制的文本识别方法,它可以很大程度上节省计算量,但是输出结果的准确性依赖于投票规则的制定。

发明内容

[0005] 针对现有技术的以上缺陷或者改进需求,本发明提供了一种二阶段的英文字符检测与识别方法,其目的在于实现对卷积循环神经网络的英文字符的检测与识别,推动英文字符识别的智能化,提升英文字符识别的准确性。
[0006] 为实验上述目的,按照本发明的一个方面,提供了一种二阶段的英文字符检测与识别方法,包括以下步骤:
[0007] 步骤1,获取带有英文字符串的图片;
[0008] 步骤2,使用二阶段英文字符检测模块,检测出字符串的目标区域;
[0009] 所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:
[0010]
[0011] 公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;
[0012] 步骤3,使用小目标英文字符识别模块,输出字符串预测序列;
[0013] 步骤4,通过字符串预测序列得到预测的字符串。
[0014] 进一步的,步骤2中的二阶段英文字符检测模块分两个支路按照两个阶段来分别处理带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第10层到第13层的结构和第2层到第5层结构相同。第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成;
[0015] 然后对两条分支的后续操作:首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果。
[0016] 进一步的,步骤3中的小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层构成,然后再重复一次上述操作,最后通过两层全连接层输出最终英文预测序列结果。
[0017] 进一步的,所述一阶段特征卷积层由1×1卷积层、Prelu卷积层、3×3深度可分离卷积层、层归一化层、3×3深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。
[0018] 进一步的,所述二阶段特征卷积层的结构由1×1卷积层、Prelu卷积层、3×3空洞深度可分离卷积层、层归一化层、3×3空洞深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。
[0019] 进一步的,所述二阶段特征融合模块的计算公式:
[0020]
[0021] 公式中的F´表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F´展平成1维特征,然后分别进行全连接操作得到的特征向量,其中全连接层的初始参数是随机的,Fview是将一维向量还原成输入特征图F´维度的函数,F是输出特征图。
[0022] 另一方面,本发明提供一种二阶段的英文字符检测与识别系统,包括以下模块:
[0023] 图片获取模块,用于获取带有英文字符串的图片;
[0024] 二阶段目标区域检测模块,用于使用二阶段英文字符检测模块,检测出英文字符串的目标区域;
[0025] 所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:
[0026]
[0027] 公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;
[0028] 预测序列模块,用于使用小目标英文字符识别模块,输出英文字符串预测序列;
[0029] 字符串输出模块,用于通过字符串预测序列得到预测的字符串。
[0030] 二阶段英文字符检测模块分两个支路按照两个阶段来分别处理带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第10层到第13层的结构和第2层到第5层结构相同。第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成;
[0031] 然后对两条分支的后续操作:首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果。
[0032] 进一步的,小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层构成,然后再重复一次上述操作,最后通过两层全连接层输出最终英文预测序列结果。
[0033] 进一步的,所述二阶段特征融合模块的计算公式:
[0034]
[0035] 公式中的F´表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F´展平成1维特征,然后分别进行全连接操作得到的特征向量,其中全连接层的初始参数是随机的,Fview是将一维向量还原成输入特征图F´维度的函数,F是输出特征图。
[0036] 总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
[0037] (1)设计了二阶段的英文目标检测网络,通过同时学习高分辨率图像和低分辨率图像获得更多文本特征,使英文文本区域检测更加准确。
[0038] (2)设计了参数可调节的位置损失函数,可以根据不同场景调节参数使网络较快的收敛。
[0039] (3)提供了一种适用于卷积循环神经网络的英文字符检测与识别策略,有助于英文字符检测与识别。

附图说明

[0040] 图1 本发明实施例提供的一种二阶段的英文字符检测与识别方法的技术方案流程图。
[0041] 图2 本发明实施例提供的一种二阶段的英文字符检测与识别方法的二阶段英文字符检测模块网络结构图。
[0042] 图3 本发明实施例提供的一种二阶段的英文字符检测与识别方法的一阶段卷积层结构图。
[0043] 图4 本发明实施例提供的一种二阶段的英文字符检测与识别方法的二阶段卷积层结构图。
[0044] 图5 本发明实施例提供的一种二阶段的英文字符检测与识别方法的小目标英文字符识别模块结构图。

具体实施方式

[0045] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0046] 本发明提供的一种二阶段的英文字符检测与识别方法的技术方案,请参见附图1,具体包含如下步骤:
[0047] (1)获取带有英文字符串的图片;
[0048] 通过拍摄获得带有英文字符的图片,不需要预处理直接进入如下步骤识别出有英文字符的区域。
[0049] (2)使用二阶段英文字符检测模块,检测出字符串的目标区域;
[0050] 所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数;
[0051] 优选的,二阶段英文字符检测模块分两个支路按照两个阶段来分别处理大分辨率和小分辨率的带英文字符串图像,第一阶段分支的第一层是3×3深度可分离卷积层,第2层到第5层分别是一阶段特征卷积层,一阶段特征卷积层,一阶段特征卷积层和2倍下采样层,第一阶段分支的第6层到第9层和第10层到第13层的结构和第2层到第5层结构相同。第二阶段分支的第一层是4倍下采样层,第二阶段分支的第2层到第5层和第6层到第9层结构相同,由3个二阶段特征卷积层和2倍下采样层组成。
[0052] 优选的,二阶段英文字符检测模块在训练过程中使用的参数可调节的位置损失函数Loss位置如下:
[0053]
[0054] 公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子。通过计算真实框与预测框左上角距离和右下角距离之和比真实框左上角与预测框右下角距离用来做误差计算并融合了真实框与预测框的交并比计算,可以较快的引导预测框向真实框靠近。
[0055] 具体的,一阶段特征卷积层和二阶段特征卷积层的具体结构。一阶段特征卷积层由1×1卷积层、Prelu卷积层、3×3深度可分离卷积层、层归一化层、3×3深度可分离卷积层、1×1卷积层、Prelu卷积层和层归一化层组成。其中二阶段特征卷积层的结构与一阶段特征卷积层的区别在于二阶段特征卷积层中将3×3深度可分离卷积层换成了3×3空洞深度可分离卷积层,将小分辨率特征图的感受野扩大。
[0056] 具体的,二阶段英文字符检测模块中对两条分支的后续操作:
[0057] 首先将第一条分支中的第9层输出与第二分支的第5层输出拼接,通过一个二阶段特征融合模块进行两阶段特征学习,然后将输入特征图,第一分支最后一层输出特征图和第二分支最后一层输出特征图进行特征拼接,最后依次进行二阶段特征融合模块,3×3卷积层,Prelu卷积层,层归一化层和1×1卷积层得到最终的预测结果。
[0058] 具体的,二阶段特征融合模块的计算公式。
[0059]
[0060] 公式中的F´表示输入到二阶段特征融合模块的特征图,其中Q1,Q2和Q3是将输入特征图F´展平成1维特征,然后分别进行全连接操作得到的特征向量,因为每一个全连接层参数不同所以Q1,Q2和Q3也不相同,其中每个全连接层的初始参数是随机的。Fview是将一维向量还原成输入特征图F´维度的函数,F是输出特征图。
[0061] (3)使用小目标英文字符识别模块,输出字符串预测序列,请参见附图5,图5是实施用例提供的一种二阶段的英文字符检测与识别方法的小目标英文字符识别模块网络结构图;
[0062] 优选的,小目标英文字符识别模块具体结构如下:首先通过3×3深度可分离卷积层、1×1卷积层,3×3深度可分离卷积层和两层Transformer层构成,然后再重复一次上述操作,最后通过两层全连接层输出最终英文预测序列结果。
[0063] (4)通过字符串预测序列得到预测的字符串。
[0064] 优选的,得到字符串预测序列后采用去冗余技术得到最终的预测字符串。
[0065] 本发明提供一种二阶段的英文字符检测与识别方法,结合英语字符场景改进英文字符检测网络和英文字符识别网络的结构提升特征学习能力,并设计损失函数加快网络学习,实现日常场景下对英文字符的检测与识别,推动了英文字符识别的智能化,提供了高准确性的英文字符检测与识别方案。本专利的实验均在CA‑IC15数据集上进行了实验验证,并得到了86.9%的英文字符识别准确率,这是目前本领域的先进水平。
[0066] 本试验采用的公开数据集为CA‑IC15,数据集中的样本来自真实场景下包含了857张图片,评估了模型的实用性。分别与2021年最先进的算法ABINet(Autonomous, bidirectional and iterative language modeling for scene text recognition. )、和2022年最先进的算法SGTR(Visual semantics allow for textual reasoning better in scene text recognition)方法进行了对比,本发明方法以具体实施方式的方法为例。
[0067] 文本识别评价指标: accuracy:
[0068]
[0069] 其中accuracy数值越大效果越好。
[0070] 表1 在CA‑IC15数据集上与先进方法的accuracy对比
[0071]
[0072] 从表1可见,本发明方法在文本识别任务上相比于目前最好的准确率提升了0.9%,由此可以得出我们的方法确实可以有效提高英文文本识别的准确率。
[0073] 本发明还提供一种二阶段的英文字符检测与识别系统,包括以下模块:
[0074] 图片获取模块,用于获取带有英文字符串的图片;
[0075] 二阶段目标区域检测模块,用于使用二阶段英文字符检测模块,检测出英文字符串的目标区域;
[0076] 所述的二阶段英文字符检测模块在训练过程中使用的损失函数是参数可调节的位置损失函数Loss位置,计算公式如下:
[0077]
[0078] 公式中IoU为真实框和预测框交并比,Yl是真实框左上角的纵坐标,Xl是真实框左上角的横坐标,yl是预测框左上角的纵坐标,xl是预测框左上角的横坐标,Yr是真实框右下角的纵坐标,Xr是真实框右下角的横坐标,yr是预测框右下角的纵坐标,xr是预测框右下角的横坐标,σ损失比例调节因子;
[0079] 预测序列模块,用于使用小目标英文字符识别模块,输出英文字符串预测序列;
[0080] 字符串输出模块,用于通过字符串预测序列得到预测的字符串。
[0081] 各模块的具体实现方式与各步骤相同,本发明不予撰述。
[0082] 本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。